• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發(fā)私信給黃善清
    發(fā)送

    0

    眾包標注質量不穩(wěn)定?讓機器給標注工上個課吧! | KDD 2018

    本文作者: 黃善清 2018-11-14 09:37 專題:KDD 2018
    導語:模型假設每個 learner 都有指數(shù)型的記憶遺忘曲線,并且能夠保證教學的有效性,多樣性,以及教學樣本的質量。

    雷鋒網(wǎng) AI 科技評論按:本文為亞利桑那州立大學在讀計算機博士生周耀的獨家投稿,他給大家介紹了一個基于機器教學為基礎的自適應交互型眾包教學框架——JEDI ,它假設每個 learner 都有指數(shù)型的記憶遺忘曲線,并且能夠保證教學的有效性,多樣性,以及教學樣本的質量。作者的原論文入選了今年的 KDD 會議。以下為投稿全文。

    在很多機器學習的問題中,一個模型的表現(xiàn)往往取決于標注數(shù)據(jù)集的數(shù)據(jù)規(guī)模和標注質量。很多的監(jiān)督式機器學習(supervised learning)模型,尤其是深度學習,都需要大量的標注數(shù)據(jù)來進行模型訓練。比如說,ImageNet 是一個廣為人知的用于計算機視覺領域的圖像識別,物體檢測,物體定位的數(shù)據(jù)集,里面包含了 1400 萬張有人工標注和分類的圖片。然而,很多的研究者都比較關注如何能夠有效的使用這些數(shù)據(jù)進行模型設計和改良,卻只有比較少的研究在跟進如何更有效的獲得這些高質量的大規(guī)模標注數(shù)據(jù)。目前互聯(lián)網(wǎng)存在的,人為標注的大規(guī)模數(shù)據(jù)集通常都會使用眾包(crowdsourcing)技術來進行標注。

    眾包標注質量不穩(wěn)定?讓機器給標注工上個課吧! | KDD 2018

    圖 1:深度學習和 ImageNet

    相比較于外包數(shù)據(jù)集給專業(yè)公司做標注,眾包標注的優(yōu)勢有以下幾點:

    1.  價格低廉。很多非職業(yè)的標注者(worker)愿意以較低的報酬在一些平臺上,比如說 AMT(Amazon Mechanical Turk),幫助科研工作者或者公司來標注數(shù)據(jù)。

    2. 標注周期短。因為對于標注質量的要求并不是很嚴格,放置在眾包平臺的數(shù)據(jù)往往可以在短期內得到標注。

    3. 標注數(shù)量大。在眾包的標注平臺上,一般每個數(shù)據(jù)(item)都會得到多個標注者的標注,因此每一個數(shù)據(jù)都會得到大量的冗余標簽。

    眾包標注質量不穩(wěn)定?讓機器給標注工上個課吧! | KDD 2018

     圖 2:眾包標注的平臺

    圖 2 和圖 3 是一個典型的眾包標注的例子:目標是讓 worker 把圖片的類型標注為兩類:馴化的貓,野生的貓。如果 AMT 給出了圖 2 中的 item,大多數(shù)的 worker 都可以很容易的給出正確的標簽。

    眾包標注質量不穩(wěn)定?讓機器給標注工上個課吧! | KDD 2018

    圖 3:眾包平臺的標注者標注一個簡單的家貓圖片

    然而,很多時候,圖片標注也需要一些專業(yè)知識。圖 4 中的貓,對與一些 worker 來講,就不是很好辨別這只貓是馴化過的還是野生的。比如說,和動物打交道比較多的 worker 就可以相對容易的解決這個標注問題,但是一個不太有經(jīng)驗的小女孩就可能給出錯誤的標簽。因此,對于一個特定的標注問題,worker 和 worker 之間有著標注能力的差異,這種差異也會在標注的時候在他們給出的標簽上體現(xiàn)出來。這種差異往往會對眾包標簽融合的算法帶來一些挑戰(zhàn)。

     眾包標注質量不穩(wěn)定?讓機器給標注工上個課吧! | KDD 2018

    圖 4:眾包平臺的標注者標注一個比較難的家貓圖片

    目前,比較成熟的眾包標簽融合的算法主要有兩類方法:

    1. 第一類方法主要是用收集的眾包標簽對 worker 的標注能力進行估計,然后在標簽融合的過程中加大優(yōu)秀 worker 的權重并且降低較差 worker 的權重。

    2. 第二類方法一般是通過設計更好的激勵機制(incentive mechanism)來引導 worker 提供更優(yōu)質的 label。

    然而,現(xiàn)在常用的方法都忽略了一個很重要的事實,那就是:相比于機器,人類是非常擅長學習一個新的概念(concept),而且可以很容易的將所學的概念很好的泛化并且轉移到相似的問題中。圖 5 中,人類可以通過看一些插畫展示從而學會如何正確標注家貓和野貓的圖片。因此,一個更有效的使用眾包標注的方式其實應該是在監(jiān)督 worker 標注的同時對他們進行教學(teach)。

    眾包標注質量不穩(wěn)定?讓機器給標注工上個課吧! | KDD 2018

    圖 5:人類的學習和泛化遷移能力

    基于機器教學的眾包教學框架——JEDI

    為了充分利用 worker 的學習能力,我們提出了一個基于機器教學(machine teaching)的眾包教學框架 JEDI。首先,我們會先介紹什么是機器教學?機器教學其實是機器學習的反過程。如圖 6 所示,如果給予一個數(shù)據(jù)集和一個算法(e.g. SVM, Logistic Regression),機器學習的目標是在模型空間(model space)里學習一個概念(concept)。然后,對于機器教學,目標概念(target concept)和算法是已知的,最終的目標是找到最優(yōu)的數(shù)據(jù)集。關于數(shù)據(jù)集最優(yōu)的定義可以很多元化,e.g. 數(shù)據(jù)集規(guī)模最小,學習速度最快,等等。

     眾包標注質量不穩(wěn)定?讓機器給標注工上個課吧! | KDD 2018

    圖 6:機器學習和機器教學

    我們提出的 JEDI 眾包教學實際上是 adJustable Exponentially Decayed memory Interactive Crowd Teaching 的縮寫,JEDI 的特點是:

    1. 自適應教學,每個 worker/learner 的教學過程都是不同的。

    2. 記憶遺忘,每個 worker/learner 都會在學習的過程中逐漸遺忘過往所學。

    3. 指數(shù)衰減,記憶遺忘的曲線是呈指數(shù)衰減的。

    4. 交互教學,worker/learner 和 teacher 是有多次交互的。

    關與交互教學,圖 7 是一個簡單的例子:

     眾包標注質量不穩(wěn)定?讓機器給標注工上個課吧! | KDD 2018

    圖 7:交互式教學

    如圖 8 所示,JEDI 的每一輪教學(這里假設是第 t 輪)包括以下三個步驟:

    1. Teacher 估計 learner 的學習進度,根據(jù) learner 之前的標注反饋得到上一次的學習概念,然后 teacher 向 learner 推薦一個新的樣本進行教學。

    2. Teacher 向 learner 展示教學樣本(隱藏樣本真實標簽),要求 learner 提供他自己對當前樣本的標注標簽。

    3. Teacher 展示樣本真實標簽,learner 辨識樣本真實標簽,并結合樣本本身進行概念學習。

     眾包標注質量不穩(wěn)定?讓機器給標注工上個課吧! | KDD 2018

    圖 8:JEDI 的交互式教學示意圖

    學生(learner)模型:

    - 每一個 learner 的學習過程都假設遵循梯度下降的規(guī)律:

    眾包標注質量不穩(wěn)定?讓機器給標注工上個課吧! | KDD 2018

    - 我們進一步假設每一個 learner 對于學過的 concepts 的可收回度(retrievability)呈指數(shù)型遞減:

    眾包標注質量不穩(wěn)定?讓機器給標注工上個課吧! | KDD 2018

    老師(teacher)模型:

    - Teacher 的目標是通過教學減少 learner 學到的當前概念(current concept)和目標概念之間的差異,所以教學的目標方程是:

     眾包標注質量不穩(wěn)定?讓機器給標注工上個課吧! | KDD 2018

    - 這個目標方程可以被分解,具體細節(jié)請參考論文:

    眾包標注質量不穩(wěn)定?讓機器給標注工上個課吧! | KDD 2018 - 如果我們將預測錯誤的概率簡寫為如下表達,總體的教學目標可以進一步簡化為:

     眾包標注質量不穩(wěn)定?讓機器給標注工上個課吧! | KDD 2018

    眾包標注質量不穩(wěn)定?讓機器給標注工上個課吧! | KDD 2018

    JEDI 模型的具體運作

    JEDI 模型理解:

    - 教學有效性(usefulness)和教學多樣性(diversity)的平衡(tradeoff):JEDI 的目標函數(shù)經(jīng)過簡化,優(yōu)化問題的目標函數(shù)會包括有效性和多樣性兩部分組成。直觀的來講,這個平衡意味著 JEDI 可以通過最大化下一個教學樣本的有效性和最大化教學樣本之間的多樣性從而引導 learner 向著目標概念的方向學習。

    眾包標注質量不穩(wěn)定?讓機器給標注工上個課吧! | KDD 2018

    圖 9:教學有效性和多樣性的平衡

    - 探索(exploration)和利用(exploitation)的選擇:如圖 10 所示,如果 teacher 選擇的下一個教學樣本 xt 和上一個教學樣本 xt-1 有標簽相同,我們稱之為利用(exploitation);如果 teacher 選擇的下一個教學樣本 xt 和上一個教學樣本 xt-1 有標簽不同,我們稱之為探索(exploration)。

    眾包標注質量不穩(wěn)定?讓機器給標注工上個課吧! | KDD 2018

    圖 10:教學中的探索和利用

    - 教學樣本的質量:如果上一個教學樣本 xt-1 是一個有效性(usefulness)比較低的樣本,JEDI 眾包教學可以保證下一個教學樣本 xt 具有以下特性:

    •  在 exploitation 的教學場景下,teacher 會推薦跟 xt-1 特征非常不同的教學樣本 xt。因為 xt-1 的有效性比較低,同一個類型(class)的但是特征(feature)非常不同的樣本可能會有比較高的教學有效性。

    • 在 exploration 的教學場景下,teacher 會會推薦跟 xt-1 特征非常接近的教學樣本 xt。因為不同類型(class)的但是特征(feature)非常接近的樣本可能會有比較有代表性,從而有較高的教學有效性。

    眾包標注質量不穩(wěn)定?讓機器給標注工上個課吧! | KDD 2018

    圖 11:JEDI 教學的教學樣本

    真實場景的教學:

    - JEDI 教學在現(xiàn)實場景中是無法直接估計 learner 學到的當前概念 wt 的,因此我們在 JEDI 里使用原目標函數(shù)的下限來解決這個優(yōu)化問題:

     眾包標注質量不穩(wěn)定?讓機器給標注工上個課吧! | KDD 2018

    - JEDI 教學也需要樣本的預測為正類的概率和預測為負類的概率作為輸入,這兩個參量也不是直接給予的,我們使用 harmonic function 來對他們進行估計:

    眾包標注質量不穩(wěn)定?讓機器給標注工上個課吧! | KDD 2018

    眾包標注質量不穩(wěn)定?讓機器給標注工上個課吧! | KDD 2018總結:

    JEDI 是一個基于機器教學為基礎的自適應交互型眾包教學框架,它假設每個 learner 都有指數(shù)型的記憶遺忘曲線,并且能夠保證教學的有效性,多樣性,以及教學樣本的質量。

    具體信息請參考我們的論文:

    http://www.public.asu.edu/~yzhou174/ 

    源代碼:

    https://github.com/collwe/JEDI-Crowd-Teaching 

    demo 展示:

    http://198.11.228.162:9000/memory/index/ 

    視頻講解:

    https://www.youtube.com/watch?v=345o0QazwO8&t=4s 

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知

    眾包標注質量不穩(wěn)定?讓機器給標注工上個課吧! | KDD 2018

    分享:
    相關文章
    當月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 中文字幕久久国产精品| 色五开心五月五月深深爱| 国产人妻绿帽| 成A人片亚洲日本久久| 亚洲色大成网站WWW久久| 国产成人av| 国产亚洲精品性爱视频| 欧美成人精品在线| 国产AV国片精品有毛| 男男车车的车车网站w98免费 | 娇小另类XXXHD| 日韩AV一区二区三区| 成人av手机在线观看| 蜜芽久久人人超碰爱香蕉| 国产99视频精品免费视频36| 99精品久久免费精品久久| 中文字幕乱码人妻无码久久久1| 久久丫精品国产亚洲AV| 亚洲精品二区在线播放| 18禁午夜宅男成年网站| 国产精品极品美女自在线观看免费| 亚洲成人在线一区二区三区| 欧美精品亚洲精品日韩专区| 国产在线拍揄自揄拍免费下载| 日本中文一区二区三区亚洲| 天堂av无码大芭蕉伊人av孕妇黑人 | 亚洲精品国产成人| 99久久亚洲综合精品网| 日韩精品亚洲专在线电影| 欧美国产日韩在线三区| 人妻另类综合| 国产一区二区内部视频 | 国产亚洲综合一区二区三区| 日本边添边摸边做边爱喷水| 国产高清精品软件丝瓜软件| 久久精品人妻中文视频| 美女内射毛片在线看免费人动物| 九九久久亚洲精品美国国内| 色妺妺在线视频喷水| 国产精品人妻中文字幕| 性欧美老妇另类xxxx|