近日,麻省理工學(xué)院(MIT)發(fā)布新論文,發(fā)現(xiàn)在AI基準(zhǔn)數(shù)據(jù)集中存在“系統(tǒng)性” 標(biāo)簽錯誤,平均誤差3.4%。螃蟹變“龍蝦”、青蛙成“貓”、手寫數(shù)字3變“5”……大量圖文音視頻等內(nèi)容的標(biāo)記錯誤,或會影響AI預(yù)判及科學(xué)家實驗結(jié)論。
MIT研究人員通過模型訓(xùn)練,發(fā)現(xiàn)AI可對標(biāo)簽錯誤自行“修正”,且低容量、簡單模型在訓(xùn)練AI修正數(shù)據(jù)集精確度時效果最佳。
該研究論文題目為《ML數(shù)據(jù)集中普遍存在的標(biāo)簽錯誤會破壞基準(zhǔn)測試的穩(wěn)定性(Pervasive Label Errors in ML Datasets Destabilize Benchmarks)》。
論文鏈接:https://labelerrors.com/paper.pdf
一、系統(tǒng)性標(biāo)簽錯誤:影響AI及科學(xué)家預(yù)判,平均誤差3.4%
人工智能和機(jī)器學(xué)習(xí)領(lǐng)域可以說是建立在幾百篇論文的肩膀上的,其中很多論文都是利用公共數(shù)據(jù)集的子集得出結(jié)論。從圖像分類到音頻分類,大量的標(biāo)注語料對人工智能的成功至關(guān)重要。這是因為它們的注釋將可理解的模式暴露給機(jī)器學(xué)習(xí)算法,實際上是告訴機(jī)器在未來的數(shù)據(jù)集中尋找什么,這樣它們就能夠做出預(yù)測。
但是,盡管標(biāo)記數(shù)據(jù)通常等同于基本事實,但數(shù)據(jù)集也確實會出錯。
構(gòu)建語料庫的過程中,通常涉及某種程度的自動注釋或眾包技術(shù),這些技術(shù)本身就容易出錯。當(dāng)這些錯誤到達(dá)測試集(研究人員用來比較進(jìn)展和驗證他們的發(fā)現(xiàn)的數(shù)據(jù)集子集)時,就存在很大問題。這可能會導(dǎo)致科學(xué)家判斷模型的實際表現(xiàn)時得出錯誤結(jié)論,可能會破壞社區(qū)對機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行基準(zhǔn)測試的框架。
論文共同作者在對包括ImageNet在內(nèi)的10個數(shù)據(jù)集的測試集分析中發(fā)現(xiàn),從ImageNet驗證集中的2900多個錯誤,到QuickDraw中的500多萬個錯誤不等,所有數(shù)據(jù)集平均有3.4%的錯誤。
研究人員說,錯誤的標(biāo)簽使測試集的基準(zhǔn)測試結(jié)果不穩(wěn)定。例如,當(dāng)ImageNet和另一個圖像數(shù)據(jù)集CIFAR-10因標(biāo)記錯誤而被糾正時,較大的模型的性能比容量較低的模型差。這是因為高容量模型比小容量模型在更大程度上反映了標(biāo)記錯誤在預(yù)測中的分布,這種影響隨著錯誤標(biāo)記測試數(shù)據(jù)的流轉(zhuǎn)而增加。
▲顯示了在流行的人工智能基準(zhǔn)數(shù)據(jù)集中標(biāo)注錯誤的百分比
在選擇要審計的數(shù)據(jù)集時,研究人員選取計算機(jī)視覺、自然語言處理、情感分析和音頻多領(lǐng)域模式,查看了過去20年中創(chuàng)建的最常用的開放源代碼數(shù)據(jù)集。他們評估了六個圖像數(shù)據(jù)集(MNIST,CIFAR-10,CIFAR-100,Caltech-256,Image Net),三個文本數(shù)據(jù)集(20news、IMDB和Amazon評論)和一個音頻數(shù)據(jù)集(AudioSet)。
據(jù)研究人員評估,QuickDraw在其測試集中的錯誤百分比最高,占總標(biāo)簽的10.12%。CIFAR排名第二,錯誤標(biāo)簽率約為5.85%,ImageNet緊隨其后,為5.83%。39萬個標(biāo)簽錯誤約占亞馬遜評論數(shù)據(jù)集的4%。
其中,有圖像、文字情緒及音頻等標(biāo)記錯誤。例如,一個品種狗被混淆為另一品種,或被認(rèn)成嬰兒奶嘴;亞馬遜產(chǎn)品的積極評論被標(biāo)記為負(fù)面;愛莉安娜·格蘭德(Ariana Grande)的在YouTube上的高音視頻被歸類為哨音。
▲一只吉娃娃在ImageNet中被誤標(biāo)為羽毛蟒蛇
二、AI模型能自動修正誤標(biāo),簡單模型做的更好
此前MIT的一項研究發(fā)現(xiàn),ImageNet存在“系統(tǒng)性”標(biāo)記錯誤,當(dāng)用作基準(zhǔn)數(shù)據(jù)集時,與基本事實或直接觀測數(shù)據(jù)不一致。這項研究的合著者得出的結(jié)論是:大約20%的ImageNet照片包含多個對象,導(dǎo)致在數(shù)據(jù)集上訓(xùn)練的模型精確度下降高達(dá)10%。
在后續(xù)的一項實驗中,研究人員過濾掉了ImageNet中的錯誤標(biāo)簽,以此對一些模型進(jìn)行基準(zhǔn)測試,結(jié)果基本上沒有變化。但是,當(dāng)模型只在錯誤的數(shù)據(jù)上進(jìn)行評估時,那些在原數(shù)據(jù)集、校正后數(shù)據(jù)集上同時表現(xiàn)最好的模型,被發(fā)現(xiàn)表現(xiàn)最差。
這意味著,AI模型學(xué)會了捕捉標(biāo)記錯誤的系統(tǒng)模式,以提高其原始測試精度。
在本次實驗中,合著者創(chuàng)建了一個無錯誤的CIFAR-10測試集來測量人工智能模型的“修正”精確度。結(jié)果表明,強(qiáng)大的模型并不能很好地表現(xiàn)出比簡單模型更好的性能,因為性能與標(biāo)記錯誤的相關(guān)。這項研究的合著者說,面對有常見錯誤的數(shù)據(jù)集,數(shù)據(jù)科學(xué)家可能會被誤導(dǎo),選擇一個在校正精度方面不是最佳的模型。
研究人員寫道:“以往,機(jī)器學(xué)習(xí)實踐者會根據(jù)測試的準(zhǔn)確性來選擇部署哪種模型。但根據(jù)我們的研究結(jié)果提醒大家注意,在面對噪聲的實際數(shù)據(jù)集時,在正確標(biāo)記測試集上的判斷模型可能更有用。”“必須認(rèn)識到校正和原始測試準(zhǔn)確度之間的區(qū)別,并遵循數(shù)據(jù)集管理實踐,最大限度地提高測試標(biāo)簽的質(zhì)量?!?/p>
為了促進(jìn)更精確的基準(zhǔn)測試,研究人員發(fā)布了每個測試集的干凈版本,其中大部分的標(biāo)簽錯誤都得到了糾正。該團(tuán)隊建議數(shù)據(jù)科學(xué)家測量他們在實踐中關(guān)心的真實世界的準(zhǔn)確性,并考慮對帶有易出錯標(biāo)簽的數(shù)據(jù)集使用更簡單的模型,特別是對有噪聲標(biāo)簽數(shù)據(jù)使用訓(xùn)練或評估的算法。
三、AI數(shù)據(jù)集現(xiàn)狀:存種族與性別偏見,人物誤標(biāo)率高達(dá)96%
以保護(hù)隱私、合乎道德的方式創(chuàng)建數(shù)據(jù)集仍然是AI社區(qū)研究人員的主要障礙,尤其是那些專門從事計算機(jī)視覺的研究人員。
2019年1月,IBM發(fā)布了一個語料庫,旨在緩解人臉識別算法中的偏見,其中包含了近百萬張F(tuán)lickr用戶的照片。但I(xiàn)BM沒有通知攝影師或照片的拍攝對象,他們的作品將被仔細(xì)審查。另外,一個早期版本的ImageNet被發(fā)現(xiàn)有大量裸體兒童、色情女演員、大學(xué)聚會等不雅照片,這些照片都是在未經(jīng)個人同意下從網(wǎng)絡(luò)抓取的。
在2020年7月,麻省理工學(xué)院和紐約大學(xué)的8000萬張微小圖像數(shù)據(jù)集的創(chuàng)造者們將該數(shù)據(jù)集下線并道歉,并要求其他研究人員不要使用該數(shù)據(jù)集,刪除任何現(xiàn)有副本。自2006年推出以來,該數(shù)據(jù)集被發(fā)現(xiàn)一系列帶有種族主義、性別歧視和其他攻擊性的標(biāo)注,其中包括近2000張標(biāo)有N字的圖片,以及“強(qiáng)奸嫌疑犯”和“猥褻兒童者”等標(biāo)簽。該數(shù)據(jù)集還包含色情內(nèi)容,如未經(jīng)對方同意拍攝女性裙子的照片。
這些數(shù)據(jù)集中的偏見在經(jīng)過訓(xùn)練的商業(yè)人工智能系統(tǒng)中并不少見。早在2015年,一位軟件工程師就指出,谷歌照片中的圖像識別算法將他的黑人朋友標(biāo)記為“大猩猩”。非營利組織AlgorithmWatch顯示,云視覺API自動將深色皮膚人持有的溫度計標(biāo)記為“槍”,同時將淺色皮膚人持有的溫度計標(biāo)記為“電子設(shè)備”。
性別陰影項目(Gender Shades project)和美國國家標(biāo)準(zhǔn)與技術(shù)研究所(NIST)對主要供應(yīng)商系統(tǒng)的基準(zhǔn)測試表明,人臉識別技術(shù)表現(xiàn)出種族和性別偏見,對人的錯誤標(biāo)記率高達(dá)96%以上。
人工智能社區(qū)中的一些人正在采取措施建立問題較少的語料庫。ImageNet的創(chuàng)建者表示,他們計劃刪除數(shù)據(jù)集“人”子樹中幾乎所有的2800個類別,這些類別中存在缺陷,很難代表全球。本周,該組織發(fā)布了一個模糊人臉的數(shù)據(jù)集版本,以支持隱私實驗。
結(jié)語:AI基準(zhǔn)數(shù)據(jù)庫需更精準(zhǔn)客觀
人工智能基準(zhǔn)數(shù)據(jù)集無疑是如今互聯(lián)網(wǎng)的發(fā)展基石,面對海量龐大的數(shù)據(jù)庫,機(jī)器學(xué)習(xí)能夠“自主”修正,是整個AI產(chǎn)業(yè)發(fā)展中振奮人心的好消息。
同時,當(dāng)人工智能浪潮不斷顛覆各行各業(yè)時,數(shù)據(jù)集中的誤標(biāo)與偏見也會更深入地融入我們的生活。因此,技術(shù)發(fā)展或需遵從道德底線與隱私界限,萬物互聯(lián)時代的愿景才會向善向好。
來源:VentureBeat
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )