科技云報(bào)道原創(chuàng)。
在數(shù)據(jù)標(biāo)注行業(yè)流行著一句話:“有多少智能,就有多少人工”。
由于需要標(biāo)注的數(shù)據(jù)規(guī)模龐大且成本較高,一些互聯(lián)網(wǎng)巨頭及一些AI公司很少自己設(shè)有標(biāo)注團(tuán)隊(duì),大多交給第三方數(shù)據(jù)服務(wù)公司或者數(shù)據(jù)標(biāo)注團(tuán)隊(duì)來(lái)做。
這也衍生出了專為AI而生的人力密集型的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)鏈。
例如,眾包平臺(tái)Mechanical Turk上的20萬(wàn)名AI數(shù)據(jù)標(biāo)注員,就分布在人力成本低廉的非洲和東南亞。印度甚至涌現(xiàn)了不少數(shù)據(jù)標(biāo)注村,他們?yōu)槊绹?guó)、歐洲、澳洲和亞洲的AI公司服務(wù)。
在中國(guó),上百萬(wàn)名 AI 數(shù)據(jù)標(biāo)注員分布在貴州、山西、山東、河南等省份的二三線城市,并逐步向人力成本更低的縣城滲透。
但諷刺的是,數(shù)據(jù)標(biāo)注員正在被自己服務(wù)的AI所替代,已經(jīng)有企業(yè)開(kāi)始采用AI進(jìn)行數(shù)據(jù)標(biāo)注。
據(jù)彭博社1月14日?qǐng)?bào)道,蘋(píng)果公司將關(guān)閉圣地亞哥一個(gè)與人工智能業(yè)務(wù)相關(guān)的121人團(tuán)隊(duì),這將導(dǎo)致數(shù)據(jù)標(biāo)注員面臨被解雇的風(fēng)險(xiǎn)。
那么,人工數(shù)據(jù)標(biāo)注能否真的被AI全面替代,我們又是否會(huì)進(jìn)入“AI訓(xùn)練AI”的時(shí)代呢?
AI自動(dòng)化標(biāo)注崛起
訓(xùn)練一個(gè)高效的大模型必不可少的是高質(zhì)量的數(shù)據(jù)。OpenAI正是借助基于人類標(biāo)注的數(shù)據(jù),才一舉從眾多大模型企業(yè)中脫穎而出,讓ChatGPT成為了大模型競(jìng)爭(zhēng)中階段性的勝利者。
但同時(shí),OpenAI也因?yàn)槭褂梅侵蘖畠r(jià)的人工進(jìn)行數(shù)據(jù)標(biāo)注,被各種媒體口誅筆伐。
對(duì)于數(shù)據(jù)標(biāo)注,一定需要找到一個(gè)新的方法,才能避免大量使用人工標(biāo)注帶來(lái)的包括道德風(fēng)險(xiǎn)在內(nèi)的其他潛在麻煩。
因此,全球各大AI巨頭和大型獨(dú)角獸,都在進(jìn)行數(shù)據(jù)標(biāo)注自動(dòng)化的探索。
蘇黎世大學(xué)研究發(fā)現(xiàn),ChatGPT平均每個(gè)標(biāo)注成本低于0.003美元,比眾包平臺(tái)便宜20倍;在相關(guān)性、立場(chǎng)、主題等任務(wù)中,ChatGPT也是以4:1的效率優(yōu)勢(shì)“碾壓”人類。
來(lái)自卡耐基梅隆大學(xué)、耶魯大學(xué)和加州大學(xué)伯克利分校的一組研究人員更是發(fā)現(xiàn):GPT-4在數(shù)據(jù)集標(biāo)注表現(xiàn)上優(yōu)于他們雇用的最熟練的眾包員工。
這一突破為研究人員節(jié)約了超過(guò)50 萬(wàn)美元和2萬(wàn)個(gè)工時(shí)。
論文發(fā)出后,有網(wǎng)友評(píng)論稱“這是直接端了平臺(tái)工作者的飯碗”。
目前在自動(dòng)駕駛領(lǐng)域,已經(jīng)有車企開(kāi)始采用AI進(jìn)行自動(dòng)化標(biāo)注。
例如,特斯拉一直在積極推進(jìn)自動(dòng)化標(biāo)注的進(jìn)展,從2018至今,特斯拉的標(biāo)注經(jīng)歷了4個(gè)階段:
第1階段(2018):只有純?nèi)斯さ亩S的圖像標(biāo)注,效率非常低;
第2階段(2019):開(kāi)始有3D label,但是是單趟的人工的;
第3階段(2020):采用BEV空間進(jìn)行標(biāo)注,重投影的精度明顯降低;
第4階段(2021):采用多趟重建去進(jìn)行標(biāo)注,精度、效率、拓?fù)潢P(guān)系都達(dá)到了極高的水準(zhǔn)。
2022年6月,特斯拉裁撤了200名為特斯拉標(biāo)注視頻以改進(jìn)輔助系統(tǒng)的美國(guó)員工。
目前,特斯拉的自動(dòng)標(biāo)注能力大幅改善,標(biāo)注10000個(gè)不到60秒的視頻,大模型只需要運(yùn)行一周即可,而同樣的工作量人工標(biāo)注卻需要幾個(gè)月的時(shí)間。
在國(guó)內(nèi),理想汽車董事長(zhǎng)兼CEO李想曾在2023年4月份舉行的一場(chǎng)論壇上表示,當(dāng)理想汽車使用軟件2.0的大模型,通過(guò)訓(xùn)練的方式進(jìn)行自動(dòng)化標(biāo)定,過(guò)去需要用一年做的事情,基本上3個(gè)小時(shí)就能完成,效率是人的1000倍。
不僅如此,自動(dòng)化標(biāo)注工具也在飛速發(fā)展。
國(guó)外AI初創(chuàng)公司refuel推出了一個(gè)名為Autolabel的開(kāi)源工具,可以使用市面上主流的大模型來(lái)對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注。
該公司的測(cè)試結(jié)果稱,Autolabel的標(biāo)注效率相比人工標(biāo)注提高了100倍,成本僅為人工成本的1/7。
國(guó)內(nèi)一家名為視智未來(lái)的公司也在打造標(biāo)注大模型。他們表示,有些項(xiàng)目已經(jīng)用GPT交付了,準(zhǔn)確率方面達(dá)到了80%多,與人工接近。
不得不說(shuō),在AI面前,無(wú)論成本還是效率,人類可以說(shuō)是毫無(wú)優(yōu)勢(shì)。
RLAIF:AI標(biāo)注訓(xùn)練方法
話說(shuō)回來(lái),ChatGPT是怎么搶了數(shù)據(jù)標(biāo)注員的“飯碗”的?
以往數(shù)據(jù)標(biāo)注員要干的事情,是將標(biāo)注好的數(shù)據(jù)用作AI模型的訓(xùn)練集或評(píng)估標(biāo)準(zhǔn),這個(gè)過(guò)程叫做RLHF(Reinforcement Learning from Human Feedback),即基于人類反饋的強(qiáng)化學(xué)習(xí)。
RLHF也是被ChatGPT、Bard和LLaMA等新興大模型帶火的模型訓(xùn)練方法,它最大的好處就在于能夠?qū)⒛P秃腿祟惖钠脤?duì)齊,讓大模型給出更符合人類表達(dá)習(xí)慣的回答。
不過(guò)發(fā)布在arXiv的一份論文表明,這份看起來(lái)只有人類能做的工作,也能被AI取代。AI取代了RLHF中的“H”,誕生了一種叫做“RLAIF”的訓(xùn)練方法。
這份由谷歌研究團(tuán)隊(duì)發(fā)布的論文顯示,RLAIF能夠在不依賴數(shù)據(jù)標(biāo)注員的情況下,表現(xiàn)出能夠與RLHF相媲美的訓(xùn)練結(jié)果——
如果拿傳統(tǒng)的監(jiān)督微調(diào)(SFT)訓(xùn)練方法作為基線比較,比起SFT,1200個(gè)真人“評(píng)委”對(duì)RLHF和RLAIF給出答案的滿意度都超過(guò)了70%(兩者差距只有2%);另外,如果只比較RLHF和RLAIF給出的答案,真人評(píng)委們對(duì)兩者的滿意度也是對(duì)半分。
具體而言,研究人員主要就“根據(jù)一段文字生成摘要”這一任務(wù),展示了RLAIF的標(biāo)記方法。
首先是序言(Preamble),用來(lái)介紹和描述手頭任務(wù)的說(shuō)明。給定一段文本和兩個(gè)可能的摘要,輸出1或2來(lái)指示哪個(gè)摘要最符合上述定義的連貫性、準(zhǔn)確性、覆蓋范圍和整體質(zhì)量。
其次是樣本示例(1-Shot Exemplar)。給到一段文本,接著給到兩個(gè)摘要,以及“摘要1更好”的偏好判斷,讓AI學(xué)著這個(gè)示例對(duì)接下來(lái)的樣本做標(biāo)注。
再次就是給出所要標(biāo)注的樣本(Sample to Annotate),包括一段文本和一對(duì)需要標(biāo)記的摘要。
最后是結(jié)尾,用于提示模型的結(jié)束字符串。
就像人類標(biāo)注員會(huì)給不同的回答打分一樣(比如滿分5分),AI也會(huì)依據(jù)偏好給每個(gè)摘要打分,這也是AI和人類標(biāo)注員發(fā)揮作用的關(guān)鍵環(huán)節(jié),主要是用于訓(xùn)練獎(jiǎng)勵(lì)模型(RM)并生成反饋內(nèi)容。
論文介紹到,為了讓RLAIF方法中AI標(biāo)注更準(zhǔn)確,研究者也加入了其他方法以獲取更好的回答。
譬如為了避免隨機(jī)性問(wèn)題,會(huì)進(jìn)行多次選擇,其間還會(huì)對(duì)選項(xiàng)的順序進(jìn)行交換;此外還用到了思維鏈(CoT)推理,來(lái)進(jìn)一步提升與人類偏好的對(duì)齊程度。
需要說(shuō)明的是,谷歌的這篇論文也是第一個(gè)證明了RLAIF在某些任務(wù)上能夠產(chǎn)生與RLHF相當(dāng)?shù)挠?xùn)練效果的研究。這意味著不用人類指點(diǎn),AI也能訓(xùn)練自己的同類了。
該論文的發(fā)布很快收獲了不少關(guān)注。比如有從業(yè)者評(píng)論道,等到GPT-5可能就不需要人類數(shù)據(jù)標(biāo)注員了。
盡管這項(xiàng)工作凸顯了RLAIF的潛力,但依然有一些局限性:
首先,這項(xiàng)研究?jī)H探討了摘要總結(jié)任務(wù),關(guān)于其他任務(wù)的泛化性還需要進(jìn)一步研究。
其次,研究人員沒(méi)有評(píng)估LLM推理在經(jīng)濟(jì)成本上是否比人工標(biāo)注更有優(yōu)勢(shì)。
此外,還有一些有趣的問(wèn)題值得研究,例如RLHF與RLAIF相結(jié)合是否可以優(yōu)于單一的一種方法,使用LLM直接分配獎(jiǎng)勵(lì)的效果如何,改進(jìn)AI標(biāo)注器對(duì)齊是否會(huì)轉(zhuǎn)化為改進(jìn)的最終策略, 以及是否使用LLM與策略模型大小相同的標(biāo)注器可以進(jìn)一步改進(jìn)策略(即模型是否可以“自我改進(jìn)”)。
重人力轉(zhuǎn)向重技術(shù)
盡管AI自動(dòng)化標(biāo)注技術(shù)在快速發(fā)展,但第三方數(shù)據(jù)標(biāo)注服務(wù)商并沒(méi)那么樂(lè)觀。
河南一家眾包平臺(tái)的項(xiàng)目經(jīng)理認(rèn)為,自動(dòng)化標(biāo)注還不能取代60%以上的標(biāo)注需求,只能作為輔助標(biāo)注工具處理單一或特定數(shù)據(jù),提升人效。
另一家數(shù)據(jù)標(biāo)注公司的產(chǎn)品經(jīng)理認(rèn)為,自動(dòng)化標(biāo)注只能過(guò)濾簡(jiǎn)單的基礎(chǔ)數(shù)據(jù),還不能像人一樣從復(fù)雜有爭(zhēng)議的場(chǎng)景中精確識(shí)別物體。
如果說(shuō)簡(jiǎn)單的標(biāo)注可以用AI來(lái)完成,那么人工參與的將是難度更高的數(shù)據(jù)篩選和標(biāo)準(zhǔn)工作,這也意味著數(shù)據(jù)標(biāo)注行業(yè)的門(mén)檻將會(huì)不斷提高。
作為對(duì)照,早在ChatGPT走紅前,OpenAI就組建十幾位博士生來(lái)“打標(biāo)”。
而百度在??诘臄?shù)據(jù)標(biāo)注基地?fù)碛袛?shù)百名專職大模型數(shù)據(jù)標(biāo)注師,標(biāo)注師的本科率達(dá)到100%,需要具備一定的知識(shí)儲(chǔ)備和邏輯分析能力。
不過(guò)大家也認(rèn)同,未來(lái)的數(shù)據(jù)標(biāo)注將從重人力轉(zhuǎn)向重技術(shù)的趨勢(shì)。
一家眾包平臺(tái)的創(chuàng)始人在和同行交流時(shí)說(shuō),未來(lái)不能堆人力,要有研發(fā)能力。也有從業(yè)者認(rèn)為,人工標(biāo)注對(duì)于泛化仍然極其重要,而RLHF+RLAIF混合方法比任何單一方法都要好。
總之,不是被同行“卷死”,就是被技術(shù)“卷死”。數(shù)據(jù)標(biāo)注公司已做好了隨時(shí)裁員的準(zhǔn)備,同時(shí)向做自動(dòng)化標(biāo)注工具的方向發(fā)展。
【關(guān)于科技云報(bào)道】
專注于原創(chuàng)的企業(yè)級(jí)內(nèi)容行家——科技云報(bào)道。成立于2015年,是前沿企業(yè)級(jí)IT領(lǐng)域Top10媒體。獲工信部權(quán)威認(rèn)可,可信云、全球云計(jì)算大會(huì)官方指定傳播媒體之一。深入原創(chuàng)報(bào)道云計(jì)算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等領(lǐng)域。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 僅售999元 月底開(kāi)售 閃極打響AI眼鏡量產(chǎn)發(fā)令槍
- 蘿卜快跑走紅、滴滴加碼,中國(guó)Robotaxi大戰(zhàn)升級(jí)
- 雷軍無(wú)暇顧及董明珠
- 不僅漲價(jià),美國(guó)芯片還得求著要,臺(tái)積電技術(shù)遙遙領(lǐng)先有底氣!
- 掃地機(jī)新技術(shù)看追覓
- 特朗普示好,最高法介入,TikTok賣(mài)家極限生死局
- 釋放數(shù)字金融向新力 奇富科技金融AI大模型成果落地上海金融科技國(guó)際論壇特展周活動(dòng)
- 劉興亮|酒局十誡
- 未來(lái)屬于會(huì)用AI的企業(yè)!自己做的免費(fèi)智慧發(fā)票助手,簡(jiǎn)單又強(qiáng)大
- 一觸“伙伴+華為”體系,傳媒行業(yè)點(diǎn)亮數(shù)智之光
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。