撰文 | 李? ?熙
編輯 | 楊博丞
題圖 | IC Photo
人盡皆知:過(guò)去的科幻文學(xué)家預(yù)言了潛艇、衛(wèi)星、人工智能等后世科技里程碑。然而科幻文學(xué)家們的預(yù)言中,其實(shí)應(yīng)驗(yàn)的烏鴉嘴不比正面成就少,比如DDOS網(wǎng)絡(luò)攻擊、個(gè)人生物信息盜竊、和人工智能模型的退化。
2023年2月,美國(guó)華裔科幻文學(xué)家特德·姜發(fā)表文章稱:ChatGPT等大語(yǔ)言模型,實(shí)質(zhì)是對(duì)互聯(lián)網(wǎng)語(yǔ)料庫(kù)的有損模糊壓縮,如同JPEG格式之于原始高清圖片。
按特德·姜的觀點(diǎn),用大語(yǔ)言模型生成的文本來(lái)訓(xùn)練新的模型,如同反復(fù)以JPEG格式存儲(chǔ)同一圖像,每次都會(huì)丟失更多的信息,最終成品質(zhì)量只會(huì)越來(lái)越差。大語(yǔ)言模型生成的文本在網(wǎng)絡(luò)上發(fā)布得越多,信息網(wǎng)絡(luò)本身就變得越發(fā)模糊、難以獲取有效真實(shí)信息。
2023年6月中,牛津、劍橋、倫敦帝國(guó)學(xué)院、愛丁堡大學(xué)、多倫多大學(xué)等高校的AI研究者發(fā)布的論文預(yù)印本《遞歸之詛咒:用生成數(shù)據(jù)訓(xùn)練會(huì)使模型遺忘》在業(yè)界流傳開來(lái)。論文中用實(shí)驗(yàn)結(jié)果證明了特德·姜的預(yù)言:用AI生成數(shù)據(jù)訓(xùn)練新的AI,最終會(huì)讓新的AI模型退化以至崩潰。
一、“糞口循環(huán)”9次,就能讓大語(yǔ)言模型崩潰
這些研究者們發(fā)現(xiàn),在訓(xùn)練新的神經(jīng)網(wǎng)絡(luò)AI模型時(shí),使用大語(yǔ)言模型生成的內(nèi)容作為訓(xùn)練數(shù)據(jù)集,會(huì)導(dǎo)致訓(xùn)練出的模型出現(xiàn)不可逆轉(zhuǎn)的缺陷,即使模型最初的基礎(chǔ)架構(gòu)原始數(shù)據(jù)來(lái)自真實(shí)世界的實(shí)際數(shù)據(jù)。研究者們將這一新模型的退化過(guò)程與結(jié)果稱為“模型崩潰”。
按論文所述,不管受訓(xùn)的新模型功能是以文字生成文字還是以圖片生成圖片,只要使用其他模型生成的內(nèi)容來(lái)訓(xùn)練,這個(gè)過(guò)程是不可避免的,即使模型處在近乎理想狀態(tài)的長(zhǎng)時(shí)間學(xué)習(xí)條件亦如此。
論文一作伊利亞·蘇瑪利沃夫(Ilia Shumailov)稱,AI生成數(shù)據(jù)中的錯(cuò)誤會(huì)極快沉淀,最終導(dǎo)致從生成數(shù)據(jù)中學(xué)習(xí)的模型進(jìn)一步錯(cuò)誤地感知現(xiàn)實(shí)。
“模型崩潰”分為早期與晚期兩種。在早期時(shí),被喂生成數(shù)據(jù)的AI模型會(huì)開始失去原初數(shù)據(jù)分布的信息;在晚期,被喂生成數(shù)據(jù)的AI模型會(huì)吐出完全不符合現(xiàn)實(shí)、不相關(guān)原初底層數(shù)據(jù)的結(jié)果。
而且與癥狀類似的“災(zāi)難性遺忘”不同,“模型崩潰”的AI一直保有對(duì)之前學(xué)習(xí)過(guò)的原初底層數(shù)據(jù)的記憶,但極其固執(zhí),錯(cuò)誤會(huì)千篇一律且難以矯正,模型將持續(xù)甚至強(qiáng)化將錯(cuò)誤結(jié)果認(rèn)為是正確的結(jié)論。
論文中“模型崩潰”過(guò)程的示意圖
研究者們先用小模型試驗(yàn)起,用相同模型生成的數(shù)據(jù)訓(xùn)練同一模型。以此方法在高斯混合模型(GMM)上實(shí)驗(yàn),拿AI分辨人工生成的不同正態(tài)分布。結(jié)果是在如此訓(xùn)練50次后模型開始出錯(cuò)到無(wú)法分辨原初底層數(shù)據(jù)。訓(xùn)練到兩千次后,模型的錯(cuò)誤結(jié)果收斂到每次基本雷同毫無(wú)變化。
以同樣方法訓(xùn)練變分自編碼器(VAE)模型,訓(xùn)練5次后模型開始出錯(cuò),10次后模型的錯(cuò)誤結(jié)果開始與原初底層數(shù)據(jù)無(wú)關(guān),20次后錯(cuò)誤結(jié)果就開始收斂至基本雷同。
以上的小模型的原初數(shù)據(jù)量小,或許易于迷惑。研究者再用現(xiàn)在商用廣泛的OPT-125m文本生成模型實(shí)驗(yàn),此模型由Meta 公司開發(fā),參數(shù)量1.25億。研究者先用有1億詞元的“維基文本庫(kù)2”數(shù)據(jù)集喂給模型,跑出同樣詞元量的生成結(jié)果數(shù)據(jù)集。再用生成結(jié)果數(shù)據(jù)集反復(fù)訓(xùn)練OPT-125m模型。
結(jié)果是,在研究者輸入提示詞之后,起初的OPT-125m模型吐出的是帶有亂碼但大體成文的語(yǔ)句。被如此訓(xùn)練1次的大模型吐出的是帶有瞎編內(nèi)容的幻覺性文本,但仍然成文。被如此訓(xùn)練7次的大模型吐出的是完全與初始提示詞無(wú)關(guān)的文本,9次后大模型的生成文本就是完全不知所云的車轱轆話。
二、“模型崩潰”,是因?yàn)锳I與生俱來(lái)的的統(tǒng)計(jì)特性
“模型崩潰”的原因其實(shí)并不難懂。概言之,與特德·姜、馬斯克這些名人們嘲笑生成式AI的說(shuō)辭很相近:這些大模型本質(zhì)上是高端統(tǒng)計(jì)學(xué)應(yīng)用,離“智能”的實(shí)質(zhì)還差得遠(yuǎn)。
用AI生成內(nèi)容來(lái)訓(xùn)練AI的話,無(wú)可避免就會(huì)踩進(jìn)“統(tǒng)計(jì)近似值偏差”的坑里。實(shí)質(zhì)是高端統(tǒng)計(jì)程序的神經(jīng)網(wǎng)絡(luò)模型們,天然會(huì)高估、過(guò)于重視大概率的通常值,也會(huì)低估、過(guò)于忽視小概率的非常值。
這些模型生成的結(jié)果無(wú)法規(guī)避以上缺陷,持續(xù)用來(lái)再訓(xùn)練新模型,數(shù)據(jù)的多樣性會(huì)越來(lái)越小、符合真實(shí)的正確度會(huì)越來(lái)越有限、“近似值擬合”會(huì)越來(lái)越嚴(yán)重。用研究者的話來(lái)說(shuō),用AI生成數(shù)據(jù)來(lái)訓(xùn)練新的AI,是在毒化模型對(duì)真實(shí)世界的認(rèn)知。
論文中“模型崩潰”成因的示意圖
用論文作者之一羅斯·安德森(Ross Anderson)的話說(shuō),這就如同用莫扎特作品來(lái)訓(xùn)練AI,結(jié)果會(huì)得出一個(gè)風(fēng)格類似莫扎特但缺乏靈氣的“薩列尼”模型。再用“薩列尼”模型的作品訓(xùn)練新的模型,如此反復(fù)五六次后,最終模型的音樂(lè)作品既不會(huì)有莫扎特的風(fēng)格也不會(huì)有莫扎特的靈光。
除了這一主因外,“函數(shù)近似值誤差”也會(huì)為“模型崩潰”推波助瀾。任何神經(jīng)網(wǎng)絡(luò)AI在本質(zhì)都算是有限的通用函數(shù)近似器,但總會(huì)出現(xiàn)函數(shù)近似值過(guò)度表達(dá)或不充分表達(dá)帶來(lái)的結(jié)果不精確。
理論上來(lái)說(shuō),“統(tǒng)計(jì)近似值偏差”與“函數(shù)近似值誤差”并不必然會(huì)帶來(lái)惡果,有少許可能,這些偏差恰好會(huì)消除真實(shí)數(shù)據(jù)中的噪音值,讓AI模型的生成結(jié)果更符合真實(shí)數(shù)據(jù)分布。然而更大的可能是,這些誤差會(huì)放大、加乘數(shù)據(jù)噪音。
在羅斯·安德森的個(gè)人博客中,有人評(píng)論這是熱力學(xué)中的熵、生物學(xué)中的近親繁殖退化,在AI界的復(fù)現(xiàn)。
三、模型生成內(nèi)容充斥網(wǎng)絡(luò)后,真人數(shù)據(jù)將成AI維生必需
對(duì)于業(yè)界,此發(fā)現(xiàn)再次凸顯了真實(shí)人類創(chuàng)造的數(shù)據(jù)的稀缺性。羅斯·安德森戲稱,在海洋布滿不可降解塑料垃圾、空氣里充滿二氧化碳排放物后,互聯(lián)網(wǎng)以后也會(huì)被大語(yǔ)言模型生成的低質(zhì)量結(jié)果污染。反過(guò)來(lái)說(shuō),真實(shí)人類創(chuàng)造的數(shù)據(jù)如同潔凈的空氣與飲水,是日后生成式AI必須依賴的維生補(bǔ)給。
在如此背景下,不難理解為何推特與Reddit這些用戶活躍的社交媒體紛紛取消應(yīng)用程序接口扒數(shù)據(jù)的權(quán)限。這些社交媒體上的真人互動(dòng)內(nèi)容都是以后越來(lái)越值錢的不可再生資源,馬斯克們是絕不愿繼續(xù)免費(fèi)讓OpenAI們拿去用的。
數(shù)據(jù)饑渴的AI公司們,現(xiàn)在兩種繼續(xù)發(fā)掘高質(zhì)量數(shù)據(jù)的辦法都在用。
一是扒完當(dāng)代互聯(lián)網(wǎng)數(shù)據(jù)后,繼續(xù)扒古舊文本與圖像數(shù)據(jù)。保存了遠(yuǎn)至兩百年前書籍掃描件的“互聯(lián)網(wǎng)檔案館”,在5月底稱網(wǎng)站之前短暫崩潰,是因?yàn)橥泄茉趤嗰R遜云服務(wù)器上的數(shù)十個(gè)虛擬接口做出了每秒數(shù)萬(wàn)次的數(shù)據(jù)查詢請(qǐng)求,導(dǎo)致網(wǎng)站無(wú)法承載。
二是老實(shí)花錢買。北京時(shí)間6月17日0點(diǎn),《金融時(shí)報(bào)》獨(dú)家報(bào)道,稱最近數(shù)月內(nèi),谷歌、OpenAI、微軟等公司在與新聞業(yè)界的大企業(yè),如新聞集團(tuán)(News Corp)、紐約時(shí)報(bào)和衛(wèi)報(bào)在內(nèi)的出版商接觸,尋求AI訓(xùn)練數(shù)據(jù)材料的持續(xù)來(lái)源并避免未來(lái)的版權(quán)糾紛。
雖然商洽還在早期階段,但信源透露出的信息是AI巨頭企業(yè)們?cè)敢鉃樽鳛锳I 模型訓(xùn)練數(shù)據(jù)的新聞內(nèi)容向媒體巨頭們支付定期訂閱費(fèi)用,媒體巨頭們開出的價(jià)位是年均500-2000萬(wàn)美元。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 特斯拉CEO馬斯克身家暴漲,穩(wěn)居全球首富寶座
- 阿里巴巴擬發(fā)行 26.5 億美元和 170 億人民幣債券
- 騰訊音樂(lè)Q3持續(xù)穩(wěn)健增長(zhǎng):總收入70.2億元,付費(fèi)用戶數(shù)1.19億
- 蘋果Q4營(yíng)收949億美元同比增6%,在華營(yíng)收微降
- 三星電子Q3營(yíng)收79萬(wàn)億韓元,營(yíng)業(yè)利潤(rùn)受一次性成本影響下滑
- 賽力斯已向華為支付23億,購(gòu)買引望10%股權(quán)
- 格力電器三季度營(yíng)收同比降超15%,凈利潤(rùn)逆勢(shì)增長(zhǎng)
- 合合信息2024年前三季度業(yè)績(jī)穩(wěn)?。籂I(yíng)收增長(zhǎng)超21%,凈利潤(rùn)增長(zhǎng)超11%
- 臺(tái)積電四季度營(yíng)收有望再攀高峰,預(yù)計(jì)超260億美元刷新紀(jì)錄
- 韓國(guó)三星電子決定退出LED業(yè)務(wù),市值蒸發(fā)超4600億元
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。