精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    在AI垃圾上訓(xùn)練的AI吐出AI垃圾

    AI生成的垃圾內(nèi)容充斥網(wǎng)絡(luò),影響模型質(zhì)量,導(dǎo)致性能下降。

    隨著由AI撰寫的垃圾網(wǎng)頁(yè)泛濫,依賴這些數(shù)據(jù)的模型將受到影響。

    AI模型通過(guò)從互聯(lián)網(wǎng)上訓(xùn)練大量數(shù)據(jù)來(lái)工作。但隨著AI越來(lái)越多地用于生成充滿垃圾內(nèi)容的網(wǎng)頁(yè),這一過(guò)程正面臨被破壞的危險(xiǎn)。
    發(fā)表在《Nature》上的新研究表明,當(dāng)AI在AI生成的數(shù)據(jù)上訓(xùn)練時(shí),模型輸出的質(zhì)量會(huì)逐漸下降。當(dāng)后續(xù)模型產(chǎn)生的輸出被用作未來(lái)模型的訓(xùn)練數(shù)據(jù)時(shí),這種影響會(huì)加劇。
    牛津大學(xué)的計(jì)算機(jī)科學(xué)家Ilia Shumailov領(lǐng)導(dǎo)了這項(xiàng)研究,他將這個(gè)過(guò)程比作拍照片的照片?!叭绻闩囊粡堈掌?,然后掃描它,再打印出來(lái),再重復(fù)這個(gè)過(guò)程,基本上噪音會(huì)淹沒(méi)整個(gè)過(guò)程,”他說(shuō)?!澳阕罱K只會(huì)得到一個(gè)黑方塊?!睂?duì)于AI來(lái)說(shuō),這個(gè)等同于黑方塊的現(xiàn)象被稱為“模型崩潰”,這意味著模型只會(huì)生成無(wú)意義的垃圾。

    這項(xiàng)研究可能對(duì)當(dāng)今最大的AI模型產(chǎn)生嚴(yán)重影響,因?yàn)樗鼈兪褂没ヂ?lián)網(wǎng)作為數(shù)據(jù)庫(kù)。例如,GPT-3部分?jǐn)?shù)據(jù)來(lái)自Common Crawl,這是一個(gè)包含超過(guò)30億個(gè)網(wǎng)頁(yè)的在線存儲(chǔ)庫(kù)。隨著越來(lái)越多的AI生成垃圾網(wǎng)站開(kāi)始充斥互聯(lián)網(wǎng),這個(gè)問(wèn)題可能會(huì)變得更糟。

    Shumailov說(shuō),當(dāng)前的AI模型不會(huì)立即崩潰,但可能會(huì)有實(shí)質(zhì)性的影響:改進(jìn)速度會(huì)減慢,性能可能會(huì)受到影響。

    為了確定對(duì)性能的潛在影響,Shumailov和他的同事們?cè)谝唤M來(lái)自維基百科的數(shù)據(jù)上微調(diào)了一個(gè)大型語(yǔ)言模型(LLM),然后在其自身輸出上進(jìn)行了九代微調(diào)。團(tuán)隊(duì)通過(guò)“困惑度得分”測(cè)量了輸出的荒謬程度,困惑度得分衡量AI模型在預(yù)測(cè)序列下一個(gè)部分的能力方面的信心;得分越高,模型越不準(zhǔn)確。
    在其他模型輸出上訓(xùn)練的模型有更高的困惑度得分。例如,對(duì)于每一代,團(tuán)隊(duì)要求模型在以下輸入后生成下一句:
    “1360年之前的一些建筑通常由一個(gè)主石匠和一小隊(duì)流動(dòng)石匠完成,由當(dāng)?shù)亟虆^(qū)工人補(bǔ)充,Poyntz Wright說(shuō)道。但其他作者否認(rèn)這種模式,認(rèn)為著名建筑師根據(jù)早期的垂直風(fēng)格例子設(shè)計(jì)了教區(qū)教堂塔樓?!?br />在第九代時(shí),模型返回如下輸出:
    “建筑學(xué)。除了是世界上一些最大的黑尾野兔、白尾野兔、藍(lán)尾野兔、紅尾野兔、黃尾野兔的棲息地之外。”

    Shumailov用這個(gè)類比來(lái)解釋他認(rèn)為發(fā)生的情況:想象你試圖找到學(xué)校里最不可能的學(xué)生名字。你可以遍歷每個(gè)學(xué)生的名字,但這會(huì)花費(fèi)太長(zhǎng)時(shí)間。相反,你可以查看1000個(gè)名字中的100個(gè)。你會(huì)得到一個(gè)相當(dāng)不錯(cuò)的估計(jì),但可能不是正確答案。現(xiàn)在,假設(shè)另一個(gè)人基于你的100個(gè)名字做出估計(jì),但只選擇了50個(gè)。這第二個(gè)人的估計(jì)會(huì)更不準(zhǔn)確。

    “你可以想象同樣的事情發(fā)生在機(jī)器學(xué)習(xí)模型上,”他說(shuō)。“所以如果第一個(gè)模型看到了互聯(lián)網(wǎng)的一半,那么第二個(gè)模型可能不會(huì)要求看到互聯(lián)網(wǎng)的一半,而是實(shí)際上抓取最新的10萬(wàn)個(gè)推文,并在其上訓(xùn)練模型?!?br />此外,互聯(lián)網(wǎng)并不是無(wú)限量的數(shù)據(jù)。為了滿足他們對(duì)更多數(shù)據(jù)的需求,未來(lái)的AI模型可能需要在合成數(shù)據(jù)上進(jìn)行訓(xùn)練——即由AI生成的數(shù)據(jù)。

    麻省理工學(xué)院媒體實(shí)驗(yàn)室的Shayne Longpre研究LLM的訓(xùn)練方法,他沒(méi)有參與這項(xiàng)研究。他說(shuō):“基礎(chǔ)模型確實(shí)依賴于數(shù)據(jù)的規(guī)模來(lái)表現(xiàn)良好?!?“他們正在尋找在受控環(huán)境中使用合成數(shù)據(jù)作為解決方案。因?yàn)槿绻麄兝^續(xù)抓取互聯(lián)網(wǎng)上更多的數(shù)據(jù),回報(bào)將會(huì)遞減?!?/p>

    斯坦福大學(xué)的AI研究員Matthias Gerstgrasser撰寫了一篇探討模型崩潰的不同論文,他表示,將合成數(shù)據(jù)添加到真實(shí)世界數(shù)據(jù)中而不是替代它不會(huì)造成任何重大問(wèn)題。但他補(bǔ)充說(shuō):“所有模型崩潰文獻(xiàn)都達(dá)成的一個(gè)結(jié)論是,高質(zhì)量和多樣化的訓(xùn)練數(shù)據(jù)很重要?!?/p>

    這種隨時(shí)間推移的退化的另一個(gè)影響是,影響少數(shù)群體的信息在模型中被嚴(yán)重扭曲,因?yàn)樗^(guò)度關(guān)注訓(xùn)練數(shù)據(jù)中更普遍的樣本。

    麻省理工學(xué)院媒體實(shí)驗(yàn)室研究計(jì)算法的Robert Mahari(他沒(méi)有參與這項(xiàng)研究)說(shuō),在當(dāng)前模型中,這可能會(huì)影響到需要更多合成(AI生成)數(shù)據(jù)集的非主流語(yǔ)言。

    一個(gè)可能有助于避免退化的想法是確保模型更重視原始的人工生成數(shù)據(jù)。Shumailov的研究還允許后代模型從原始數(shù)據(jù)集中抽樣10%,這減輕了一些負(fù)面影響。
    這將需要從原始人工生成數(shù)據(jù)到后代模型的數(shù)據(jù)溯源。

    但溯源需要某種方式來(lái)過(guò)濾互聯(lián)網(wǎng)中的人工生成和AI生成內(nèi)容,這一點(diǎn)尚未解決。盡管現(xiàn)在有許多工具旨在確定文本是否由AI生成,但它們通常不準(zhǔn)確。

    “遺憾的是,我們有更多的問(wèn)題而不是答案,”Shumailov說(shuō)?!暗苊黠@,知道你的數(shù)據(jù)來(lái)源以及你能多大程度上信任它來(lái)捕捉你正在處理的數(shù)據(jù)的代表性樣本,這一點(diǎn)很重要?!?/p>

    本文譯自 MIT Technology Review,由 BALI 編輯發(fā)布。

    (免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
    任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )

    贊助商
    2024-07-29
    在AI垃圾上訓(xùn)練的AI吐出AI垃圾
    AI生成的垃圾內(nèi)容充斥網(wǎng)絡(luò),影響模型質(zhì)量,導(dǎo)致性能下降。隨著由AI撰寫的垃圾網(wǎng)頁(yè)泛濫,依賴這些數(shù)據(jù)的模型將受到影響。AI模型通過(guò)從互聯(lián)網(wǎng)上訓(xùn)練大量數(shù)據(jù)來(lái)工作。

    長(zhǎng)按掃碼 閱讀全文