精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<abbr id="8ouiy"><strong id="8ouiy"></strong></abbr>

<nav id="8ouiy"></nav>

直播
榜單
7x24h快訊

極客網(wǎng) > 人工智能 >

在AI垃圾上訓(xùn)練的AI吐出AI垃圾

人閱讀
2024-07-29 07:04:00
來(lái)源：煎蛋
作者：BALI
相關(guān)關(guān)鍵詞
- 人工智能
- AI

AI生成的垃圾內(nèi)容充斥網(wǎng)絡(luò)，影響模型質(zhì)量，導(dǎo)致性能下降。

隨著由AI撰寫的垃圾網(wǎng)頁(yè)泛濫，依賴這些數(shù)據(jù)的模型將受到影響。

AI模型通過(guò)從互聯(lián)網(wǎng)上訓(xùn)練大量數(shù)據(jù)來(lái)工作。但隨著AI越來(lái)越多地用于生成充滿垃圾內(nèi)容的網(wǎng)頁(yè)，這一過(guò)程正面臨被破壞的危險(xiǎn)。
發(fā)表在《Nature》上的新研究表明，當(dāng)AI在AI生成的數(shù)據(jù)上訓(xùn)練時(shí)，模型輸出的質(zhì)量會(huì)逐漸下降。當(dāng)后續(xù)模型產(chǎn)生的輸出被用作未來(lái)模型的訓(xùn)練數(shù)據(jù)時(shí)，這種影響會(huì)加劇。
牛津大學(xué)的計(jì)算機(jī)科學(xué)家Ilia Shumailov領(lǐng)導(dǎo)了這項(xiàng)研究，他將這個(gè)過(guò)程比作拍照片的照片?！叭绻闩囊粡堈掌?，然后掃描它，再打印出來(lái)，再重復(fù)這個(gè)過(guò)程，基本上噪音會(huì)淹沒(méi)整個(gè)過(guò)程，”他說(shuō)?！澳阕罱K只會(huì)得到一個(gè)黑方塊?！睂?duì)于AI來(lái)說(shuō)，這個(gè)等同于黑方塊的現(xiàn)象被稱為“模型崩潰”，這意味著模型只會(huì)生成無(wú)意義的垃圾。

這項(xiàng)研究可能對(duì)當(dāng)今最大的AI模型產(chǎn)生嚴(yán)重影響，因?yàn)樗鼈兪褂没ヂ?lián)網(wǎng)作為數(shù)據(jù)庫(kù)。例如，GPT-3部分?jǐn)?shù)據(jù)來(lái)自Common Crawl，這是一個(gè)包含超過(guò)30億個(gè)網(wǎng)頁(yè)的在線存儲(chǔ)庫(kù)。隨著越來(lái)越多的AI生成垃圾網(wǎng)站開(kāi)始充斥互聯(lián)網(wǎng)，這個(gè)問(wèn)題可能會(huì)變得更糟。

Shumailov說(shuō)，當(dāng)前的AI模型不會(huì)立即崩潰，但可能會(huì)有實(shí)質(zhì)性的影響：改進(jìn)速度會(huì)減慢，性能可能會(huì)受到影響。

為了確定對(duì)性能的潛在影響，Shumailov和他的同事們?cè)谝唤M來(lái)自維基百科的數(shù)據(jù)上微調(diào)了一個(gè)大型語(yǔ)言模型(LLM)，然后在其自身輸出上進(jìn)行了九代微調(diào)。團(tuán)隊(duì)通過(guò)“困惑度得分”測(cè)量了輸出的荒謬程度，困惑度得分衡量AI模型在預(yù)測(cè)序列下一個(gè)部分的能力方面的信心；得分越高，模型越不準(zhǔn)確。
在其他模型輸出上訓(xùn)練的模型有更高的困惑度得分。例如，對(duì)于每一代，團(tuán)隊(duì)要求模型在以下輸入后生成下一句：
“1360年之前的一些建筑通常由一個(gè)主石匠和一小隊(duì)流動(dòng)石匠完成，由當(dāng)?shù)亟虆^(qū)工人補(bǔ)充，Poyntz Wright說(shuō)道。但其他作者否認(rèn)這種模式，認(rèn)為著名建筑師根據(jù)早期的垂直風(fēng)格例子設(shè)計(jì)了教區(qū)教堂塔樓?！?br />在第九代時(shí)，模型返回如下輸出：
“建筑學(xué)。除了是世界上一些最大的黑尾野兔、白尾野兔、藍(lán)尾野兔、紅尾野兔、黃尾野兔的棲息地之外。”

Shumailov用這個(gè)類比來(lái)解釋他認(rèn)為發(fā)生的情況：想象你試圖找到學(xué)校里最不可能的學(xué)生名字。你可以遍歷每個(gè)學(xué)生的名字，但這會(huì)花費(fèi)太長(zhǎng)時(shí)間。相反，你可以查看1000個(gè)名字中的100個(gè)。你會(huì)得到一個(gè)相當(dāng)不錯(cuò)的估計(jì)，但可能不是正確答案。現(xiàn)在，假設(shè)另一個(gè)人基于你的100個(gè)名字做出估計(jì)，但只選擇了50個(gè)。這第二個(gè)人的估計(jì)會(huì)更不準(zhǔn)確。

“你可以想象同樣的事情發(fā)生在機(jī)器學(xué)習(xí)模型上，”他說(shuō)。“所以如果第一個(gè)模型看到了互聯(lián)網(wǎng)的一半，那么第二個(gè)模型可能不會(huì)要求看到互聯(lián)網(wǎng)的一半，而是實(shí)際上抓取最新的10萬(wàn)個(gè)推文，并在其上訓(xùn)練模型?！?br />此外，互聯(lián)網(wǎng)并不是無(wú)限量的數(shù)據(jù)。為了滿足他們對(duì)更多數(shù)據(jù)的需求，未來(lái)的AI模型可能需要在合成數(shù)據(jù)上進(jìn)行訓(xùn)練——即由AI生成的數(shù)據(jù)。

麻省理工學(xué)院媒體實(shí)驗(yàn)室的Shayne Longpre研究LLM的訓(xùn)練方法，他沒(méi)有參與這項(xiàng)研究。他說(shuō)：“基礎(chǔ)模型確實(shí)依賴于數(shù)據(jù)的規(guī)模來(lái)表現(xiàn)良好?！?“他們正在尋找在受控環(huán)境中使用合成數(shù)據(jù)作為解決方案。因?yàn)槿绻麄兝^續(xù)抓取互聯(lián)網(wǎng)上更多的數(shù)據(jù)，回報(bào)將會(huì)遞減?！?/p>

斯坦福大學(xué)的AI研究員Matthias Gerstgrasser撰寫了一篇探討模型崩潰的不同論文，他表示，將合成數(shù)據(jù)添加到真實(shí)世界數(shù)據(jù)中而不是替代它不會(huì)造成任何重大問(wèn)題。但他補(bǔ)充說(shuō)：“所有模型崩潰文獻(xiàn)都達(dá)成的一個(gè)結(jié)論是，高質(zhì)量和多樣化的訓(xùn)練數(shù)據(jù)很重要?！?/p>

這種隨時(shí)間推移的退化的另一個(gè)影響是，影響少數(shù)群體的信息在模型中被嚴(yán)重扭曲，因?yàn)樗^(guò)度關(guān)注訓(xùn)練數(shù)據(jù)中更普遍的樣本。

麻省理工學(xué)院媒體實(shí)驗(yàn)室研究計(jì)算法的Robert Mahari(他沒(méi)有參與這項(xiàng)研究)說(shuō)，在當(dāng)前模型中，這可能會(huì)影響到需要更多合成(AI生成)數(shù)據(jù)集的非主流語(yǔ)言。

一個(gè)可能有助于避免退化的想法是確保模型更重視原始的人工生成數(shù)據(jù)。Shumailov的研究還允許后代模型從原始數(shù)據(jù)集中抽樣10%，這減輕了一些負(fù)面影響。
這將需要從原始人工生成數(shù)據(jù)到后代模型的數(shù)據(jù)溯源。

但溯源需要某種方式來(lái)過(guò)濾互聯(lián)網(wǎng)中的人工生成和AI生成內(nèi)容，這一點(diǎn)尚未解決。盡管現(xiàn)在有許多工具旨在確定文本是否由AI生成，但它們通常不準(zhǔn)確。

“遺憾的是，我們有更多的問(wèn)題而不是答案，”Shumailov說(shuō)?！暗苊黠@，知道你的數(shù)據(jù)來(lái)源以及你能多大程度上信任它來(lái)捕捉你正在處理的數(shù)據(jù)的代表性樣本，這一點(diǎn)很重要?！?/p>

本文譯自 MIT Technology Review，由 BALI 編輯發(fā)布。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。）

為您推薦

極客觀察

欄目相關(guān)

贊助商

極客網(wǎng)熱搜關(guān)鍵詞

人工智能 AI OpenAI ChatGPT 機(jī)器學(xué)習(xí) 生成式AI AI芯片 AIGC U-Mail AI大模型世界人工智能大會(huì) AIoT AirPods Airbnb Rushmail 人工智能AI Akamai AI人工智能生成式人工智能昇騰AI AIPC Air AI技術(shù) xAI 谷歌AI 蘋果AI AI模型 GenAI AI手機(jī) 百度AI 科大訊飛AI學(xué)習(xí)機(jī) CAICT 微軟AI 阿爾法蛋AI詞典筆T10 華為AI AI+ 松鼠AI 昇騰AI創(chuàng)新大賽 AIS Airdoc WAIC 智譜AI AITO 京東AI 阿爾法蛋AI詞典筆 SoleusAir aigo AI服務(wù)器 SoleusAir舒樂(lè)氏 AI機(jī)器人 AI算力 2019世界人工智能大會(huì) LIFAair 移動(dòng)AI時(shí)代 AI應(yīng)用人工智能大會(huì) AI創(chuàng)企 AI眼鏡 AI醫(yī)療浙大AIF 人工智能技術(shù) Zain Airtag AI人才人工智能芯片 AI投資 AI教育 AI搜索 AI基礎(chǔ)設(shè)施 AI時(shí)代騰訊AI 聯(lián)想AI AI算法 Gmail BrainCo AI框架 Airwallex空中云匯 Coremail VAIO 人工智能計(jì)算中心 AI編程 AI賦能 OPENAIGC開(kāi)發(fā)者大賽阿里AI Chain 人工智能大賽人工智能機(jī)器人谷歌人工智能昇騰AI開(kāi)發(fā)者創(chuàng)享日 Airwheel Mirai 人工智能名片 AI聊天機(jī)器人 AI音樂(lè) BrainCo強(qiáng)腦科技浪潮KaiwuDB 通用人工智能英偉達(dá)AI芯片 AI計(jì)算 AI助手

上一篇

版權(quán)陷阱：保護(hù)創(chuàng)作者免受AI侵權(quán)的新武器

下一篇

科學(xué)家正試圖破解現(xiàn)代AI之謎

簡(jiǎn)版
原版
投稿
回頂部

2024-07-29

在AI垃圾上訓(xùn)練的AI吐出AI垃圾

AI生成的垃圾內(nèi)容充斥網(wǎng)絡(luò)，影響模型質(zhì)量，導(dǎo)致性能下降。隨著由AI撰寫的垃圾網(wǎng)頁(yè)泛濫，依賴這些數(shù)據(jù)的模型將受到影響。AI模型通過(guò)從互聯(lián)網(wǎng)上訓(xùn)練大量數(shù)據(jù)來(lái)工作。

長(zhǎng)按掃碼閱讀全文

<bdo id="2i4y2"></bdo>

<abbr id="2i4y2"><optgroup id="2i4y2"></optgroup></abbr>

<table id="2i4y2"></table>

<dl id="2i4y2"><acronym id="2i4y2"></acronym></dl>

<del id="2i4y2"></del>