精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

直播
榜單
7x24h快訊

極客網(wǎng) > 人工智能 >

美國媒體揭開大模型陰暗面：訓(xùn)練用的數(shù)據(jù)可能有點臟

人閱讀
2023-04-20 09:32:20
來源：財聯(lián)社
作者：史正丞
相關(guān)關(guān)鍵詞

財聯(lián)社4月20日訊（編輯史正丞）在過去半年不到的時間里，許多地球上的人類已經(jīng)接觸到AI聊天機器人的魅力和魔力。但歸根結(jié)底，目前并沒有AI已經(jīng)產(chǎn)生像人類一樣的自我意識，它們能夠模仿人類講話，主要原因是算法“吸收”了大量的文本——大部分是從互聯(lián)網(wǎng)上抓取的。

互聯(lián)網(wǎng)上蘊含著大量有用、有益的經(jīng)驗和知識，但數(shù)字時代的網(wǎng)民們也不得不承認，在煙波浩渺的互聯(lián)網(wǎng)信息叢林中，也蘊含著大量偏見、歧視、有害，以及侵犯名譽和隱私的內(nèi)容。種種跡象顯示，這些“人類的禁忌知識”也被大模型照單全收了。

當?shù)貢r間周三，《華盛頓郵報》發(fā)表了與艾倫人工智能研究院合作進行的調(diào)查結(jié)果，他們拆解了谷歌的C4數(shù)據(jù)集，這也是許多知名英語AI大模型的訓(xùn)練材料，例如谷歌的T5和Facebook的LLaMA。中國投資者更關(guān)注的OpenAI并沒有公布訓(xùn)練ChatGPT所用的數(shù)據(jù)集，所以這也是目前窺得AI數(shù)據(jù)黑箱的最便利解決方案。

AI數(shù)據(jù)集黑箱揭秘

值得一提的是，調(diào)查人員使用了SimilarWeb的網(wǎng)站分類數(shù)據(jù)，由于C4數(shù)據(jù)集中有三分之一的網(wǎng)站已經(jīng)不存在這個世界上了，所以實際統(tǒng)計的數(shù)據(jù)大約為1000萬個網(wǎng)站。

根據(jù)研究，囊括全球?qū)＠畔⒌墓雀鑼＠W(wǎng)、維基百科和訂閱制數(shù)字圖書館scribd的資料權(quán)重位列整個數(shù)據(jù)集前三。但隨著列表往下翻，一系列意想不到的名字開始出現(xiàn)。

已經(jīng)被美國司法部查封的盜版電子書網(wǎng)站b-ok.org高居第190位，類似這樣因為侵犯版權(quán)被美國查封的網(wǎng)站還在數(shù)據(jù)集中出現(xiàn)至少27次。

（b-ok.org現(xiàn)在是這個樣子的，來源：網(wǎng)站）

此外，《魔獸世界》玩家論壇wowhead也高居第181位，《赫芬頓郵報》創(chuàng)始人阿里安娜·赫芬頓辦的行為轉(zhuǎn)變課程網(wǎng)站thriveglobal也位居175位。令人意外的是，有兩個美國投票人數(shù)據(jù)庫網(wǎng)站也位列前100位。雖然投票人的數(shù)據(jù)本身是公開的，但大模型可能會把這些個人數(shù)據(jù)用在哪里，又有誰能說清楚呢？

接下來的數(shù)據(jù)則顯示，AI大模型潛在的侵權(quán)問題，可能要比想象中更加嚴重。商業(yè)和行業(yè)網(wǎng)站是數(shù)據(jù)集中比重最大的分類，創(chuàng)意產(chǎn)品眾籌網(wǎng)站kickstarter（25位）也出現(xiàn)在榜單里非常高的位置。這里就引出了一個新的問題，AI向用戶提供的許多創(chuàng)意和市場營銷答案，很有可能本身就是現(xiàn)成的作品。

研究人員也發(fā)現(xiàn)，超過50萬的個人博客被收錄進C4訓(xùn)練集中，這些作者顯然沒有因此得到過任何報酬。

作為AI訓(xùn)練的“富礦”，每天都大量生產(chǎn)經(jīng)過審校內(nèi)容的媒體也是訓(xùn)練集的最愛，紐約時報、洛杉磯時報、衛(wèi)報、福布斯和赫芬頓郵報均擠進數(shù)據(jù)庫比重前十。與許多藝術(shù)家一樣，不少媒體目前也在向AI產(chǎn)業(yè)聲索維權(quán)。由于美國媒體行業(yè)的復(fù)雜性，所以訓(xùn)練集中也能找到以極右翼、白人至上主義內(nèi)容為主基調(diào)的網(wǎng)站。

事實上，谷歌在構(gòu)建數(shù)據(jù)庫的時候，已經(jīng)意識到網(wǎng)絡(luò)信息污染的問題，所以除了刪除毫無意義和重復(fù)的語句外，特意用開源的“臟話過濾器”篩過一遍，但似乎有數(shù)量非常龐大的漏網(wǎng)之魚鉆了過去。研究人員就在訓(xùn)練集中找到至少7.2萬個德國納粹的標志性符號。

更令人擔憂的是，訓(xùn)練集中也能找到宣揚種族主義、極右翼陰謀論（QAnon）的網(wǎng)頁，而以組織網(wǎng)絡(luò)暴力聞名的4Chan匿名聊天網(wǎng)站也出現(xiàn)在訓(xùn)練集中。

比起數(shù)據(jù)臟處理數(shù)據(jù)的態(tài)度更迷離

雖然C4訓(xùn)練集的數(shù)據(jù)已經(jīng)非常龐大，但用于訓(xùn)練OpenAI GPT-3的網(wǎng)絡(luò)爬蟲數(shù)據(jù)集，從一開始就要比C4大40倍，背后的問題自然也會被同步放大。

但在GPT-3的論文中，OpenAI也公開討論了一個細節(jié)：在防止測試數(shù)據(jù)被放進訓(xùn)練數(shù)據(jù)導(dǎo)致污染的過程中發(fā)現(xiàn)了一個BUG，但由于重新訓(xùn)練模型太貴、公司又沒錢，所這個問題就放著不去管它了。

一些業(yè)內(nèi)人士也透露，許多科技公司在內(nèi)部都不會記錄訓(xùn)練數(shù)據(jù)的來源，因為擔心會發(fā)現(xiàn)個人信息數(shù)據(jù)，以及未經(jīng)授權(quán)的材料或其他數(shù)據(jù)。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

為您推薦

極客觀察

欄目相關(guān)

贊助商

極客網(wǎng)熱搜關(guān)鍵詞

人工智能 AI OpenAI 機器學(xué)習(xí) ChatGPT 生成式AI AI芯片 AIGC U-Mail AI大模型世界人工智能大會 AIoT AirPods Airbnb Rushmail 人工智能AI AI人工智能 Akamai 昇騰AI 生成式人工智能 AIPC Air AI技術(shù) 谷歌AI 蘋果AI GenAI 科大訊飛AI學(xué)習(xí)機百度AI CAICT 阿爾法蛋AI詞典筆T10 AI手機華為AI 松鼠AI 微軟AI AI+ AIS Airdoc WAIC 昇騰AI創(chuàng)新大賽 AITO 阿爾法蛋AI詞典筆京東AI 智譜AI AI模型 SoleusAir aigo SoleusAir舒樂氏 2019世界人工智能大會 LIFAair AI機器人移動AI時代 AI創(chuàng)企人工智能大會浙大AIF AI算力 AI醫(yī)療人工智能技術(shù) AI應(yīng)用 Zain xAI 人工智能芯片 AI人才 Airtag AI時代 AI服務(wù)器騰訊AI AI算法 BrainCo AI投資 AI框架 Gmail 人工智能計算中心聯(lián)想AI VAIO Airwallex空中云匯 AI教育 Chain 人工智能大賽 Coremail AI賦能谷歌人工智能 OPENAIGC開發(fā)者大賽人工智能名片 Airwheel 昇騰AI開發(fā)者創(chuàng)享日 AI搜索 AI眼鏡 Mirai 人工智能機器人 AI音樂阿里AI AI聊天機器人 BrainCo強腦科技阿爾法蛋AI詞典筆T20 AI計算英偉達AI芯片浪潮KaiwuDB AI助手 AIOps 人工智能+

上一篇

ChatGPT威脅版權(quán)？42家德國作者和表演者協(xié)會呼吁歐盟對AI加強監(jiān)管

下一篇

華為彭松：協(xié)同運力、算力、存力，加速邁向智能世界

簡版
原版
投稿
回頂部

2023-04-20

美國媒體揭開大模型陰暗面：訓(xùn)練用的數(shù)據(jù)可能有點臟

財聯(lián)社4月20日訊（編輯史正丞）在過去半年不到的時間里，許多地球上的人類已經(jīng)接觸到AI聊天機器人的魅力和魔力。但歸根結(jié)底，目前并沒有AI已經(jīng)產(chǎn)生像人類一樣的自我意識，它們能夠模仿人類講話，主要原因是算法“吸收”了大量的文本——大部分是從互聯(lián)網(wǎng)上抓取的。互聯(lián)網(wǎng)上蘊含著大...

長按掃碼閱讀全文