精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    美國媒體揭開大模型陰暗面:訓(xùn)練用的數(shù)據(jù)可能有點臟

    財聯(lián)社4月20日訊(編輯 史正丞)在過去半年不到的時間里,許多地球上的人類已經(jīng)接觸到AI聊天機器人的魅力和魔力。但歸根結(jié)底,目前并沒有AI已經(jīng)產(chǎn)生像人類一樣的自我意識,它們能夠模仿人類講話,主要原因是算法“吸收”了大量的文本——大部分是從互聯(lián)網(wǎng)上抓取的。

    互聯(lián)網(wǎng)上蘊含著大量有用、有益的經(jīng)驗和知識,但數(shù)字時代的網(wǎng)民們也不得不承認,在煙波浩渺的互聯(lián)網(wǎng)信息叢林中,也蘊含著大量偏見、歧視、有害,以及侵犯名譽和隱私的內(nèi)容。種種跡象顯示,這些“人類的禁忌知識”也被大模型照單全收了。

    當?shù)貢r間周三,《華盛頓郵報》發(fā)表了與艾倫人工智能研究院合作進行的調(diào)查結(jié)果,他們拆解了谷歌的C4數(shù)據(jù)集,這也是許多知名英語AI大模型的訓(xùn)練材料,例如谷歌的T5和Facebook的LLaMA。中國投資者更關(guān)注的OpenAI并沒有公布訓(xùn)練ChatGPT所用的數(shù)據(jù)集,所以這也是目前窺得AI數(shù)據(jù)黑箱的最便利解決方案。

    AI數(shù)據(jù)集黑箱揭秘

    值得一提的是,調(diào)查人員使用了SimilarWeb的網(wǎng)站分類數(shù)據(jù),由于C4數(shù)據(jù)集中有三分之一的網(wǎng)站已經(jīng)不存在這個世界上了,所以實際統(tǒng)計的數(shù)據(jù)大約為1000萬個網(wǎng)站。

    根據(jù)研究,囊括全球?qū)@畔⒌墓雀鑼@W(wǎng)、維基百科和訂閱制數(shù)字圖書館scribd的資料權(quán)重位列整個數(shù)據(jù)集前三。但隨著列表往下翻,一系列意想不到的名字開始出現(xiàn)。

    已經(jīng)被美國司法部查封的盜版電子書網(wǎng)站b-ok.org高居第190位,類似這樣因為侵犯版權(quán)被美國查封的網(wǎng)站還在數(shù)據(jù)集中出現(xiàn)至少27次。

    image

    (b-ok.org現(xiàn)在是這個樣子的,來源:網(wǎng)站)

    此外,《魔獸世界》玩家論壇wowhead也高居第181位,《赫芬頓郵報》創(chuàng)始人阿里安娜·赫芬頓辦的行為轉(zhuǎn)變課程網(wǎng)站thriveglobal也位居175位。令人意外的是,有兩個美國投票人數(shù)據(jù)庫網(wǎng)站也位列前100位。雖然投票人的數(shù)據(jù)本身是公開的,但大模型可能會把這些個人數(shù)據(jù)用在哪里,又有誰能說清楚呢?

    接下來的數(shù)據(jù)則顯示,AI大模型潛在的侵權(quán)問題,可能要比想象中更加嚴重。商業(yè)和行業(yè)網(wǎng)站是數(shù)據(jù)集中比重最大的分類,創(chuàng)意產(chǎn)品眾籌網(wǎng)站kickstarter(25位)也出現(xiàn)在榜單里非常高的位置。這里就引出了一個新的問題,AI向用戶提供的許多創(chuàng)意和市場營銷答案,很有可能本身就是現(xiàn)成的作品。

    研究人員也發(fā)現(xiàn),超過50萬的個人博客被收錄進C4訓(xùn)練集中,這些作者顯然沒有因此得到過任何報酬。

    作為AI訓(xùn)練的“富礦”,每天都大量生產(chǎn)經(jīng)過審校內(nèi)容的媒體也是訓(xùn)練集的最愛,紐約時報、洛杉磯時報、衛(wèi)報、福布斯和赫芬頓郵報均擠進數(shù)據(jù)庫比重前十。與許多藝術(shù)家一樣,不少媒體目前也在向AI產(chǎn)業(yè)聲索維權(quán)。由于美國媒體行業(yè)的復(fù)雜性,所以訓(xùn)練集中也能找到以極右翼、白人至上主義內(nèi)容為主基調(diào)的網(wǎng)站。

    事實上,谷歌在構(gòu)建數(shù)據(jù)庫的時候,已經(jīng)意識到網(wǎng)絡(luò)信息污染的問題,所以除了刪除毫無意義和重復(fù)的語句外,特意用開源的“臟話過濾器”篩過一遍,但似乎有數(shù)量非常龐大的漏網(wǎng)之魚鉆了過去。研究人員就在訓(xùn)練集中找到至少7.2萬個德國納粹的標志性符號。

    更令人擔憂的是,訓(xùn)練集中也能找到宣揚種族主義、極右翼陰謀論(QAnon)的網(wǎng)頁,而以組織網(wǎng)絡(luò)暴力聞名的4Chan匿名聊天網(wǎng)站也出現(xiàn)在訓(xùn)練集中。

    比起數(shù)據(jù)臟 處理數(shù)據(jù)的態(tài)度更迷離

    雖然C4訓(xùn)練集的數(shù)據(jù)已經(jīng)非常龐大,但用于訓(xùn)練OpenAI GPT-3的網(wǎng)絡(luò)爬蟲數(shù)據(jù)集,從一開始就要比C4大40倍,背后的問題自然也會被同步放大。

    但在GPT-3的論文中,OpenAI也公開討論了一個細節(jié):在防止測試數(shù)據(jù)被放進訓(xùn)練數(shù)據(jù)導(dǎo)致污染的過程中發(fā)現(xiàn)了一個BUG,但由于重新訓(xùn)練模型太貴、公司又沒錢,所這個問題就放著不去管它了。

    一些業(yè)內(nèi)人士也透露,許多科技公司在內(nèi)部都不會記錄訓(xùn)練數(shù)據(jù)的來源,因為擔心會發(fā)現(xiàn)個人信息數(shù)據(jù),以及未經(jīng)授權(quán)的材料或其他數(shù)據(jù)。

    (免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
    任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

    贊助商
    2023-04-20
    美國媒體揭開大模型陰暗面:訓(xùn)練用的數(shù)據(jù)可能有點臟
    財聯(lián)社4月20日訊(編輯 史正丞)在過去半年不到的時間里,許多地球上的人類已經(jīng)接觸到AI聊天機器人的魅力和魔力。但歸根結(jié)底,目前并沒有AI已經(jīng)產(chǎn)生像人類一樣的自我意識,它們能夠模仿人類講話,主要原因是算法“吸收”了大量的文本——大部分是從互聯(lián)網(wǎng)上抓取的。互聯(lián)網(wǎng)上蘊含著大...

    長按掃碼 閱讀全文