極客網(wǎng)·人工智能1月30日 如今,人們發(fā)表的文章或作品被剽竊,而剽竊者免費(fèi)使用或?yàn)榇双@利的事例屢見(jiàn)不鮮。從互聯(lián)網(wǎng)到AI,莫不如此。
比如,如今火熱的OpenAI,其AI模型就很少為其使用的內(nèi)容付費(fèi),該公司在2023年創(chuàng)造了13億美元的收入。
OpenAI的狡辯
在《紐約時(shí)報(bào)》針對(duì)OpenAI進(jìn)行的版權(quán)訴訟中,OpenAI為自己辯護(hù)稱,“我們使用互聯(lián)網(wǎng)公開(kāi)的內(nèi)容訓(xùn)練AI模型的行為是合理的?!?/p>
根據(jù)OpenAI的這一邏輯,任何人放到網(wǎng)上的作品都是在參與一種公平的游戲,都可以被利用并納入該公司的大型語(yǔ)言模型。
《紐約時(shí)報(bào)》聲稱,該報(bào)發(fā)表的數(shù)百萬(wàn)篇文章現(xiàn)在被OpenAI用來(lái)訓(xùn)練與其進(jìn)行業(yè)務(wù)競(jìng)爭(zhēng)的聊天機(jī)器人。他們從該報(bào)作者和編輯的工作成果中賺取了數(shù)十億美元,卻沒(méi)有支付稿費(fèi)。
OpenAI還聲無(wú)賴地聲稱,《紐約時(shí)報(bào)》可以選擇不讓他們的報(bào)道被ChatGPT的LLM使用。但是,如果是這樣的話,那么,ChatGPT直接抄襲《紐約時(shí)報(bào)》獲得普利策獎(jiǎng)的一篇調(diào)查報(bào)告該如何解釋呢?該報(bào)告是《紐約時(shí)報(bào)》的記者歷時(shí)18個(gè)月對(duì)紐約市出租車(chē)行業(yè)的掠奪性貸款行為進(jìn)行調(diào)查而發(fā)表的一篇詳盡報(bào)道。
事實(shí)面前,OpenAI解釋?zhuān)?a href="http://worldfootballweekly.com/ChatGPT_1.html" target="_blank" class="keylink">ChatGPT可能采用的是其所謂“記憶”的方法。該公司辯稱,“這是我們?cè)诓粩鄬W(xué)習(xí)和進(jìn)步過(guò)程中罕見(jiàn)的一次失敗,但當(dāng)特定內(nèi)容在訓(xùn)練數(shù)據(jù)中不止一次出現(xiàn)時(shí),就像它的片段出現(xiàn)在許多不同的公共網(wǎng)站上一樣,這種情況更為常見(jiàn)?!?/p>
與此同時(shí),OpenAI聲稱,“《紐約時(shí)報(bào)》的報(bào)道沒(méi)有對(duì)我們現(xiàn)有模型的訓(xùn)練做出有意義的貢獻(xiàn),也不會(huì)對(duì)未來(lái)的訓(xùn)練產(chǎn)生足夠的影響?!盙PT-3中權(quán)重最高的數(shù)據(jù)集是Common Crawl,排名前三的數(shù)據(jù)來(lái)源是維基百科、美國(guó)專(zhuān)利數(shù)據(jù)庫(kù)和《紐約時(shí)報(bào)》。
剽竊者想要免費(fèi)獲得一切
正如Futurism網(wǎng)站的特約撰稿人Victor Tangermann最近在發(fā)表的一篇文章所寫(xiě)的那樣,“OpenAI的整個(gè)商業(yè)模式依賴于盡可能多地收集數(shù)據(jù),通常包括受版權(quán)保護(hù)的材料?!?/p>
OpenAI在向英國(guó)議會(huì)提出的觀點(diǎn)也是這樣表達(dá)的。該公司表示:“因?yàn)楫?dāng)今的版權(quán)幾乎涵蓋了所有類(lèi)型的人類(lèi)表達(dá),其中包括博客文章、照片、論壇帖子、軟件代碼片段和政府文件——如果不使用受版權(quán)保護(hù)的材料,那么就不可能訓(xùn)練領(lǐng)先的AI模型?!?/p>
已故科幻作家Harlan Ellison在《付錢(qián)給作家》文章中曾說(shuō):“剽竊者想要免費(fèi)獲得一切。他們付費(fèi)給作家了嗎?沒(méi)有,他們總是想讓作家白干!”
OpenAI和其他生成式AI開(kāi)發(fā)商就是如此。他們竊取出版公司、出版物、作家和編輯的工作成果,他們?cè)跊](méi)有給任何人支付費(fèi)用的情況下獲利。
歷史總是在重演
歷史總是在重演。報(bào)紙和雜志等出版物在20世紀(jì)90年代開(kāi)始衰落,他們的內(nèi)容被發(fā)到互聯(lián)網(wǎng),而出版商無(wú)法獲利潤(rùn)。這就是谷歌能夠通過(guò)廣告將新聞媒體的內(nèi)容轉(zhuǎn)化為利潤(rùn)的原因,而新聞出版物的收入則大量流失。
希望出版商不會(huì)再犯這樣的錯(cuò)誤,他們應(yīng)該獲得相應(yīng)的報(bào)酬。當(dāng)然,這種情況可能會(huì)重演。如果那真的發(fā)生,那么就能看到未來(lái)是什么樣子。博主兼科幻作家Cory Doctorow為這種情況創(chuàng)造了“Enshittification”這樣的詞語(yǔ)來(lái)描述,指的是網(wǎng)站內(nèi)容和信息質(zhì)量的下降。
最近的研究表明,谷歌的搜索結(jié)果正變得越來(lái)越無(wú)效,而且充斥著更多的垃圾網(wǎng)站。越來(lái)越多的內(nèi)容是基于搜索引擎優(yōu)化和AI生成的廢話。與此同時(shí),內(nèi)容質(zhì)量相對(duì)于數(shù)量的下降,將導(dǎo)致出版商和作家收入減少。這反過(guò)來(lái)意味著,可供生成式工智能引擎訓(xùn)練的具有價(jià)值的故事將會(huì)越來(lái)越少。
如果OpenAI和生成式AI開(kāi)發(fā)商是明智的,他們需要與內(nèi)容創(chuàng)作者分享財(cái)富。從長(zhǎng)遠(yuǎn)來(lái)看,這確實(shí)是所有人前進(jìn)的唯一道路——無(wú)論是科技億萬(wàn)富翁還是自由撰稿人。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )