日前,紐約時(shí)報(bào)的一篇報(bào)道稱,人工智能公司 OpenAI為收集高質(zhì)量訓(xùn)練數(shù)據(jù)而開發(fā)了一個(gè)語音轉(zhuǎn)錄模型Whisper。該模型主要用于轉(zhuǎn)錄 OpenAI 獲取的超過 100 萬小時(shí)的 YouTube 視頻,也就是將 YouTube 視頻中的音頻內(nèi)容轉(zhuǎn)錄文字,然后再拿去訓(xùn)練 GPT-4。這個(gè)項(xiàng)目得到OpenAI 總裁 Greg Brockman的支持,甚至于Greg Brockman還親自參與了視頻的收集工作。
雖然OpenAI 認(rèn)為這是對(duì)數(shù)據(jù)的合理利用,但谷歌顯然并不這么認(rèn)為,并公開稱:谷歌會(huì)采取技術(shù)和法律措施來防止此類未經(jīng)授權(quán)的使用。
在人工智能領(lǐng)域,數(shù)據(jù)是構(gòu)建智能模型的基石。沒有高質(zhì)量的數(shù)據(jù),AI的發(fā)展就會(huì)受到嚴(yán)重限制。怎么合法獲取高質(zhì)量數(shù)據(jù)?可能有望在OpenAI和谷歌的紛爭(zhēng)中給業(yè)界指明一條更為明確的道路。
AI公司為了提升模型的性能,往往需要大量的數(shù)據(jù)作為訓(xùn)練材料。然而,這些數(shù)據(jù)往往受到版權(quán)法的保護(hù),未經(jīng)授權(quán)的使用可能會(huì)觸犯法律。這不僅對(duì)AI公司構(gòu)成挑戰(zhàn),也對(duì)內(nèi)容創(chuàng)作者的權(quán)利保護(hù)提出了問題。
目前OpenAI的訓(xùn)練數(shù)據(jù)獲取大多是來自以下幾方面:
一是互聯(lián)網(wǎng)內(nèi)容。OpenAI從互聯(lián)網(wǎng)上抓取大量的網(wǎng)頁內(nèi)容,包括文本、圖片、視頻等多種形式的數(shù)據(jù)。這些數(shù)據(jù)不僅用于訓(xùn)練自然語言處理模型,如GPT系列,還可能用于圖像識(shí)別、多模態(tài)模型等其他類型的AI模型。
二是圖書資料。OpenAI還利用大量的圖書資料作為訓(xùn)練數(shù)據(jù)。這些書籍內(nèi)容涵蓋了各種領(lǐng)域和主題,有助于模型更好地理解長篇、結(jié)構(gòu)化和正式英語。
三是學(xué)術(shù)論文。為了提升模型在科學(xué)和技術(shù)領(lǐng)域的理解能力,OpenAI還收集了大量的學(xué)術(shù)論文作為訓(xùn)練數(shù)據(jù)。
四是社交媒體數(shù)據(jù)。隨著社交媒體的發(fā)展,OpenAI也開始與各大社交媒體合作,探索利用社交媒體上的公共信息來訓(xùn)練模型。這些數(shù)據(jù)包括用戶發(fā)布的文本、圖片、視頻等,有助于模型更好地理解人類的語言和行為。
五是特定領(lǐng)域數(shù)據(jù)。針對(duì)特定任務(wù)或領(lǐng)域,OpenAI還可能收集特定領(lǐng)域的數(shù)據(jù)進(jìn)行訓(xùn)練。例如,對(duì)于醫(yī)療領(lǐng)域的模型,可能需要收集醫(yī)學(xué)文獻(xiàn)、病例報(bào)告等數(shù)據(jù);對(duì)于金融領(lǐng)域的模型,可能需要收集市場(chǎng)數(shù)據(jù)、財(cái)務(wù)報(bào)告等。
這些內(nèi)容不僅OpenAI在用,其他無數(shù)AI公司也在用這些內(nèi)容進(jìn)行人工智能的訓(xùn)練,要保證OpenAI的領(lǐng)先性,就必須為其AI模型加入更加豐富的高質(zhì)量訓(xùn)練數(shù)據(jù)。這是OpenAI轉(zhuǎn)錄YouTube視頻進(jìn)行訓(xùn)練的關(guān)鍵所在。
2020年初,約翰霍普金斯大學(xué)的理論物理學(xué)家(現(xiàn)Anthropic首席科學(xué)官)Jared Kaplan發(fā)布了一篇論文,明確表示訓(xùn)練大語言模型用的數(shù)據(jù)越多,表現(xiàn)就會(huì)越好。自那以后,“規(guī)模就是一切”成為了人工智能行業(yè)的信條。
研究機(jī)構(gòu)Epoch直白地表示,現(xiàn)在科技公司使用數(shù)據(jù)的速度已經(jīng)超過數(shù)據(jù)生產(chǎn)的速度,這些公司最快會(huì)在2026年就耗盡互聯(lián)網(wǎng)上的高質(zhì)量數(shù)據(jù)。
高質(zhì)量數(shù)據(jù)已經(jīng)成為AI公司發(fā)展壯大的“石油”,在競(jìng)爭(zhēng)的壓力下,讓它們對(duì)石油的獲取變得更為無所顧忌。對(duì)YouTube視頻的轉(zhuǎn)錄存在法律爭(zhēng)議,OpenAI是知道的,但對(duì)數(shù)據(jù)的貪婪還是讓他們義無反顧的堅(jiān)信這是對(duì)數(shù)據(jù)的合理使用。
AI公司要發(fā)展,獲取訓(xùn)練數(shù)據(jù)要合法合規(guī)。 一方面,可以通過與內(nèi)容提供商建立合作關(guān)系,獲取合法授權(quán)的數(shù)據(jù)。另一方面,AI公司也可以考慮自行生成合成數(shù)據(jù),以滿足訓(xùn)練需求。這不僅能夠避免法律風(fēng)險(xiǎn),還能夠確保數(shù)據(jù)的多樣性和質(zhì)量。
AI的發(fā)展不僅僅是技術(shù)問題,更是社會(huì)問題。AI技術(shù)的應(yīng)用需要在尊重版權(quán)、保護(hù)隱私的前提下進(jìn)行。只有這樣,AI技術(shù)才能夠得到健康、可持續(xù)的發(fā)展。
AI的盡頭是內(nèi)容,但內(nèi)容的獲取必須建立在合法合規(guī)的基礎(chǔ)之上。AI公司、內(nèi)容創(chuàng)作者、法律機(jī)構(gòu)等各方需要共同努力,找到平衡技術(shù)發(fā)展與法律倫理的解決方案,以確保AI技術(shù)能夠造福人類社會(huì),而不是成為爭(zhēng)議的焦點(diǎn)。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 僅售999元 月底開售 閃極打響AI眼鏡量產(chǎn)發(fā)令槍
- 蘿卜快跑走紅、滴滴加碼,中國Robotaxi大戰(zhàn)升級(jí)
- 雷軍無暇顧及董明珠
- 不僅漲價(jià),美國芯片還得求著要,臺(tái)積電技術(shù)遙遙領(lǐng)先有底氣!
- 掃地機(jī)新技術(shù)看追覓
- 特朗普示好,最高法介入,TikTok賣家極限生死局
- 釋放數(shù)字金融向新力 奇富科技金融AI大模型成果落地上海金融科技國際論壇特展周活動(dòng)
- 劉興亮|酒局十誡
- 未來屬于會(huì)用AI的企業(yè)!自己做的免費(fèi)智慧發(fā)票助手,簡(jiǎn)單又強(qiáng)大
- 一觸“伙伴+華為”體系,傳媒行業(yè)點(diǎn)亮數(shù)智之光
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。