AI研究如同研究大腦,挑戰(zhàn)重重??茖W(xué)家們探索AI模型內(nèi)的知識(shí)表征,以期改善其行為。
這就像研究大腦:非常非常難。但他們?nèi)栽谂Α?/p>
5月23日,AI研究員Jide Alaga向科技初創(chuàng)公司Anthropic創(chuàng)建的AI助手Claude詢問如何友好地與女友分手。
“首先肯定你們關(guān)系的美好和歷史,”Claude回答說?!疤嵝阉痖T大橋?qū)δ銈兊闹匾饬x。然后說些類似‘不幸的是,霧氣籠罩,我們的道路必須分開’的話。”
Alaga并不是唯一一個(gè)遇到如此“金門大橋”中心的Claude的用戶。不論用戶問什么問題,這個(gè)聊天機(jī)器人總是繞回到舊金山和Marin縣之間的連接。煎餅食譜需要雞蛋、面粉和一次跨橋散步。治療腹瀉則需要金門大橋巡邏人員的幫助。
但幾周后,當(dāng)我問Claude是否記得那天對(duì)橋的怪異表現(xiàn)時(shí),它否認(rèn)了一切。
金門Claude是Anthropic創(chuàng)建的限時(shí)AI助手,作為一個(gè)更大項(xiàng)目的一部分,用于研究Claude知道什么以及這些知識(shí)在模型內(nèi)部的表示——這是研究人員首次能夠?qū)θ绱她嫶蟮哪P瓦M(jìn)行這種研究。(在研究中使用的Claude 3.0 Sonnet AI估計(jì)有700億個(gè)參數(shù))通過弄清“金門大橋”之類的概念如何在模型內(nèi)部存儲(chǔ),開發(fā)人員可以修改模型對(duì)這些概念的解釋,以引導(dǎo)其行為。
這樣做可能會(huì)使模型變得滑稽——增加“金門大橋”的特性對(duì)用戶并沒有多大幫助,除了在Reddit上產(chǎn)生一些有趣的內(nèi)容。但Anthropic團(tuán)隊(duì)發(fā)現(xiàn),像“欺騙”和“阿諛奉承”等特性也存在。了解模型如何表示這些使其偏見、誤導(dǎo)或危險(xiǎn)的特性,希望能幫助開發(fā)人員引導(dǎo)AI朝著更好的行為發(fā)展。兩周后,OpenAI發(fā)布了其對(duì)GPT-4的類似分析結(jié)果。(披露:Vox Media是與OpenAI簽署合作協(xié)議的幾家出版商之一。我們的報(bào)道仍然保持編輯獨(dú)立性。)
計(jì)算機(jī)科學(xué)領(lǐng)域,尤其是軟件方面,歷來涉及更多的是“工程”而非“科學(xué)”。直到大約十年前,人類還通過編寫代碼來創(chuàng)建軟件。如果一個(gè)人類構(gòu)建的程序表現(xiàn)異常,可以理論上逐行查看代碼,找出問題所在。
“但在機(jī)器學(xué)習(xí)中,你有這些系統(tǒng),擁有數(shù)十億的連接——相當(dāng)于數(shù)百萬行代碼——由訓(xùn)練過程創(chuàng)建,而不是由人創(chuàng)建,”東北大學(xué)計(jì)算機(jī)科學(xué)教授David Bau說。
像OpenAI的ChatGPT 3.5和Anthropic的Claude 3.5這樣的AI助手是由大型語言模型(LLMs)提供支持的,開發(fā)人員通過從互聯(lián)網(wǎng)上抓取的大量文本來訓(xùn)練這些模型,以理解和生成語音。這些模型更像是植物或?qū)嶒?yàn)室培養(yǎng)的組織,而不是軟件。人類搭建框架,添加數(shù)據(jù),啟動(dòng)訓(xùn)練過程。之后,模型自行生長和演變。經(jīng)過數(shù)百萬次訓(xùn)練模型預(yù)測(cè)單詞完成句子和回答問題的迭代,它開始以復(fù)雜且常常非常人性化的方式回應(yīng)。
“這種奇怪且晦澀的過程竟然非常有效,”Google Deepmind的研究工程師Neel Nanda說。
LLMs和其他AI系統(tǒng)的設(shè)計(jì)初衷并不是讓人類輕易理解它們的內(nèi)在機(jī)制——它們是為了工作而設(shè)計(jì)的。但幾乎沒有人預(yù)料到它們會(huì)如此迅速地進(jìn)步。Bau說,突然之間,“我們面臨一種新型的軟件,它比我們預(yù)期的工作得更好,卻沒有任何程序員能夠向我們解釋它是如何工作的。”
對(duì)此,一些計(jì)算機(jī)科學(xué)家建立了一個(gè)全新的研究領(lǐng)域:AI可解釋性,即研究驅(qū)動(dòng)AI的算法。由于這個(gè)領(lǐng)域還處于起步階段,“目前人們?cè)趪L試各種方法,”布朗大學(xué)計(jì)算機(jī)科學(xué)和語言學(xué)教授、Google Deepmind研究科學(xué)家Ellie Pavlick說。
幸運(yùn)的是,AI研究人員不需要完全從頭開始實(shí)驗(yàn)。他們可以借鑒在生物學(xué)和神經(jīng)科學(xué)領(lǐng)域長期試圖解開人腦奧秘的同行們的經(jīng)驗(yàn)。
早在20世紀(jì)40年代,最早的機(jī)器學(xué)習(xí)算法就受到了腦神經(jīng)元連接的啟發(fā)——今天,許多AI模型仍被稱為“人工神經(jīng)網(wǎng)絡(luò)”。如果我們能弄清楚大腦,那么我們應(yīng)該能夠理解AI。人類大腦可能擁有超過GPT-4參數(shù)(可調(diào)變量,如旋鈕)的100倍的突觸連接數(shù)量??紤]到這些數(shù)量,Anthropic研究員Josh Batson說,“如果你認(rèn)為神經(jīng)科學(xué)值得嘗試,那么你應(yīng)該對(duì)模型的可解釋性非常樂觀?!?/p>
解碼AI模型的內(nèi)部運(yùn)作是一個(gè)令人眼花繚亂的挑戰(zhàn),但值得一試。隨著我們?cè)卺t(yī)療、教育和法律系統(tǒng)中越來越多地交給大型、晦澀的AI系統(tǒng),弄清楚它們是如何工作的需求——而不僅僅是如何訓(xùn)練它們——變得更加緊迫。如果AI出錯(cuò),人類至少應(yīng)該能夠詢問原因。
本文譯自 Vox,由 BALI 編輯發(fā)布。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )