大型語言模型的功能令人驚嘆,但其運(yùn)作原理卻未知。亟待解開這一謎團(tuán),才能掌控更強(qiáng)大的未來模型,并減輕潛在風(fēng)險(xiǎn)。
大型語言模型能夠完成令人瞠目結(jié)舌的任務(wù),但沒人確切知道原因。這成了亟待解決的難題,也是掌控未來更強(qiáng)大模型的關(guān)鍵一步。
兩年前,舊金山 OpenAI 的研究人員 Yuri Burda 和 Harri Edwards 正在嘗試讓語言模型進(jìn)行基本的算術(shù)運(yùn)算。他們想知道模型需要看多少個(gè)加法運(yùn)算的例子才能學(xué)會(huì)計(jì)算任意兩個(gè)數(shù)字的和。一開始進(jìn)展并不順利,模型只會(huì)記住看過的運(yùn)算結(jié)果,無法解決新的問題。
意外的是,Burda 和 Edwards 的一次實(shí)驗(yàn)運(yùn)行時(shí)間比預(yù)想的長了很多 - 不是幾個(gè)小時(shí),而是好幾天。模型一遍遍地被展示著相同的例子,遠(yuǎn)超研究人員原本打算放棄的時(shí)長。然而,當(dāng)他們回來查看時(shí),卻驚訝地發(fā)現(xiàn)實(shí)驗(yàn)成功了。他們訓(xùn)練出了一個(gè)可以計(jì)算兩個(gè)數(shù)字之和的語言模型 - 只是耗時(shí)比想象的要長得多。
為了解個(gè)中奧妙,Burda 和 Edwards 與同事們一起研究了這一現(xiàn)象。他們發(fā)現(xiàn),在某些情況下,模型似乎在學(xué)習(xí)一項(xiàng)任務(wù)時(shí)停滯不前,然后突然茅塞頓開,就像燈泡亮起一樣理解了。這與深度學(xué)習(xí)的既定認(rèn)知并不相符。他們將這種現(xiàn)象稱為「頓悟 (grokking)」 。
“這真的很耐人尋味,” 蒙特利爾大學(xué)和蘋果機(jī)器學(xué)習(xí)研究實(shí)驗(yàn)室的 AI 研究員 Hattie Zhou 說道,她沒有參與這項(xiàng)研究,“我們能確定模型已經(jīng)停止學(xué)習(xí)了嗎?也許只是訓(xùn)練的時(shí)間還不夠長。”
這種奇怪的行為引起了整個(gè)研究界的濃厚興趣。“許多人都有自己的看法,” 英國劍橋大學(xué)的 Lauro Langosco 說,“但我認(rèn)為對(duì)于其本質(zhì),還沒有達(dá)成共識(shí)。”
「grokking」 只是讓 AI 研究人員撓頭的眾多奇怪現(xiàn)象之一。大型模型,尤其是大型語言模型,似乎表現(xiàn)出與教科書數(shù)學(xué)相悖的特性。這凸顯了深度學(xué)習(xí) - 當(dāng)今 AI 蓬勃發(fā)展背后的核心技術(shù) - 的一個(gè)顯著事實(shí):盡管取得了巨大成功,沒有人確切知道它如何 - 或?yàn)楹?- 起作用。
“顯然,我們并不是完全無知,” 加州大學(xué)圣地亞哥分校的計(jì)算機(jī)科學(xué)家 Mikhail Belkin 說,“但我們的理論分析遠(yuǎn)遠(yuǎn)落后于這些模型的實(shí)際能力。比如,它們?yōu)槭裁茨軌驅(qū)W習(xí)語言?我認(rèn)為這非常神秘?!?/p>
當(dāng)今最龐大的模型已經(jīng)復(fù)雜到讓研究人員不得不像研究自然現(xiàn)象一樣去研究它們 - 進(jìn)行實(shí)驗(yàn)并嘗試解釋結(jié)果。這些觀察結(jié)果往往與經(jīng)典統(tǒng)計(jì)學(xué)背道而馳,而經(jīng)典統(tǒng)計(jì)學(xué)曾是我們解釋預(yù)測(cè)模型行為的最佳工具包。
您可能會(huì)問,那又怎樣呢?最近幾周,谷歌 DeepMind 將其生成模型應(yīng)用到了大部分消費(fèi)者應(yīng)用中。OpenAI 以其令人驚嘆的全新文本轉(zhuǎn)視頻模型 Sora 驚艷了世人。世界各地的企業(yè)也都在爭(zhēng)相將 AI 納入麾下。這項(xiàng)技術(shù)既然有效,不就夠了嗎?
然而,弄清楚深度學(xué)習(xí)為何如此有效不僅僅是一個(gè)有趣的科學(xué)謎題。它也可能是開啟下一代技術(shù) - 以及控制其巨大風(fēng)險(xiǎn) - 的關(guān)鍵所在。
“這是一個(gè)激動(dòng)人心的時(shí)代,” 哈佛大學(xué)計(jì)算機(jī)科學(xué)家,現(xiàn)為 OpenAI 超級(jí)協(xié)調(diào)團(tuán)隊(duì)臨時(shí)團(tuán)隊(duì)成員的 Barak 說,“該領(lǐng)域很多人常常將其比作 20 世紀(jì)初的物理學(xué)。我們擁有大量實(shí)驗(yàn)結(jié)果,卻無法完全理解,而且實(shí)驗(yàn)往往會(huì)帶來驚喜。”
大多數(shù)令人驚訝之處在于模型能夠?qū)W習(xí)如何完成它們從未被教導(dǎo)過的事情。這被稱為泛化 (generalization),是機(jī)器學(xué)習(xí)中最基本的概念之一,也是其最大的謎團(tuán)。模型通過訓(xùn)練特定示例來學(xué)習(xí)執(zhí)行任務(wù) - 識(shí)別面孔、翻譯句子、避開行人。然而,它們能夠泛化,學(xué)習(xí)用從未見過的示例來執(zhí)行該任務(wù)。不知何故,模型不僅會(huì)記住它們見過的模式,還會(huì)總結(jié)出規(guī)則,讓它們能夠?qū)⑦@些模式應(yīng)用于新的案例。有時(shí),就像在「grokking」 中一樣,泛化會(huì)在我們意料之外發(fā)生。
大型語言模型,例如 OpenAI 的 GPT-4 和 Google DeepMind 的 Gemini,尤其具有驚人的泛化能力?!吧衿嬷幉辉谟谀P湍軌蛴糜⒄Z學(xué)習(xí)數(shù)學(xué)問題,然后泛化到新的英語數(shù)學(xué)問題,” Barak說,“而在于模型能夠用英語學(xué)習(xí)數(shù)學(xué)問題,然后閱讀一些法語文學(xué),并由此泛化到用法語解決數(shù)學(xué)問題。這是統(tǒng)計(jì)學(xué)無法解釋的。”
幾年前,周開始學(xué)習(xí) AI 時(shí),她對(duì)老師只關(guān)注如何卻不關(guān)注為什么的做法感到驚訝。“他們會(huì)告訴你如何訓(xùn)練這些模型,然后告訴你結(jié)果,” 她說,“但沒有解釋為什么這個(gè)過程會(huì)導(dǎo)致模型能夠完成這些驚人的事情?!?她想了解更多,但得到的回答卻是沒有好的答案:“我的假設(shè)是,科學(xué)家們知道自己在做什么。他們會(huì)先建立理論,然后再構(gòu)建模型。但事實(shí)并非如此?!?/p>
過去 10 多年里,深度學(xué)習(xí)的快速發(fā)展更多來自試錯(cuò),而不是來自理解。研究人員模仿他人的成功經(jīng)驗(yàn),并添加自己的創(chuàng)新?,F(xiàn)在,可以添加到模型中的成分有很多,而且越來越多的食譜可以指導(dǎo)如何使用它們?!叭藗儑L試這個(gè)、那個(gè),各種技巧,”Belkin 說,“有些重要,有些可能不重要?!?/p>
“它有效,這令人驚嘆。我們對(duì)這些東西的強(qiáng)大功能感到震驚,” 他說。然而,盡管取得了巨大成功,這些食譜更像是煉金術(shù)而不是化學(xué):“我們午夜時(shí)分混合了一些成分,然后找到了一些咒語,” 他說。
過擬合
問題在于,大型語言模型時(shí)代的 AI 似乎與教科書統(tǒng)計(jì)學(xué)相悖。當(dāng)今最強(qiáng)大的模型非常龐大,擁有多達(dá)一萬億個(gè)參數(shù)(模型在訓(xùn)練過程中調(diào)整的值)。但統(tǒng)計(jì)學(xué)表明,隨著模型的增大,它們的表現(xiàn)應(yīng)該先提高,然后下降。這是因?yàn)檫^擬合 (overfitting)。
當(dāng)模型在數(shù)據(jù)集上進(jìn)行訓(xùn)練時(shí),它會(huì)嘗試將數(shù)據(jù)擬合到模式。想像一下圖表上繪制的一堆數(shù)據(jù)點(diǎn)。符合數(shù)據(jù)的模式可以在圖表上表示為一條穿過這些點(diǎn)的線。訓(xùn)練模型的過程可以被認(rèn)為是讓它找到一條既符合訓(xùn)練數(shù)據(jù)(圖上已有的點(diǎn)),又符合新數(shù)據(jù)(新的點(diǎn))的線。
直線是一種模式,但它可能不太準(zhǔn)確,會(huì)遺漏一些點(diǎn)。連接所有點(diǎn)的曲線將獲得訓(xùn)練數(shù)據(jù)的滿分,但無法泛化。當(dāng)這種情況發(fā)生時(shí),模型就被認(rèn)為對(duì)其數(shù)據(jù)過擬合。
根據(jù)經(jīng)典統(tǒng)計(jì)學(xué),模型越大,就越容易過擬合。這是因?yàn)閰?shù)越多,模型就越容易找到連接所有點(diǎn)的曲線。這表明,如果模型要泛化,就必須找到欠擬合和過擬合之間的平衡點(diǎn)。然而,這并不是我們?cè)诖竽P椭锌吹降默F(xiàn)象。最著名的例子是雙下降 (double descent) 現(xiàn)象。
模型的性能通常用它產(chǎn)生的錯(cuò)誤數(shù)量來表示:隨著性能的提高,錯(cuò)誤率會(huì)下降(或下降)。幾十年來,人們一直認(rèn)為錯(cuò)誤率會(huì)隨著模型的增大而下降,然后上升:想像一條 U 形曲線,泛化的最佳點(diǎn)位于最低點(diǎn)。但 2018 年, Belkin 和他的同事發(fā)現(xiàn),當(dāng)某些模型變得更大時(shí),它們的錯(cuò)誤率會(huì)下降,然后上升 - 然后再下降 (雙下降,或 W 形曲線)。換句話說,大型模型會(huì)以某種方式超越那個(gè)最佳點(diǎn),并克服過擬合問題,隨著模型的增大,它們會(huì)變得更好。
一年后,Barak與他人合著了一篇論文,表明雙下降現(xiàn)象比許多人想象的更為普遍。它不僅發(fā)生在模型變大時(shí),也發(fā)生在訓(xùn)練數(shù)據(jù)量大或訓(xùn)練時(shí)間長的模型中。這種被稱為良性過擬合 (benign overfitting) 的行為仍然沒有完全被理解。它提出了一些基本問題,例如如何訓(xùn)練模型才能充分發(fā)揮其作用。
研究人員已經(jīng)勾勒出了他們認(rèn)為正在發(fā)生的事情的版本。 Belkin 認(rèn)為,有一種奧卡姆剃刀 (Occam's razor) 效應(yīng)在起作用:最符合數(shù)據(jù)的簡(jiǎn)單模式 - 點(diǎn)之間的最平滑曲線 - 往往是泛化最好的模式。更大的模型保持改進(jìn)的時(shí)間比看起來更長的原因可能是,更大的模型比更小的模型更有可能擊中那個(gè)曲線:更多的參數(shù)意味著在拋棄最搖擺的曲線后,有更多的可能曲線可以嘗試。
Belkin 說:“我們的理論似乎解釋了它為什么有效的基本原理?!薄叭缓笕藗冎谱髁丝梢哉f100種語言的模型,就像,好吧,我們什么都不懂。”他笑著說:“事實(shí)證明,我們甚至沒有觸及表面。”
對(duì)于Belkin來說,大型語言模型是一個(gè)全新的謎團(tuán)。這些模型基于transformers,這是一種擅長處理數(shù)據(jù)序列的神經(jīng)網(wǎng)絡(luò),比如句子中的單詞。
Belkin 說,Transformer內(nèi)部非常復(fù)雜。但他認(rèn)為,從本質(zhì)上講,它們與一種更易于理解的統(tǒng)計(jì)結(jié)構(gòu)——馬爾科夫鏈(Markov chain)——做著差不多的事情。馬爾科夫鏈根據(jù)之前出現(xiàn)的元素預(yù)測(cè)序列中的下一個(gè)元素。但這不足以解釋大型語言模型所能做的一切?!爸钡阶罱?,我們還認(rèn)為這是不可能的,”Belkin 說,“這意味著我們的認(rèn)知中存在根本性的缺失。它指出了我們對(duì)世界的理解存在差距。”
Belkin 更進(jìn)一步認(rèn)為,語言中可能存在隱藏的數(shù)學(xué)模式,而大型語言模型以某種方式利用了這種模式:“純屬猜測(cè),但為什么不呢?”
“這些東西能夠建模語言,可能是歷史上最偉大的發(fā)現(xiàn)之一,” 他說,“僅通過馬爾科夫鏈預(yù)測(cè)下一個(gè)詞,你就能學(xué)習(xí)語言 - 這對(duì)我來說簡(jiǎn)直是震驚。”
從小處著手
研究人員正試圖一點(diǎn)一點(diǎn)地解開謎團(tuán)。由于大型模型過于復(fù)雜,無法直接研究, Belkin 、Barak、周和其他研究人員轉(zhuǎn)而對(duì)更小(和更老)的統(tǒng)計(jì)模型進(jìn)行實(shí)驗(yàn),這些模型更容易理解。在不同條件下、使用不同類型的數(shù)據(jù)對(duì)這些代理進(jìn)行訓(xùn)練,并觀察結(jié)果,可以洞察正在發(fā)生的事情。這有助于建立新的理論,但這些理論是否適用于更大的模型還不總是清楚的。畢竟,許多奇怪的行為都存在于大型模型的復(fù)雜性之中。
深度學(xué)習(xí)理論會(huì)到來嗎?哥倫比亞大學(xué)計(jì)算機(jī)科學(xué)家、 Belkin 在雙下降論文的合著者之一 David Hsu 并不指望很快找到所有答案?!拔覀儸F(xiàn)在有更好的直覺,” 他說,“但要真正解釋清楚為什么神經(jīng)網(wǎng)絡(luò)會(huì)有這種意想不到的行為?我們還遠(yuǎn)遠(yuǎn)沒有做到這一點(diǎn)。”
2016 年,麻省理工學(xué)院的 Chiyuan Zhang 和谷歌大腦的同事們發(fā)表了一篇具有影響力的論文,題為“理解深度學(xué)習(xí)需要重新思考泛化”。2021 年,五年后,他們?cè)俅伟l(fā)表了這篇論文,將其命名為“理解深度學(xué)習(xí)(仍然)需要重新思考泛化”。2024 年呢?“有點(diǎn)是,有點(diǎn)不是,” Zhang 說,“最近取得了許多進(jìn)展,但也許提出的問題比解決的問題還多?!?/p>
與此同時(shí),研究人員仍在努力解決一些基本觀察問題。去年 12 月,Langosco 和他的同事在頂級(jí) AI 會(huì)議 NeurIPS 上發(fā)表了一篇論文,聲稱「grokking」 和雙下降實(shí)際上是同一現(xiàn)象的兩個(gè)方面?!澳阕屑?xì)觀察它們,它們看起來很相似,” 朗戈斯科說。他認(rèn)為,對(duì)正在發(fā)生的事情的解釋應(yīng)該解釋兩者。
在同一場(chǎng)會(huì)議上,劍橋大學(xué)統(tǒng)計(jì)學(xué)研究員 Alicia Curth 和她的同事們認(rèn)為,雙下降實(shí)際上是一種錯(cuò)覺。“我無法接受現(xiàn)代機(jī)器學(xué)習(xí)是一種超越我們迄今為止所建立的所有規(guī)律的魔法,” Curth說。她的團(tuán)隊(duì)認(rèn)為,雙下降現(xiàn)象 - 模型在變大時(shí)表現(xiàn)似乎先變好,然后變差,然后再變好 - 是由于模型復(fù)雜性的測(cè)量方式造成的。
Belkin 和他的同事們使用模型大小 - 參數(shù)數(shù)量 - 作為復(fù)雜性的衡量標(biāo)準(zhǔn)。但 Curth 和她的同事們發(fā)現(xiàn),參數(shù)數(shù)量可能不是復(fù)雜性的好指標(biāo),因?yàn)樘砑訁?shù)有時(shí)會(huì)使模型更復(fù)雜,有時(shí)會(huì)使模型更簡(jiǎn)單。這取決于參數(shù)的值、它們?cè)谟?xùn)練過程中的使用方式以及它們與其他參數(shù)的相互作用 - 其中大部分隱藏在模型內(nèi)部。“我們的結(jié)論是,并非所有模型參數(shù)都是平等的,” Curth 說。
簡(jiǎn)而言之,如果你使用不同的復(fù)雜性度量,大型模型可能會(huì)很好地符合經(jīng)典統(tǒng)計(jì)。Curth說,這并不是說當(dāng)模型變大時(shí),我們對(duì)會(huì)發(fā)生什么沒有太多的不理解。但我們已經(jīng)有了解釋它所需的所有數(shù)學(xué)知識(shí)。
我們這個(gè)時(shí)代的一個(gè)大謎團(tuán)
大型語言模型能力驚人,但其運(yùn)作原理卻困擾著研究界。有人認(rèn)為,缺乏理論基礎(chǔ)會(huì)阻礙未來 AI 的發(fā)展,也有人擔(dān)心強(qiáng)大 AI 的潛在風(fēng)險(xiǎn)。
加州大學(xué)圣地亞哥分校的計(jì)算機(jī)科學(xué)家 Belkin 認(rèn)為,理論基礎(chǔ)的薄弱讓研究人員難以預(yù)測(cè)大型語言模型的潛力?!叭绻麤]有堅(jiān)實(shí)的基礎(chǔ)理論,我們就無法預(yù)料這些模型的未來?!?/p>
哈佛大學(xué)計(jì)算機(jī)科學(xué)家 Barak 贊同這一觀點(diǎn)。即使擁有強(qiáng)大的模型,也很難解釋其能力的來源。“即使事后諸葛亮,也很難確切地說出某些能力為何會(huì)在某個(gè)時(shí)間點(diǎn)出現(xiàn)?!?/p>
理論研究不僅是為了推動(dòng)進(jìn)步,也是為了規(guī)避風(fēng)險(xiǎn)。劍橋大學(xué)的 Langosco 提到安全問題,“只有訓(xùn)練和測(cè)試,我們才知道 GPT-5 會(huì)擁有哪些能力。現(xiàn)在可能是個(gè)小問題,但隨著模型越來越強(qiáng)大,它將變成大麻煩?!?/p>
Barak目前在 OpenAI 的超對(duì)齊團(tuán)隊(duì)工作,該團(tuán)隊(duì)旨在避免超級(jí)智能失控?!拔曳浅?释@得某種保證。如果擁有強(qiáng)大能力卻無法控制,那它就不是那么神奇了。一輛時(shí)速可以開到 300 英里的車,如果方向盤搖搖晃晃,那又有何用?”
然而,更深層次的驅(qū)動(dòng)力源于科學(xué)探索的渴望?!?a href="http://worldfootballweekly.com/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD_1.html" target="_blank" class="keylink">人工智能絕對(duì)是當(dāng)代最偉大的謎團(tuán)之一,” Barak說,“我們還是一個(gè)非常稚嫩的科學(xué)領(lǐng)域。本月讓我興奮的問題,也許下個(gè)月就變了。我們?nèi)栽诓粩喟l(fā)現(xiàn)新事物,需要不斷試驗(yàn)并迎接驚喜。”
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )