Lamini公司提出一種記憶調(diào)優(yōu)方法,有效減少大語言模型95%的幻覺問題。
到目前為止,我希望大多數(shù)讀者都已經(jīng)體驗(yàn)過公開可用的大語言模型,無論是自己運(yùn)行軟件,還是訂閱眾多在線服務(wù)之一,或者使用當(dāng)前的免費(fèi)和測(cè)試解決方案。在大多數(shù)情況下,這些大語言模型之所以被稱為“大”,是因?yàn)樗鼈儼瑪?shù)十億個(gè)參數(shù),通常在大量非結(jié)構(gòu)化語言數(shù)據(jù)上進(jìn)行訓(xùn)練。對(duì)于大多數(shù)行業(yè)來說,參數(shù)的數(shù)量通常與這些模型的準(zhǔn)確性相關(guān)聯(lián)——訓(xùn)練的數(shù)據(jù)越多,設(shè)計(jì)中的參數(shù)越多,這些通用模型可以持有和回憶或生成的信息范圍越廣。然而,情況并非總是如此,目前這個(gè)市場(chǎng)存在一個(gè)大問題:幻覺。
本周,初創(chuàng)公司Lamini發(fā)表了一篇論文,展示了一種新方法,能夠保守地減少大語言模型95%的幻覺問題。Lamini由首席執(zhí)行官Sharon Zhou(PhD,Andrew Ng團(tuán)隊(duì)的生成式AI教授,MIT獲獎(jiǎng)生成式AI研究,最大規(guī)模的生成式AI Coursera課程)和首席技術(shù)官Greg Diamos(NVIDIA/CUDA架構(gòu)師,超過14000次引用,AI擴(kuò)展法則,ML Perf聯(lián)合創(chuàng)始人)共同創(chuàng)立,是最早提供大語言模型微調(diào)服務(wù)的公司之一。與其他公司不同的是,盡管聯(lián)合創(chuàng)始人之一是NVIDIA Tensor Core架構(gòu)師,他們更傾向于使用AMD Instinct MI200/MI300 GPU。公司在2024年初完成了A輪融資,獲得2500萬美元的資金,主要投資者包括Amplify Partners和First Round Capital。其他投資者包括Lip-Bu Tan、Andrej Karpathy和Andrew Ng。Lamini已經(jīng)擁有《財(cái)富》500強(qiáng)企業(yè)客戶,并提供基于每GPU授權(quán)的中間層軟件以及云推理服務(wù)。
幻覺問題
目前的大語言模型屬于“生成式AI”類別——你給它一個(gè)提示詞/單詞,它會(huì)生成一些返回的詞語。然而,生成的內(nèi)容是基于輸入的,并且由于設(shè)計(jì)中的概率函數(shù),輸出是“生成”的,可能會(huì)提供原始數(shù)據(jù)集中存在但抽象到模型內(nèi)嵌空間中的話題的詳細(xì)信息。例如,“parent”這一概念可以嵌入為son和father之間的向量,而類似的向量也可以用來描述一個(gè)更改名稱的國(guó)家。
然而,模型會(huì)出現(xiàn)幻覺。這不僅僅限于大模型,但生成式AI天生就考慮到了幻覺問題。這最終導(dǎo)致模型給出錯(cuò)誤信息,或者在嵌入空間中創(chuàng)建了不應(yīng)存在的關(guān)系,導(dǎo)致錯(cuò)誤的輸出。
幻覺問題來源于多個(gè)方面,但我將在這里挑兩個(gè)方面。首先是事實(shí)——大多數(shù)通用模型對(duì)事實(shí)的掌握較差。它們擅長(zhǎng)解釋概念,但問一個(gè)通用模型某人的生日往往是不靠譜的。原因是即使數(shù)據(jù)集中有正確答案,也會(huì)有很多相似的信息可能被模型選擇作為響應(yīng)的一部分。一個(gè)很好的例子是我問一個(gè)通用Llama2-7B模型AMD首席執(zhí)行官Lisa Su的生日——它正確地識(shí)別了年份,但日期實(shí)際上是歸因于晶體管的發(fā)現(xiàn)日期。因?yàn)長(zhǎng)isa Su與芯片和晶體管密切相關(guān),所以在嵌入空間中被選擇為可能符合答案的候選者。模型出現(xiàn)了幻覺。
其次是這些通用模型的訓(xùn)練方式。數(shù)據(jù)集可能是公共信息,正確或錯(cuò)誤(例如reddit, Wikipedia),甚至是矛盾的信息,但這些模型被設(shè)計(jì)成要給出一個(gè)答案,無論對(duì)錯(cuò)。除非問題在“不要回答此類問題”的保護(hù)機(jī)制中被捕捉到,否則幾乎所有的語言模型都傾向于給出答案,無論是否正確。這不僅適用于事實(shí),還適用于數(shù)據(jù)集中沒有直接存在但可能從數(shù)據(jù)集中推導(dǎo)出的概念。對(duì)于一個(gè)特定模型來說,LiDAR和RADAR可能相似,或者1000萬這個(gè)數(shù)字可能與300萬有相同的權(quán)重——如果你在使用一個(gè)模型來處理就業(yè)合同,這就會(huì)產(chǎn)生很大的差異。
問題在于通用訓(xùn)練數(shù)據(jù)就是通用的。一個(gè)形成良好的數(shù)據(jù)集(大多數(shù)不是)將在許多主題上提供類似水平的輸出。在各種測(cè)試中,損失函數(shù)(準(zhǔn)確性水平,數(shù)字越低越好)通常會(huì)在測(cè)試主題之間表現(xiàn)得相似。因此,幻覺可能發(fā)生在模型中的許多不同概念上,而不管模型的參數(shù)大小。通常從頭開始訓(xùn)練一個(gè)大模型的數(shù)據(jù)集是一次性事件,因?yàn)閿?shù)據(jù)集龐大,訓(xùn)練成本巨大——我們已經(jīng)快要達(dá)到數(shù)十億美元的訓(xùn)練成本了,這還不包括GPU的成本。
已經(jīng)有一些方法可以幫助應(yīng)對(duì)幻覺問題并付諸實(shí)踐。
第一個(gè)選擇是擁有一個(gè)特定領(lǐng)域的模型,僅在需要的數(shù)據(jù)上進(jìn)行訓(xùn)練。這有一些邊緣情況的問題,不能很好地在其領(lǐng)域之外進(jìn)行泛化,但也存在不知道哪些事實(shí)可能在上下文中相關(guān)的問題。數(shù)據(jù)集中多個(gè)日期嵌入到一個(gè)主題中的嵌入函數(shù)很容易讓人迷惑。
處理幻覺問題的初步方法是參與協(xié)同提示。例如,將用戶的提示與背景中相關(guān)的準(zhǔn)確材料配對(duì)。比如,一個(gè)設(shè)計(jì)為幫助支持特定產(chǎn)品的助手可以與所有相關(guān)的PDF或數(shù)據(jù)庫信息協(xié)同提示,處理用戶的提問。模型可以設(shè)計(jì)成將協(xié)同提示作為比通用信息更高的準(zhǔn)確性標(biāo)準(zhǔn),然而它仍然依賴于模型選擇協(xié)同提示作為正確答案。此外,這需要模型輸入接受成千上萬,甚至數(shù)百萬個(gè)令牌,這大大增加了任何推理設(shè)計(jì)的計(jì)算需求,從長(zhǎng)遠(yuǎn)來看使其成本不具成本效益,特別是如果協(xié)同提示是多模態(tài)的(圖像、音頻或視頻而不是文本)。結(jié)果比原始模型更好,但仍然缺乏精確性。
接下來是微調(diào)。這類似于從頭開始訓(xùn)練特定領(lǐng)域的模型,但我們從通用模型開始,并在已知的、經(jīng)過篩選的數(shù)據(jù)上微調(diào)一些嵌入表。微調(diào)模型達(dá)到了某種程度的效果——畢竟這就是我們?nèi)绾螐腉PT-3得到ChatGPT的。微調(diào)中對(duì)正確數(shù)據(jù)有偏好,并且可以泛化到多個(gè)主題,因?yàn)樗鼇碜杂谕ㄓ媚P?,然而在某些市?chǎng)中,數(shù)據(jù)的微調(diào)并不夠準(zhǔn)確。微調(diào)也可能是計(jì)算密集型的。
今天行業(yè)中常提到的一個(gè)策略是RAG,即檢索增強(qiáng)生成。這與協(xié)同提示類似,但改變了模型訪問數(shù)據(jù)的方式。它不是附加到用戶提示上,而是作為一個(gè)驗(yàn)證的數(shù)據(jù)庫,模型可以用來輔助生成輸出。例如,法律模型可以手頭有案例數(shù)據(jù)庫,其中特定的案例可以被檢索以提供答案和背景。RAG的表現(xiàn)有時(shí)會(huì)有所不同,因?yàn)樗匀灰蕾囉谀P颓度胫獾臄?shù)據(jù)。它可能和協(xié)同提示一樣糟糕,也可能和最好的微調(diào)一樣好。
我們還應(yīng)提到語言模型中的專家概念。專家混合(MoE)模型依賴于多個(gè)優(yōu)化的小模型,每個(gè)模型都有一個(gè)更精細(xì)和特定的數(shù)據(jù)集,然后通過一個(gè)分層決策向量(或樹)將信息路由到特定專家以獲得相關(guān)答案。大多數(shù)在線超級(jí)大語言模型使用MoE結(jié)構(gòu)來幫助提高準(zhǔn)確性,額外的好處是性能和成本——Mixtral 7x7B名義上是一個(gè)490億參數(shù)的MoE,但在多個(gè)地方我看到一個(gè)平均輸入只會(huì)激活大約300億參數(shù),從而減少計(jì)算和內(nèi)存需求,但最終比490億參數(shù)模型提供更好和更準(zhǔn)確的輸出。
所有這些技術(shù)都基于這樣的原則,即當(dāng)通用知識(shí)以足夠的數(shù)據(jù)或正確的方式進(jìn)行訓(xùn)練時(shí),提高準(zhǔn)確性,減少幻覺,并提供最低的損失函數(shù)(如上所述)。在通用訓(xùn)練之后,損失函數(shù)通過微調(diào)、RAG、MoE進(jìn)一步減少。然而,它們都面臨著這樣一個(gè)事實(shí),即即使有MoE,最終的目標(biāo)是通過經(jīng)過驗(yàn)證的數(shù)據(jù)減少整個(gè)知識(shí)陣列的平均損失函數(shù)。
現(xiàn)代大語言模型不僅要具備通用性,還需要在許多商業(yè)應(yīng)用中持有特定知識(shí)。這就是Lamini的用武之地,他們聲稱能夠幾乎完全消除特定話題上的幻覺。該方法本身很有趣,但也提出了一個(gè)好問題,可能定義未來的機(jī)器學(xué)習(xí)計(jì)算模式可能會(huì)發(fā)生的變化——類似于Transformer相比以前的卷積神經(jīng)網(wǎng)絡(luò)的變化。
Lamini-1解決方案:記憶調(diào)優(yōu)
在2024年6月13日發(fā)表的一篇論文中,Lamini介紹了一種名為“記憶調(diào)優(yōu)”的方法——一種以非常具體的方式嵌入特定數(shù)據(jù)到即使只有30億參數(shù)的小模型中的激進(jìn)方法。問題在于(CTO Greg Diamos對(duì)我解釋)這不僅是方法上的問題,還需要違背一些歷史上的機(jī)器學(xué)習(xí)優(yōu)化思維。
Lamini的記憶調(diào)優(yōu)將MoE的概念以非常具體的方式大幅提升。每個(gè)專家被引導(dǎo)到一個(gè)調(diào)節(jié)器中,該調(diào)節(jié)器以100倍于微調(diào)的速度進(jìn)行數(shù)據(jù)調(diào)優(yōu)。調(diào)優(yōu)比微調(diào)更容易,因?yàn)檫@些是調(diào)節(jié)器(如LoRA),而不是優(yōu)化整個(gè)嵌入表的權(quán)重。結(jié)果是,每個(gè)調(diào)節(jié)器可以將隨機(jī)字符串樣式的信息作為其數(shù)據(jù)集的一部分進(jìn)行持有,并以100倍的速度進(jìn)行訓(xùn)練,使其保留在那兒。整個(gè)模型中,這就創(chuàng)造了一個(gè)“百萬專家混合體”,Lamini將其稱為“記憶專家混合體”(MoME)。
簡(jiǎn)單來說,這就像把硬性事實(shí)放入模型中。
在機(jī)器學(xué)習(xí)中,有一個(gè)爭(zhēng)論是大型模型實(shí)際上能以接近確定性的方式知道多少硬性事實(shí)。這個(gè)話題遠(yuǎn)超本文范圍,但卻是一個(gè)有趣的深思。
如果回到前面提到的損失函數(shù)概念,這看起來非常類似于將特定領(lǐng)域知識(shí)過擬合到模型中。對(duì)于該概念的損失函數(shù)變得大大降低,幾乎對(duì)模型的通用知識(shí)沒有任何影響?,F(xiàn)在,模型可以準(zhǔn)確回憶數(shù)據(jù)——在實(shí)踐中,這可能是公司產(chǎn)品組合的信息,或者幫助臺(tái)處理支持文檔,甚至是處理代碼的語言模型。實(shí)際上,這對(duì)低億參數(shù)模型的有效性將有助于將MoME引入邊緣用例。
正如我之前提到的,為了實(shí)現(xiàn)這一點(diǎn),某些模型訓(xùn)練的傳統(tǒng)思維必須拋棄。在機(jī)器學(xué)習(xí)世界中,通常對(duì)“過擬合”數(shù)據(jù)持有一種不情愿的態(tài)度,因?yàn)槿藗冋J(rèn)為這會(huì)破壞模型其余部分的通用推理。最終的看法是,一個(gè)模型只能持有“有限”的數(shù)據(jù)(類似于互聯(lián)網(wǎng)是一系列管道),通過過擬合數(shù)據(jù)會(huì)導(dǎo)致其他方面的性能下降。在與Greg的討論中,Lamini的方法對(duì)模型其余部分幾乎沒有影響。這很重要,因?yàn)榇笳Z言模型必須具備通用推理能力,但對(duì)于特定領(lǐng)域的MoME來說,這并不是問題。
Lamini在其網(wǎng)站上對(duì)MoME的解釋是一個(gè)非常好的閱讀材料,它還談到了這比常規(guī)微調(diào)所需的計(jì)算要求低得多。這是因?yàn)闉榱讼糜X而優(yōu)化的知識(shí)領(lǐng)域本身定義狹窄——你不是重新調(diào)優(yōu)整個(gè)嵌入表,而是對(duì)一個(gè)非常小的部分進(jìn)行幾十次的超級(jí)調(diào)優(yōu)。但未提及的是,我問團(tuán)隊(duì)是否考慮過這對(duì)推理中的計(jì)算變化有什么影響。
在機(jī)器學(xué)習(xí)中,我們看到計(jì)算需求從卷積神經(jīng)網(wǎng)絡(luò)(CNN)和計(jì)算機(jī)視覺轉(zhuǎn)向Transformer時(shí)發(fā)生了重大變化。Transformer是一大突破,但它改變了這些模型的計(jì)算和內(nèi)存需求。任何專門為優(yōu)化CNN而構(gòu)建的計(jì)算硬件在面對(duì)Transformer時(shí)往往被拋在后面,因?yàn)樗狈λ璧念~外計(jì)算功能,或者沒有足夠的計(jì)算到內(nèi)存到內(nèi)存帶寬以實(shí)現(xiàn)管道全利用。在推理方面,特別是考慮到從長(zhǎng)遠(yuǎn)來看推理的收入預(yù)計(jì)將超過訓(xùn)練成本很多個(gè)數(shù)量級(jí),這一點(diǎn)非常重要。
問題在于,與標(biāo)準(zhǔn)模型(例如Llama3-8B)相比,一個(gè)新的Llama3-8B+1MxMoME(即1百萬MoME的Llama3-8B)是否有顯著不同的計(jì)算配置來推動(dòng)計(jì)算架構(gòu)的轉(zhuǎn)變?答案是需要進(jìn)行研究。如果在AI領(lǐng)域有一件事可能引發(fā)硅片制造商的劇變,那就是市場(chǎng)的又一次Transformer式進(jìn)化,如果任何硬件制造商看到這一點(diǎn)并且/或者能夠迅速調(diào)整以支持它的速度和規(guī)模。
Lamini表示,其記憶調(diào)優(yōu)/MoME功能已經(jīng)在多個(gè)客戶中實(shí)施,包括一家財(cái)富500強(qiáng)公司,目前其文本到SQL代碼生成的幻覺減少了10倍。
本文譯自 morethanmoore,由 BALI 編輯發(fā)布。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )