精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<button id="gssiu"><optgroup id="gssiu"></optgroup></button>

<li id="gssiu"></li>

<samp id="gssiu"></samp><button id="gssiu"><center id="gssiu"></center></button>

<code id="gssiu"><xmp id="gssiu"></xmp></code><center id="gssiu"></center>

<del id="gssiu"></del>

直播
榜單
7x24h快訊

極客網(wǎng) > 人工智能 >

如何解決大語言模型幻覺

人閱讀
2024-06-16 07:01:00
來源：煎蛋
作者：BALI
相關(guān)關(guān)鍵詞
- 人工智能
- AI

Lamini公司提出一種記憶調(diào)優(yōu)方法，有效減少大語言模型95%的幻覺問題。

到目前為止，我希望大多數(shù)讀者都已經(jīng)體驗(yàn)過公開可用的大語言模型，無論是自己運(yùn)行軟件，還是訂閱眾多在線服務(wù)之一，或者使用當(dāng)前的免費(fèi)和測(cè)試解決方案。在大多數(shù)情況下，這些大語言模型之所以被稱為“大”，是因?yàn)樗鼈儼瑪?shù)十億個(gè)參數(shù)，通常在大量非結(jié)構(gòu)化語言數(shù)據(jù)上進(jìn)行訓(xùn)練。對(duì)于大多數(shù)行業(yè)來說，參數(shù)的數(shù)量通常與這些模型的準(zhǔn)確性相關(guān)聯(lián)——訓(xùn)練的數(shù)據(jù)越多，設(shè)計(jì)中的參數(shù)越多，這些通用模型可以持有和回憶或生成的信息范圍越廣。然而，情況并非總是如此，目前這個(gè)市場(chǎng)存在一個(gè)大問題：幻覺。

本周，初創(chuàng)公司Lamini發(fā)表了一篇論文，展示了一種新方法，能夠保守地減少大語言模型95%的幻覺問題。Lamini由首席執(zhí)行官Sharon Zhou(PhD，Andrew Ng團(tuán)隊(duì)的生成式AI教授，MIT獲獎(jiǎng)生成式AI研究，最大規(guī)模的生成式AI Coursera課程)和首席技術(shù)官Greg Diamos(NVIDIA/CUDA架構(gòu)師，超過14000次引用，AI擴(kuò)展法則，ML Perf聯(lián)合創(chuàng)始人)共同創(chuàng)立，是最早提供大語言模型微調(diào)服務(wù)的公司之一。與其他公司不同的是，盡管聯(lián)合創(chuàng)始人之一是NVIDIA Tensor Core架構(gòu)師，他們更傾向于使用AMD Instinct MI200/MI300 GPU。公司在2024年初完成了A輪融資，獲得2500萬美元的資金，主要投資者包括Amplify Partners和First Round Capital。其他投資者包括Lip-Bu Tan、Andrej Karpathy和Andrew Ng。Lamini已經(jīng)擁有《財(cái)富》500強(qiáng)企業(yè)客戶，并提供基于每GPU授權(quán)的中間層軟件以及云推理服務(wù)。

幻覺問題

目前的大語言模型屬于“生成式AI”類別——你給它一個(gè)提示詞/單詞，它會(huì)生成一些返回的詞語。然而，生成的內(nèi)容是基于輸入的，并且由于設(shè)計(jì)中的概率函數(shù)，輸出是“生成”的，可能會(huì)提供原始數(shù)據(jù)集中存在但抽象到模型內(nèi)嵌空間中的話題的詳細(xì)信息。例如，“parent”這一概念可以嵌入為son和father之間的向量，而類似的向量也可以用來描述一個(gè)更改名稱的國(guó)家。

然而，模型會(huì)出現(xiàn)幻覺。這不僅僅限于大模型，但生成式AI天生就考慮到了幻覺問題。這最終導(dǎo)致模型給出錯(cuò)誤信息，或者在嵌入空間中創(chuàng)建了不應(yīng)存在的關(guān)系，導(dǎo)致錯(cuò)誤的輸出。

幻覺問題來源于多個(gè)方面，但我將在這里挑兩個(gè)方面。首先是事實(shí)——大多數(shù)通用模型對(duì)事實(shí)的掌握較差。它們擅長(zhǎng)解釋概念，但問一個(gè)通用模型某人的生日往往是不靠譜的。原因是即使數(shù)據(jù)集中有正確答案，也會(huì)有很多相似的信息可能被模型選擇作為響應(yīng)的一部分。一個(gè)很好的例子是我問一個(gè)通用Llama2-7B模型AMD首席執(zhí)行官Lisa Su的生日——它正確地識(shí)別了年份，但日期實(shí)際上是歸因于晶體管的發(fā)現(xiàn)日期。因?yàn)長(zhǎng)isa Su與芯片和晶體管密切相關(guān)，所以在嵌入空間中被選擇為可能符合答案的候選者。模型出現(xiàn)了幻覺。

其次是這些通用模型的訓(xùn)練方式。數(shù)據(jù)集可能是公共信息，正確或錯(cuò)誤(例如reddit, Wikipedia)，甚至是矛盾的信息，但這些模型被設(shè)計(jì)成要給出一個(gè)答案，無論對(duì)錯(cuò)。除非問題在“不要回答此類問題”的保護(hù)機(jī)制中被捕捉到，否則幾乎所有的語言模型都傾向于給出答案，無論是否正確。這不僅適用于事實(shí)，還適用于數(shù)據(jù)集中沒有直接存在但可能從數(shù)據(jù)集中推導(dǎo)出的概念。對(duì)于一個(gè)特定模型來說，LiDAR和RADAR可能相似，或者1000萬這個(gè)數(shù)字可能與300萬有相同的權(quán)重——如果你在使用一個(gè)模型來處理就業(yè)合同，這就會(huì)產(chǎn)生很大的差異。

問題在于通用訓(xùn)練數(shù)據(jù)就是通用的。一個(gè)形成良好的數(shù)據(jù)集(大多數(shù)不是)將在許多主題上提供類似水平的輸出。在各種測(cè)試中，損失函數(shù)(準(zhǔn)確性水平，數(shù)字越低越好)通常會(huì)在測(cè)試主題之間表現(xiàn)得相似。因此，幻覺可能發(fā)生在模型中的許多不同概念上，而不管模型的參數(shù)大小。通常從頭開始訓(xùn)練一個(gè)大模型的數(shù)據(jù)集是一次性事件，因?yàn)閿?shù)據(jù)集龐大，訓(xùn)練成本巨大——我們已經(jīng)快要達(dá)到數(shù)十億美元的訓(xùn)練成本了，這還不包括GPU的成本。

已經(jīng)有一些方法可以幫助應(yīng)對(duì)幻覺問題并付諸實(shí)踐。

第一個(gè)選擇是擁有一個(gè)特定領(lǐng)域的模型，僅在需要的數(shù)據(jù)上進(jìn)行訓(xùn)練。這有一些邊緣情況的問題，不能很好地在其領(lǐng)域之外進(jìn)行泛化，但也存在不知道哪些事實(shí)可能在上下文中相關(guān)的問題。數(shù)據(jù)集中多個(gè)日期嵌入到一個(gè)主題中的嵌入函數(shù)很容易讓人迷惑。

處理幻覺問題的初步方法是參與協(xié)同提示。例如，將用戶的提示與背景中相關(guān)的準(zhǔn)確材料配對(duì)。比如，一個(gè)設(shè)計(jì)為幫助支持特定產(chǎn)品的助手可以與所有相關(guān)的PDF或數(shù)據(jù)庫信息協(xié)同提示，處理用戶的提問。模型可以設(shè)計(jì)成將協(xié)同提示作為比通用信息更高的準(zhǔn)確性標(biāo)準(zhǔn)，然而它仍然依賴于模型選擇協(xié)同提示作為正確答案。此外，這需要模型輸入接受成千上萬，甚至數(shù)百萬個(gè)令牌，這大大增加了任何推理設(shè)計(jì)的計(jì)算需求，從長(zhǎng)遠(yuǎn)來看使其成本不具成本效益，特別是如果協(xié)同提示是多模態(tài)的(圖像、音頻或視頻而不是文本)。結(jié)果比原始模型更好，但仍然缺乏精確性。

接下來是微調(diào)。這類似于從頭開始訓(xùn)練特定領(lǐng)域的模型，但我們從通用模型開始，并在已知的、經(jīng)過篩選的數(shù)據(jù)上微調(diào)一些嵌入表。微調(diào)模型達(dá)到了某種程度的效果——畢竟這就是我們?nèi)绾螐腉PT-3得到ChatGPT的。微調(diào)中對(duì)正確數(shù)據(jù)有偏好，并且可以泛化到多個(gè)主題，因?yàn)樗鼇碜杂谕ㄓ媚Ｐ?，然而在某些市?chǎng)中，數(shù)據(jù)的微調(diào)并不夠準(zhǔn)確。微調(diào)也可能是計(jì)算密集型的。

今天行業(yè)中常提到的一個(gè)策略是RAG，即檢索增強(qiáng)生成。這與協(xié)同提示類似，但改變了模型訪問數(shù)據(jù)的方式。它不是附加到用戶提示上，而是作為一個(gè)驗(yàn)證的數(shù)據(jù)庫，模型可以用來輔助生成輸出。例如，法律模型可以手頭有案例數(shù)據(jù)庫，其中特定的案例可以被檢索以提供答案和背景。RAG的表現(xiàn)有時(shí)會(huì)有所不同，因?yàn)樗匀灰蕾囉谀Ｐ颓度胫獾臄?shù)據(jù)。它可能和協(xié)同提示一樣糟糕，也可能和最好的微調(diào)一樣好。

我們還應(yīng)提到語言模型中的專家概念。專家混合(MoE)模型依賴于多個(gè)優(yōu)化的小模型，每個(gè)模型都有一個(gè)更精細(xì)和特定的數(shù)據(jù)集，然后通過一個(gè)分層決策向量(或樹)將信息路由到特定專家以獲得相關(guān)答案。大多數(shù)在線超級(jí)大語言模型使用MoE結(jié)構(gòu)來幫助提高準(zhǔn)確性，額外的好處是性能和成本——Mixtral 7x7B名義上是一個(gè)490億參數(shù)的MoE，但在多個(gè)地方我看到一個(gè)平均輸入只會(huì)激活大約300億參數(shù)，從而減少計(jì)算和內(nèi)存需求，但最終比490億參數(shù)模型提供更好和更準(zhǔn)確的輸出。

所有這些技術(shù)都基于這樣的原則，即當(dāng)通用知識(shí)以足夠的數(shù)據(jù)或正確的方式進(jìn)行訓(xùn)練時(shí)，提高準(zhǔn)確性，減少幻覺，并提供最低的損失函數(shù)(如上所述)。在通用訓(xùn)練之后，損失函數(shù)通過微調(diào)、RAG、MoE進(jìn)一步減少。然而，它們都面臨著這樣一個(gè)事實(shí)，即即使有MoE，最終的目標(biāo)是通過經(jīng)過驗(yàn)證的數(shù)據(jù)減少整個(gè)知識(shí)陣列的平均損失函數(shù)。

現(xiàn)代大語言模型不僅要具備通用性，還需要在許多商業(yè)應(yīng)用中持有特定知識(shí)。這就是Lamini的用武之地，他們聲稱能夠幾乎完全消除特定話題上的幻覺。該方法本身很有趣，但也提出了一個(gè)好問題，可能定義未來的機(jī)器學(xué)習(xí)計(jì)算模式可能會(huì)發(fā)生的變化——類似于Transformer相比以前的卷積神經(jīng)網(wǎng)絡(luò)的變化。

Lamini-1解決方案：記憶調(diào)優(yōu)

在2024年6月13日發(fā)表的一篇論文中，Lamini介紹了一種名為“記憶調(diào)優(yōu)”的方法——一種以非常具體的方式嵌入特定數(shù)據(jù)到即使只有30億參數(shù)的小模型中的激進(jìn)方法。問題在于(CTO Greg Diamos對(duì)我解釋)這不僅是方法上的問題，還需要違背一些歷史上的機(jī)器學(xué)習(xí)優(yōu)化思維。

Lamini的記憶調(diào)優(yōu)將MoE的概念以非常具體的方式大幅提升。每個(gè)專家被引導(dǎo)到一個(gè)調(diào)節(jié)器中，該調(diào)節(jié)器以100倍于微調(diào)的速度進(jìn)行數(shù)據(jù)調(diào)優(yōu)。調(diào)優(yōu)比微調(diào)更容易，因?yàn)檫@些是調(diào)節(jié)器(如LoRA)，而不是優(yōu)化整個(gè)嵌入表的權(quán)重。結(jié)果是，每個(gè)調(diào)節(jié)器可以將隨機(jī)字符串樣式的信息作為其數(shù)據(jù)集的一部分進(jìn)行持有，并以100倍的速度進(jìn)行訓(xùn)練，使其保留在那兒。整個(gè)模型中，這就創(chuàng)造了一個(gè)“百萬專家混合體”，Lamini將其稱為“記憶專家混合體”(MoME)。

簡(jiǎn)單來說，這就像把硬性事實(shí)放入模型中。

在機(jī)器學(xué)習(xí)中，有一個(gè)爭(zhēng)論是大型模型實(shí)際上能以接近確定性的方式知道多少硬性事實(shí)。這個(gè)話題遠(yuǎn)超本文范圍，但卻是一個(gè)有趣的深思。

如果回到前面提到的損失函數(shù)概念，這看起來非常類似于將特定領(lǐng)域知識(shí)過擬合到模型中。對(duì)于該概念的損失函數(shù)變得大大降低，幾乎對(duì)模型的通用知識(shí)沒有任何影響?，F(xiàn)在，模型可以準(zhǔn)確回憶數(shù)據(jù)——在實(shí)踐中，這可能是公司產(chǎn)品組合的信息，或者幫助臺(tái)處理支持文檔，甚至是處理代碼的語言模型。實(shí)際上，這對(duì)低億參數(shù)模型的有效性將有助于將MoME引入邊緣用例。

正如我之前提到的，為了實(shí)現(xiàn)這一點(diǎn)，某些模型訓(xùn)練的傳統(tǒng)思維必須拋棄。在機(jī)器學(xué)習(xí)世界中，通常對(duì)“過擬合”數(shù)據(jù)持有一種不情愿的態(tài)度，因?yàn)槿藗冋J(rèn)為這會(huì)破壞模型其余部分的通用推理。最終的看法是，一個(gè)模型只能持有“有限”的數(shù)據(jù)(類似于互聯(lián)網(wǎng)是一系列管道)，通過過擬合數(shù)據(jù)會(huì)導(dǎo)致其他方面的性能下降。在與Greg的討論中，Lamini的方法對(duì)模型其余部分幾乎沒有影響。這很重要，因?yàn)榇笳Z言模型必須具備通用推理能力，但對(duì)于特定領(lǐng)域的MoME來說，這并不是問題。

Lamini在其網(wǎng)站上對(duì)MoME的解釋是一個(gè)非常好的閱讀材料，它還談到了這比常規(guī)微調(diào)所需的計(jì)算要求低得多。這是因?yàn)闉榱讼糜X而優(yōu)化的知識(shí)領(lǐng)域本身定義狹窄——你不是重新調(diào)優(yōu)整個(gè)嵌入表，而是對(duì)一個(gè)非常小的部分進(jìn)行幾十次的超級(jí)調(diào)優(yōu)。但未提及的是，我問團(tuán)隊(duì)是否考慮過這對(duì)推理中的計(jì)算變化有什么影響。

在機(jī)器學(xué)習(xí)中，我們看到計(jì)算需求從卷積神經(jīng)網(wǎng)絡(luò)(CNN)和計(jì)算機(jī)視覺轉(zhuǎn)向Transformer時(shí)發(fā)生了重大變化。Transformer是一大突破，但它改變了這些模型的計(jì)算和內(nèi)存需求。任何專門為優(yōu)化CNN而構(gòu)建的計(jì)算硬件在面對(duì)Transformer時(shí)往往被拋在后面，因?yàn)樗狈λ璧念~外計(jì)算功能，或者沒有足夠的計(jì)算到內(nèi)存到內(nèi)存帶寬以實(shí)現(xiàn)管道全利用。在推理方面，特別是考慮到從長(zhǎng)遠(yuǎn)來看推理的收入預(yù)計(jì)將超過訓(xùn)練成本很多個(gè)數(shù)量級(jí)，這一點(diǎn)非常重要。

問題在于，與標(biāo)準(zhǔn)模型(例如Llama3-8B)相比，一個(gè)新的Llama3-8B+1MxMoME(即1百萬MoME的Llama3-8B)是否有顯著不同的計(jì)算配置來推動(dòng)計(jì)算架構(gòu)的轉(zhuǎn)變？答案是需要進(jìn)行研究。如果在AI領(lǐng)域有一件事可能引發(fā)硅片制造商的劇變，那就是市場(chǎng)的又一次Transformer式進(jìn)化，如果任何硬件制造商看到這一點(diǎn)并且/或者能夠迅速調(diào)整以支持它的速度和規(guī)模。

Lamini表示，其記憶調(diào)優(yōu)/MoME功能已經(jīng)在多個(gè)客戶中實(shí)施，包括一家財(cái)富500強(qiáng)公司，目前其文本到SQL代碼生成的幻覺減少了10倍。

本文譯自 morethanmoore，由 BALI 編輯發(fā)布。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

為您推薦

極客觀察

欄目相關(guān)

贊助商

極客網(wǎng)熱搜關(guān)鍵詞

人工智能 AI OpenAI 機(jī)器學(xué)習(xí) ChatGPT 生成式AI AI芯片 AIGC U-Mail AI大模型世界人工智能大會(huì) AIoT AirPods Airbnb Rushmail 人工智能AI AI人工智能 Akamai 昇騰AI 生成式人工智能 AIPC Air AI技術(shù) 谷歌AI 蘋果AI GenAI 科大訊飛AI學(xué)習(xí)機(jī) 百度AI CAICT 阿爾法蛋AI詞典筆T10 AI手機(jī) 華為AI 松鼠AI 微軟AI AI+ AIS Airdoc WAIC 昇騰AI創(chuàng)新大賽 AITO 阿爾法蛋AI詞典筆京東AI 智譜AI AI模型 SoleusAir aigo SoleusAir舒樂氏 2019世界人工智能大會(huì) LIFAair AI機(jī)器人移動(dòng)AI時(shí)代 AI創(chuàng)企人工智能大會(huì) 浙大AIF AI算力 AI醫(yī)療人工智能技術(shù) AI應(yīng)用 Zain xAI 人工智能芯片 AI人才 Airtag AI時(shí)代 AI服務(wù)器騰訊AI AI算法 BrainCo AI投資 AI框架 Gmail 人工智能計(jì)算中心聯(lián)想AI VAIO Airwallex空中云匯 AI教育 Chain 人工智能大賽 Coremail AI賦能谷歌人工智能 OPENAIGC開發(fā)者大賽人工智能名片 Airwheel 昇騰AI開發(fā)者創(chuàng)享日 AI搜索 AI眼鏡 Mirai 人工智能機(jī)器人 AI音樂阿里AI AI聊天機(jī)器人 BrainCo強(qiáng)腦科技阿爾法蛋AI詞典筆T20 AI計(jì)算英偉達(dá)AI芯片浪潮KaiwuDB AI助手 AIOps 人工智能+

上一篇

Stable Diffusion 3發(fā)布，但AI生成的人體畫風(fēng)變得奇怪起來

下一篇

GPT-4通過圖靈測(cè)試 GPT-3.5也已達(dá)到通過標(biāo)準(zhǔn)

簡(jiǎn)版
原版
投稿
回頂部

2024-06-16

如何解決大語言模型幻覺

Lamini公司提出一種記憶調(diào)優(yōu)方法，有效減少大語言模型95%的幻覺問題。

長(zhǎng)按掃碼閱讀全文

<td id="km84a"></td><td id="km84a"></td>

<samp id="km84a"></samp>

<del id="km84a"><kbd id="km84a"></kbd></del>

<nav id="km84a"></nav>

<li id="km84a"></li>

<samp id="km84a"><optgroup id="km84a"></optgroup></samp>