精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<thead id="drdfb"><legend id="drdfb"><fieldset id="drdfb"></fieldset></legend></thead>

<thead id="drdfb"></thead>

<blockquote id="drdfb"></blockquote>

<thead id="drdfb"></thead>

直播
榜單
7x24h快訊

極客網(wǎng) > 人工智能 >

如何判斷大模型是否在胡編

人閱讀
2024-06-25 07:00:00
來源：煎蛋
作者：BALI
相關關鍵詞
- 人工智能
- AI

牛津大學的研究人員發(fā)現(xiàn)了一種簡單的方法，可以判斷大型語言模型何時在編造內(nèi)容。

眾所周知，大型語言模型(LLM)在回答問題時有時會給出明顯錯誤的答案，而且這種錯誤的自信與它們正確回答時的自信無異。這有多種原因。AI可能接受了錯誤信息的訓練；答案可能需要LLM無法推導的事實；或者LLM的某些訓練環(huán)節(jié)可能促進了錯誤信息的產(chǎn)生。

但也許最簡單的解釋是，LLM并不知道什么是正確答案，卻被迫提供一個答案。因此，它只是憑空捏造了一個答案，這種習慣被稱為“編造”(confabulation)。

顯然，弄清楚LLM何時在編造答案非常重要，尤其是人們已經(jīng)開始迅速依賴它們處理從大學論文到求職申請等各種事情?，F(xiàn)在，牛津大學的研究人員表示，他們發(fā)現(xiàn)了一種相對簡單的方法，可以判斷LLM何時在編造內(nèi)容，這種方法適用于所有流行模型和廣泛的主題。在此過程中，他們還證明了LLM提供的大多數(shù)錯誤信息都是編造的。

捕捉編造內(nèi)容

這項新研究嚴格關注編造內(nèi)容，而非訓練時輸入錯誤信息的情況。牛津團隊在描述工作的論文中定義，編造內(nèi)容是指“LLM流利地做出錯誤且任意的聲明——我們指的是答案對諸如隨機種子等無關細節(jié)很敏感?！?/p>

他們的研究背后的推理實際上非常簡單。LLM并不是為了準確性而訓練的；它們只是接受了大量文本的訓練，并通過這種訓練學會了產(chǎn)生人類語言風格的措辭。如果在訓練中，大量文本一致地將某事物呈現(xiàn)為事實，那么LLM很可能也會將其呈現(xiàn)為事實。但如果訓練中的例子很少，或者事實不一致，那么LLM就會合成一個聽起來似乎合理但可能錯誤的答案。

LLM在有多個選項可以表達正確答案時，也會遇到類似的情況。例如，研究人員的論文中提到，“巴黎”、“它在巴黎”和“法國首都巴黎”都是“埃菲爾鐵塔在哪里？”的有效答案。因此，在這種情況下，統(tǒng)計不確定性(在此稱為熵)可能會出現(xiàn)，要么是LLM對如何表達正確答案不確定，要么是它無法識別正確答案。

這意味著強迫LLM在面對幾個大致相當?shù)拇鸢笗r回答“我不知道”并不是一個好主意。這樣做可能會阻止許多正確答案的產(chǎn)生。

因此，研究人員專注于他們稱之為語義熵的概念。這評估了LLM評估的所有統(tǒng)計上可能的答案，并確定其中有多少是語義上等價的。如果大量答案都具有相同的意義，那么LLM可能對措辭不確定，但答案是正確的。如果不是這樣，那么它可能處于容易編造答案的情況，此時應阻止它這樣做。

提取意義

這在實際中是如何工作的？描述非常直白：

我們的方法通過對每個問題采樣幾個可能的答案，并通過算法將它們聚類成具有相似意義的答案來工作，我們判斷答案是否在同一個聚類的依據(jù)是這些答案是否雙向蘊涵對方。如果句子A蘊涵句子B為真，反之亦然，那么我們認為它們屬于同一個語義聚類。

如果一個聚類占主導地位，那么AI正在從一個具有相似事實內(nèi)容的選項集合中選擇答案。如果有多個聚類，那么AI正在不同的事實內(nèi)容集合中選擇答案，這種情況下可能會導致編造內(nèi)容。

除了概念上的簡單性，基于這些想法實施一個系統(tǒng)也很簡單。大多數(shù)主要的LLM都會生成一組統(tǒng)計上可能的答案，這些答案是評估語義熵所需要的。已經(jīng)有LLM和稱為自然語言推理工具的軟件，可以判斷兩個句子是否互相蘊涵。而且，因為這些工具已經(jīng)存在，所以不需要監(jiān)督訓練，這意味著系統(tǒng)不需要通過編造內(nèi)容的例子來學習確定一組潛在答案的語義熵。

研究人員開發(fā)了一種度量，來確定用戶通過語義熵過濾器可以獲得的準確性提升。他們將其與其他幾種錯誤捕捉方法上進行了測試，涵蓋了大量主題：包括瑣事和一般知識、生物學，以及一組Google搜索查詢。

在這些測試中，有兩個明顯的發(fā)現(xiàn)。首先，除了少數(shù)邊緣情況外，語義熵方法比其他方法捕捉到更多的錯誤答案。其次，大多數(shù)LLM產(chǎn)生的錯誤似乎都是編造內(nèi)容。這可以從以下事實推斷得出：一些其他方法捕捉了各種類型的錯誤，但它們的表現(xiàn)不如語義熵測試，即使這些測試只捕捉編造內(nèi)容。

超越簡單事實

研究人員還展示了該系統(tǒng)可以適應處理超過基本事實陳述的情況，例如傳記，這是一大堆個人事實。因此，他們開發(fā)了一個軟件，將傳記信息分解成一系列個人事實陳述，并使用語義熵評估每個陳述。這在包含多達150個個人事實聲明的簡短傳記中也有效。

總體而言，這似乎是一個高度靈活的系統(tǒng)，不需要進行重大新開發(fā)就可以投入實踐，并且可以顯著改善LLM的性能。由于它只捕捉編造內(nèi)容而非其他類型的錯誤，因此可能可以與其他方法結合使用，以進一步提高性能。

正如研究人員所指出的那樣，這項工作還表明，在答案選項的統(tǒng)計數(shù)據(jù)中，LLM似乎擁有知道何時有正確答案所需的所有信息；只是這些信息沒有被充分利用。正如他們所說，“語義熵在檢測錯誤方面的成功表明，LLM在‘知道它們不知道什么’方面比之前認為的更強，只是它們不知道自己知道什么?！?/p>

本文譯自 Ars Technica，由 BALI 編輯發(fā)布。

（免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內(nèi)容或斷開相關鏈接。）

為您推薦

極客觀察

欄目相關

贊助商

極客網(wǎng)熱搜關鍵詞

人工智能 AI OpenAI ChatGPT 機器學習生成式AI AI芯片 AIGC U-Mail AI大模型世界人工智能大會 AIoT AirPods Airbnb Rushmail 人工智能AI Akamai AI人工智能昇騰AI 生成式人工智能 AIPC Air AI技術谷歌AI 蘋果AI xAI AI模型 GenAI AI手機百度AI 科大訊飛AI學習機 CAICT 微軟AI 阿爾法蛋AI詞典筆T10 華為AI AI+ 松鼠AI 昇騰AI創(chuàng)新大賽 AIS Airdoc WAIC 智譜AI AITO 京東AI 阿爾法蛋AI詞典筆 SoleusAir aigo AI服務器 SoleusAir舒樂氏 AI機器人 AI算力 2019世界人工智能大會 LIFAair 移動AI時代 AI應用人工智能大會 AI創(chuàng)企 AI眼鏡 AI醫(yī)療浙大AIF 人工智能技術 Zain Airtag AI人才人工智能芯片 AI投資 AI教育 AI搜索 AI基礎設施 AI時代騰訊AI 聯(lián)想AI AI算法 Gmail BrainCo AI框架 Airwallex空中云匯 Coremail VAIO 人工智能計算中心 AI編程 AI賦能 OPENAIGC開發(fā)者大賽阿里AI Chain 人工智能大賽人工智能機器人谷歌人工智能昇騰AI開發(fā)者創(chuàng)享日 Airwheel Mirai 人工智能名片 AI聊天機器人 AI音樂 BrainCo強腦科技浪潮KaiwuDB 通用人工智能英偉達AI芯片 AI計算 AI助手

上一篇

用語義熵在大模型中檢測幻覺

下一篇

英偉達股價經(jīng)歷三日連跌，市值縮水逾4300億美元

簡版
原版
投稿
回頂部

2024-06-25

如何判斷大模型是否在胡編

牛津大學的研究人員發(fā)現(xiàn)了一種簡單的方法，可以判斷大型語言模型何時在編造內(nèi)容。眾所周知，大型語言模型(LLM)在回答問題時有時會給出明顯錯誤的答案，而且這種錯誤的自信與它們正確回答時的自信無異。

長按掃碼閱讀全文