精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

直播
榜單
7x24h快訊

極客網(wǎng) > 人工智能 >

語言模型能作為基于文本的世界模擬器嗎

人閱讀
2024-06-17 07:00:00
來源：煎蛋
作者：BALI
相關(guān)關(guān)鍵詞
- 人工智能
- AI

摘要
虛擬環(huán)境在復(fù)雜規(guī)劃和決策任務(wù)中至關(guān)重要，但手動構(gòu)建代價高昂且復(fù)雜。本文探討當(dāng)前語言模型能否作為世界模擬器，準確預(yù)測行動對不同世界狀態(tài)的改變，從而省去大量手動編碼。我們提出了一個名為ByteSized32-State-Prediction的新基準，包含文本游戲狀態(tài)轉(zhuǎn)換數(shù)據(jù)集及相關(guān)任務(wù)，用以量化語言模型作為文本世界模擬器的能力。測試結(jié)果顯示，盡管GPT-4表現(xiàn)優(yōu)異，但在沒有進一步創(chuàng)新的情況下，仍難以成為可靠的世界模擬器。本文不僅提供了對當(dāng)前語言模型能力和弱點的新見解，還提出了一個追蹤未來進展的新基準。

結(jié)果

預(yù)測由動作驅(qū)動的狀態(tài)轉(zhuǎn)換比環(huán)境驅(qū)動的狀態(tài)轉(zhuǎn)換更容易：

GPT-4能正確模擬77.1%的動態(tài)動作驅(qū)動的轉(zhuǎn)換，而對動態(tài)環(huán)境驅(qū)動的轉(zhuǎn)換則最多能正確模擬49.7%。這表明模擬底層環(huán)境動態(tài)可能是LLM-Sim任務(wù)中最具挑戰(zhàn)的部分。

預(yù)測靜態(tài)轉(zhuǎn)換比動態(tài)轉(zhuǎn)換更容易：

在大多數(shù)情況下，模擬靜態(tài)轉(zhuǎn)換比動態(tài)轉(zhuǎn)換容易得多。雖然LLM需要確定給定初始狀態(tài)和動作是否會導(dǎo)致狀態(tài)變化，但動態(tài)轉(zhuǎn)換還需利用上下文信息模擬與底層游戲引擎完全相同的動態(tài)。

預(yù)測完整游戲狀態(tài)對動態(tài)狀態(tài)更容易，而預(yù)測狀態(tài)差異對靜態(tài)狀態(tài)更容易：

對動態(tài)狀態(tài)的狀態(tài)差異預(yù)測顯著提高了模擬靜態(tài)轉(zhuǎn)換的性能(>10%)，但在模擬動態(tài)轉(zhuǎn)換時則會降低性能。這可能是因為狀態(tài)差異預(yù)測旨在減少潛在的格式錯誤。然而，GPT-4在大多數(shù)情況下能夠正確輸出響應(yīng)格式，而引入狀態(tài)差異增加了任務(wù)輸出格式的復(fù)雜性。

游戲規(guī)則重要，LLMs能夠生成足夠好的游戲規(guī)則：

在上下文信息中沒有提供游戲規(guī)則時，GPT-4在所有三種模擬任務(wù)中的表現(xiàn)都會下降。然而，我們未發(fā)現(xiàn)人類專家生成的游戲規(guī)則與LLMs生成的游戲規(guī)則之間有明顯的性能差異。

GPT-4能夠在大多數(shù)情況下預(yù)測游戲進展：

在上下文信息中有游戲規(guī)則時，GPT-4能在92.1%的測試用例中正確預(yù)測游戲進展。這表明規(guī)則的存在至關(guān)重要：沒有它們，GPT-4的預(yù)測準確率降至61.5%。

人類在LLM-Sim任務(wù)上的表現(xiàn)優(yōu)于GPT-4：

我們對LLM-Sim任務(wù)進行了初步的人類研究。在GPT-4表現(xiàn)最差的5個ByteSized32-SP數(shù)據(jù)集游戲中，每個游戲隨機抽取20個游戲以平衡動態(tài)和靜態(tài)轉(zhuǎn)換的比例。4位作者作為人類注釋者使用人類生成的規(guī)則進行完整游戲狀態(tài)預(yù)測，結(jié)果顯示人類準確率為80%，而GPT-4的準確率為50%。這表明盡管該任務(wù)對人類來說相對簡單，但LLMs仍有很大改進空間。

需要算術(shù)、常識或科學(xué)知識時，GPT-4更容易出錯：

大多數(shù)錯誤發(fā)生在模擬動態(tài)轉(zhuǎn)換時，我們進一步分析了GPT-4在這一設(shè)置下的錯誤模式。結(jié)果顯示，GPT-4能處理大多數(shù)簡單的布爾值屬性，但在需要算術(shù)(如溫度)、常識(如光圈)或科學(xué)知識(如焦點)時錯誤較多。當(dāng)同時預(yù)測動作驅(qū)動和環(huán)境驅(qū)動的轉(zhuǎn)換時，GPT-4更傾向于動作驅(qū)動的轉(zhuǎn)換，導(dǎo)致在僅模擬環(huán)境驅(qū)動的轉(zhuǎn)換時，未更改的值錯誤更多。

結(jié)論
我們提出了ByteSized32-State-Prediction基準，用于測試LLMs作為模擬器的能力。我們在這一任務(wù)上評估了GPT-4，結(jié)果表明，在涉及非平凡變化的狀態(tài)轉(zhuǎn)換中，最佳表現(xiàn)為59.9%。模擬錯誤會在多個步驟中累積，因此單步準確率有限的模擬器在實際應(yīng)用中的效用有限。我們的結(jié)果表明，LLMs尚不能可靠地充當(dāng)文本世界模擬器。進一步的錯誤分析顯示，雖然LLMs在模擬用戶操作結(jié)果方面更好，但處理環(huán)境驅(qū)動的轉(zhuǎn)換以及需要算術(shù)、常識或科學(xué)知識的轉(zhuǎn)換仍然困難。

限制與倫理問題

限制
我們只考慮了GPT-3.5和GPT-4兩種強大的上下文學(xué)習(xí)語言模型，盡管它們在多種基準測試中表現(xiàn)優(yōu)異，但我們未全面評估所有大型語言模型，其他模型可能表現(xiàn)更好。我們提出這一基準用于評估現(xiàn)有和未來模型在準確模擬狀態(tài)空間轉(zhuǎn)換任務(wù)上的表現(xiàn)。

我們提出了兩種狀態(tài)空間表示形式，一種包括完整狀態(tài)空間，另一種關(guān)注狀態(tài)差異，均使用JSON對象表示。這些表示形式基于其流行性和與大多數(shù)LLM預(yù)訓(xùn)練數(shù)據(jù)輸入輸出格式的兼容性，盡管其他表示格式在模擬任務(wù)上可能表現(xiàn)更好。

最終，我們的狀態(tài)空間集中在常識和早期(小學(xué))科學(xué)推理領(lǐng)域，如打開容器或激活設(shè)備。雖然本文涉及了一些較不常見的動作和屬性，但未討論LLMs在高度專業(yè)領(lǐng)域(如物理或醫(yī)學(xué)模擬)中的應(yīng)用。我們希望這一工作能推動語言模型在高影響力領(lǐng)域中的應(yīng)用，并視其為開發(fā)更強大語言模型模擬器的基石。

倫理問題
我們不預(yù)見我們的工作會立即產(chǎn)生倫理或社會影響。然而，作為LLM應(yīng)用，所提出的LLM-Sim任務(wù)可能會受到所選LLM引入的錯誤信息和幻覺的影響。我們的工作強調(diào)了使用LLMs作為基于文本的世界模擬器的問題。在下游任務(wù)(如游戲模擬)中，LLMs可能生成誤導(dǎo)或不真實的信息。例如，如果模擬器建議用燒房子的方式來燒水，我們的工作并未阻止此類情況，也未評估此類潛在危險建議的倫理影響。因此，我們認為這些應(yīng)用不適合也不安全在與人類，特別是兒童，直接互動的環(huán)境中使用。我們呼吁研究人員和從業(yè)者在使用我們提出的任務(wù)和數(shù)據(jù)集時保持謹慎。

本文譯自 arxiv.org，由 BALI 編輯發(fā)布。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

為您推薦

極客觀察

欄目相關(guān)

贊助商

極客網(wǎng)熱搜關(guān)鍵詞

人工智能 AI OpenAI 機器學(xué)習(xí) ChatGPT 生成式AI AI芯片 AIGC U-Mail AI大模型世界人工智能大會 AIoT AirPods Airbnb Rushmail 人工智能AI AI人工智能 Akamai 昇騰AI 生成式人工智能 AIPC Air AI技術(shù) 谷歌AI 蘋果AI GenAI 科大訊飛AI學(xué)習(xí)機百度AI CAICT 阿爾法蛋AI詞典筆T10 AI手機華為AI 松鼠AI 微軟AI AI+ AIS Airdoc WAIC 昇騰AI創(chuàng)新大賽 AITO 阿爾法蛋AI詞典筆京東AI 智譜AI AI模型 SoleusAir aigo SoleusAir舒樂氏 2019世界人工智能大會 LIFAair AI機器人移動AI時代 AI創(chuàng)企人工智能大會浙大AIF AI算力 AI醫(yī)療人工智能技術(shù) AI應(yīng)用 Zain xAI 人工智能芯片 AI人才 Airtag AI時代 AI服務(wù)器騰訊AI AI算法 BrainCo AI投資 AI框架 Gmail 人工智能計算中心聯(lián)想AI VAIO Airwallex空中云匯 AI教育 Chain 人工智能大賽 Coremail AI賦能谷歌人工智能 OPENAIGC開發(fā)者大賽人工智能名片 Airwheel 昇騰AI開發(fā)者創(chuàng)享日 AI搜索 AI眼鏡 Mirai 人工智能機器人 AI音樂阿里AI AI聊天機器人 BrainCo強腦科技阿爾法蛋AI詞典筆T20 AI計算英偉達AI芯片浪潮KaiwuDB AI助手 AIOps 人工智能+

上一篇

GPT-4通過圖靈測試 GPT-3.5也已達到通過標準

下一篇

新算法通過觀看視頻發(fā)現(xiàn)語言

簡版
原版
投稿
回頂部

2024-06-17

語言模型能作為基于文本的世界模擬器嗎

摘要虛擬環(huán)境在復(fù)雜規(guī)劃和決策任務(wù)中至關(guān)重要，但手動構(gòu)建代價高昂且復(fù)雜。本文探討當(dāng)前語言模型能否作為世界模擬器，準確預(yù)測行動對不同世界狀態(tài)的改變，從而省去大量手動編碼。

長按掃碼閱讀全文