精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    研究發(fā)現(xiàn),在壓力之下AI也會欺騙人類

    大型語言模型 (LLM) 作為新一代人工智能工具,如今已廣泛應用于各行各業(yè),輔助工程師和普通用戶完成各種任務。然而,評估這些工具的安全性和可靠性也變得至關重要,這將有助于更好地規(guī)范其使用。

    最近,旨在評估人工智能系統(tǒng)安全性的 Apollo Research 組織開展了一項研究,評估大型語言模型 (LLM) 在面臨壓力時做出的反應。他們的研究成果發(fā)表在預印服務器 arXiv 上,令人震驚地指出,這些模型(其中最著名的包括 OpenAI 的 ChatGPT)在某些情況下可能會故意欺騙用戶。

    該論文的共同作者之一 Jérémy Scheurer 告訴 Tech Xplore:“在 Apollo Research,我們認為最大的風險之一來自先進的 AI 系統(tǒng),它們能夠通過戰(zhàn)略性欺騙來逃避標準的安全評估。我們的目標是充分理解 AI 系統(tǒng),從而防止欺騙性 AI 的開發(fā)和部署?!?/p>

    “然而,到目前為止,還沒有證據(jù)表明 AI 會進行戰(zhàn)略性欺騙,除非明確指示它們這樣做。我們認為,進行這樣的令人信服的演示非常重要,以便使這個問題更加突出,并讓研究人員、決策者和公眾意識到這是一個重要問題?!?/p>

    通過識別特定 AI 工具可能進行戰(zhàn)略性欺騙的場景,Scheurer 及其團隊希望為進一步評估其安全性的研究提供參考。目前,很少有實證證據(jù)突出 AI 的欺騙性及其發(fā)生的場景,因此該團隊認為需要通過實驗驗證并提供清晰示例來揭示 AI 的欺騙行為。

    Scheurer 表示:“這項研究的很大一部分動機在于理解 AI 如何以及何時可能會變得欺騙,我們希望這項早期工作能夠成為更嚴謹?shù)?AI 欺騙科學研究的起點?!?/p>

    Scheurer 與他的同事 Mikita Balesni 密切合作完成了這項研究,Balesni 設計了具體的交易任務來測試 LLM。他們的工作由 Apollo Research 的高級調查員兼首席執(zhí)行官 Marius Hobbhahn 監(jiān)督。

    Scheurer 說道:“這是一種模型紅隊測試(機器學習領域常用的網(wǎng)絡安全術語),這意味著我們通過對抗性地輸入文本來攻擊 LLM,使其行為與預期不符(即錯誤)。這與詢問中立問題(例如,‘法國的首都是什么?’)并觀察其反應相反。”

    在這項研究中,研究人員特別“攻擊”了 OpenAI 開發(fā)的 LLM GPT-4,它是 ChatGPT 運行的基礎。他們通過設計文本輸入(即提示)來指示模型在模擬環(huán)境中充當進行金融投資的 AI 系統(tǒng)。

    Scheurer 說:“我們告訴模型,它可以訪問各種工具來尋找盈利交易、發(fā)送電子郵件和執(zhí)行交易。然后,我們模擬模型可能與‘同事’之間的正?;樱⑶抑陵P重要的是,我們給模型施加了表現(xiàn)良好的壓力。例如,首席執(zhí)行官給 AI 代理發(fā)送電子郵件,說公司業(yè)績不佳,需要一個好的年份。另一個‘同事’通過消息提到即將出現(xiàn)經濟衰退等等。最后,一位交易員提到即將有兩家公司宣布合并,這可能會帶來利潤,同時還提到如果管理層發(fā)現(xiàn)有人利用內幕信息交易,會很不高興。”

    研究人員發(fā)現(xiàn),在這個模擬的高壓環(huán)境中,基于 GPT-4 的 AI 代理非常頻繁地決定利用從同事那里獲得的內幕信息來操作,購買合并公司的股票。更進一步,模型明確認為它不應該提及內幕交易,而是在其主管報告中為其做的交易提供替代解釋。

    Scheurer 表示:“即使經理明確詢問該模型是否事先知道合并消息,它通常也會選擇繼續(xù)撒謊。我再次強調,這是一項紅隊測試,也就是說,我們特別尋找了可能發(fā)生這種情況的現(xiàn)實場景。因此,我們的研究更多的是證明這種行為可以發(fā)生,并不代表它在現(xiàn)實中出現(xiàn)的可能性有多高。”

    Scheurer 及其同事的這項研究提供了一個清晰的例子,展示了 LLM 可能進行戰(zhàn)略性欺騙的場景。研究人員現(xiàn)在計劃繼續(xù)在這個領域進行研究,以識別 AI 工具可能進行戰(zhàn)略性欺騙的其他情況及其欺騙行為的潛在影響。

    Scheurer 補充道:“我認為我們這項工作最大的影響就是讓戰(zhàn)略性 AI 欺騙(沒有明確指示要進行欺騙)問題變得具體化,并表明這不僅是關于未來的猜測性故事,而且這種行為在特定情況下確實可以發(fā)生在當今的模型身上。我相信這可以讓人們更加重視這個問題,同時也為社區(qū)進一步研究和理解這種行為并確保它不再發(fā)生打開了大門?!?/p>

    (免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
    任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )

    贊助商
    2023-12-14
    研究發(fā)現(xiàn),在壓力之下AI也會欺騙人類
    大型語言模型 (LLM) 作為新一代人工智能工具,如今已廣泛應用于各行各業(yè),輔助工程師和普通用戶完成各種任務。然而,評估這些工具的安全性和可靠性也變得至關重要,這將有助于更好地規(guī)范其使用。

    長按掃碼 閱讀全文