AI歷史題準確率低至46%:GPT-4 Turbo何以應對高級難題?
人工智能(AI)在編碼等任務中表現(xiàn)出色,但一項最新研究發(fā)現(xiàn),AI在應對高級歷史考試時仍顯得力不從心。這項研究由奧地利復雜科學研究所(CSH)的團隊主導,旨在測試三大頂尖大型語言模型(LLMs)——OpenAI的GPT-4、Meta的Llama和谷歌的Gemini——在歷史問題上的表現(xiàn)。盡管這些大型語言模型在處理基本事實方面表現(xiàn)出色,但在面對更復雜、博士級別的歷史研究時,它們卻無法勝任。
研究結果于上月在知名AI會議NeurIPS上公布,結果顯示,即使是表現(xiàn)最佳的GPT-4 Turbo模型,其準確率也僅為46%,并不比隨機猜測高多少。這引發(fā)了我們對AI在歷史研究中的應用的深思。
首先,我們需要理解AI在處理歷史問題時的局限性。這些大型語言模型傾向于從非常突出的歷史數(shù)據(jù)中推斷,而難以檢索到更冷門的歷史知識。當涉及到技術性歷史問題時,例如古埃及某一特定時期是否存在鱗甲,它們可能會給出錯誤的答案,因為它們缺乏對那個時期的具體歷史背景的了解。
另一個例子是關于古埃及是否擁有職業(yè)常備軍的詢問。盡管OpenAI和Llama模型給出了錯誤的答案,但正確的答案確實是否定的。這可能是因為這些模型更多地學習了其他古代帝國擁有常備軍的公開信息,而忽視了古埃及的相關信息。這種情況可能反映了模型訓練數(shù)據(jù)的不完全或不準確,也可能是因為模型的設計并沒有考慮到特定歷史背景的影響。
然而,我們也應該看到AI在歷史研究中的潛力。研究人員正在通過納入更多來自代表性不足地區(qū)的數(shù)據(jù)和增加更復雜的問題來改進基準測試工具。這表明,隨著AI技術的發(fā)展,我們有望看到更多的歷史研究工作被自動化,這將大大提高研究效率。
盡管如此,我們仍需要認識到AI在歷史研究中的局限性。在某些領域,如撒哈拉以南非洲等地區(qū),這些模型的表現(xiàn)可能仍然較差,這可能是因為這些地區(qū)的訓練數(shù)據(jù)可能存在偏見。因此,我們需要更加謹慎地使用這些模型,并確保它們能夠反映所有歷史研究領域的復雜性。
總的來說,雖然我們的結果突顯了大型語言模型需要改進的領域,但它們也強調了這些模型在歷史研究中的潛力。隨著技術的進步和研究的深入,我們有望看到AI在歷史研究中的應用越來越廣泛,同時我們也應該注意到其局限性,并努力改進和完善這些模型,使其更好地服務于歷史研究工作。
在這個過程中,我們也需要保持審慎和客觀的態(tài)度。雖然AI在某些方面可能無法取代人類的歷史專家,但它們可以作為人類助手和工具,幫助我們更高效地處理歷史數(shù)據(jù)和信息。因此,我們應該積極探索AI在歷史研究中的應用,同時也要保持對它們的合理限制和監(jiān)管,以確保其應用符合倫理和道德標準。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )