標題:DeepSeek/o3研究警告:頻繁跳轉或錯過正確答案,簡單才是王道
DeepSeek和o3一類推理大模型在持續(xù)帶來震撼的同時,也引發(fā)了新的研究興趣。近期,一項新研究揭示了這些模型的弱點——在遇到高難度問題時,它們可能會頻繁切換解題思路,這可能會讓它們錯過正確答案。這種現(xiàn)象被研究者稱為“欠思考”(Underthinking)。
DeepSeek和o3等模型在解決復雜問題時表現(xiàn)出色,但它們也有其局限性。特別是在遇到高難度問題時,它們可能會頻繁切換思路,這可能會導致它們在解決問題時效率低下,甚至錯過正確答案。為了解決這個問題,研究人員開發(fā)了一套評估框架,用于判斷被放棄的推理路徑是否實際上足以推導出正確答案。
這項研究以DeepSeek-R1和Qwen QwQ系列模型為研究對象,通過分析AI的錯誤答案,發(fā)現(xiàn)當前的推理大模型經(jīng)常在思考早期就走上了正確的路線,但傾向于“淺嘗輒止”,很快開始探索別的思路,導致后續(xù)生成的數(shù)千個tokens對解題毫無貢獻。這種現(xiàn)象不僅浪費計算資源,還顯著降低了答案的正確率。
值得注意的是,這種頻繁的思路切換并不是一種有效的解決問題的方式。在解決數(shù)學競賽題等更為復雜任務時尤為明顯。為了系統(tǒng)分析這個問題,研究人員在具有挑戰(zhàn)性的測試集MATH500、GPQA Diamond和AIME2024上對類o1模型QwQ-32B-Preview、DeepSeek-R1-671B等進行了實驗。結果顯示,平均來看,錯誤答案中的token使用量和思維切換次數(shù)比正確答案多。
為了解決這個問題,研究人員提出了一種思路切換懲罰機制(TIP)。TIP通過調整參數(shù)(懲罰強度α和持續(xù)時間β),抑制模型過早的切換傾向,迫使模型在當前路徑上探索更久。實驗結果顯示,加入TIP后,模型的準確率上升,同時UT Score下降,說明既減少了無效切換,又提高了答案質量。
盡管DeepSeek和o3一類推理大模型在解決復雜問題時表現(xiàn)出色,但頻繁的思路切換可能會成為它們的弱點。解決這個問題的方法并非完全重新訓練模型,而是通過調整解碼策略,如引入TIP機制,來改善模型的推理過程。這種方法實用價值高,展現(xiàn)了無痛升級的效果。
值得注意的是,DeepSeek和o3一類推理大模型在解決復雜問題時的表現(xiàn)令人印象深刻。然而,我們不能忽視它們在面對高難度問題時的局限性。頻繁的思路切換可能會讓它們錯過正確答案。因此,我們需要深入研究這個問題,尋找更好的解決方案。簡單才是王道,過于復雜的問題可能會讓模型失去方向。
總的來說,DeepSeek和o3一類推理大模型在持續(xù)帶來震撼的同時,也引發(fā)了新的研究興趣。通過深入研究和探索它們的弱點,我們可以更好地了解它們的性能,并找到更好的解決方案來提高它們的準確性。這項研究為我們提供了新的視角和思路,有助于我們更好地利用這些強大的模型來解決現(xiàn)實世界中的問題。
(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )