上海AI實(shí)驗(yàn)室:強(qiáng)化學(xué)習(xí)引領(lǐng)數(shù)學(xué)推理新突破
在人工智能領(lǐng)域,強(qiáng)化學(xué)習(xí)作為一種機(jī)器學(xué)習(xí)技術(shù),近年來(lái)取得了顯著的進(jìn)展。尤其是在深度學(xué)習(xí)模型如 Transformer、BERT 等的加持下,強(qiáng)化學(xué)習(xí)在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等任務(wù)中展現(xiàn)出了強(qiáng)大的潛力。近日,上海AI實(shí)驗(yàn)室的一項(xiàng)研究成功打破了數(shù)學(xué)推理的極限,他們通過(guò)強(qiáng)化學(xué)習(xí),無(wú)需蒸餾超大模型如 DeepSeek-R1,便超越了 DeepSeek-R1-Distill-Qwen32B 和 OpenAI-O1 系列。這一突破性的成果引起了業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。
一、強(qiáng)化學(xué)習(xí)的新范式
上海AI實(shí)驗(yàn)室提出了基于結(jié)果獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)新范式。他們從 Qwen2.5-32B-Base 模型出發(fā),通過(guò)微調(diào)和基于結(jié)果反饋的強(qiáng)化學(xué)習(xí),實(shí)現(xiàn)了對(duì) DeepSeek-R1-Distill-Qwen32B 和 OpenAI-O1 系列的超強(qiáng)數(shù)學(xué)推理性能的超越。這一成果展示了強(qiáng)化學(xué)習(xí)在處理復(fù)雜任務(wù)上的優(yōu)勢(shì),尤其是對(duì)于需要深度思考和推理的任務(wù)。
二、破解數(shù)學(xué)推理的“三重門(mén)”
團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)前大模型數(shù)學(xué)推理任務(wù)面臨“三重門(mén)”困局:稀疏獎(jiǎng)勵(lì)困境、局部正確陷阱和規(guī)模依賴魔咒。傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法在處理這些復(fù)雜任務(wù)時(shí),往往難以應(yīng)對(duì)稀疏獎(jiǎng)勵(lì)和局部正確難題。然而,上海AI實(shí)驗(yàn)室的研究團(tuán)隊(duì)通過(guò)重新審視當(dāng)前基于結(jié)果獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)算法,成功地解決了這些問(wèn)題。
他們通過(guò)理論創(chuàng)新和嚴(yán)格的推導(dǎo),提出了一種新的結(jié)果獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)算法。該算法能夠根據(jù)正負(fù)樣本重塑獎(jiǎng)勵(lì),以維護(hù)策略優(yōu)化目標(biāo)的一致性。同時(shí),他們還發(fā)現(xiàn)不同的序列部分對(duì)結(jié)果的貢獻(xiàn)不同,因此需要更細(xì)粒度的獎(jiǎng)勵(lì)分配函數(shù)。這一發(fā)現(xiàn)為強(qiáng)化學(xué)習(xí)在數(shù)學(xué)推理任務(wù)中的應(yīng)用提供了新的思路和方法。
三、強(qiáng)化學(xué)習(xí)的突破與超越
通過(guò)強(qiáng)化學(xué)習(xí),上海AI實(shí)驗(yàn)室成功地超越了 DeepSeek-R1,實(shí)現(xiàn)了驚人的效果。他們發(fā)現(xiàn),通過(guò)對(duì)正確樣本模仿學(xué)習(xí),錯(cuò)誤樣本偏好學(xué)習(xí),關(guān)鍵步驟重點(diǎn)學(xué)習(xí),無(wú)需依賴超大規(guī)模的模型,僅通過(guò)強(qiáng)化學(xué)習(xí)即可達(dá)到驚人的效果。這一成果不僅為基于 RL 的方法樹(shù)立了新的里程碑,還超越了更大參數(shù)量的模型,包括 QWQ-32B-Preview 和 OpenAI-O1-Mini。這一突破性的進(jìn)展為強(qiáng)化學(xué)習(xí)在自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用開(kāi)辟了新的道路。
四、結(jié)語(yǔ)
上海AI實(shí)驗(yàn)室的這項(xiàng)研究展示了強(qiáng)化學(xué)習(xí)在數(shù)學(xué)推理任務(wù)中的巨大潛力。他們的成果不僅為學(xué)術(shù)界提供了新的研究思路和方法,也為業(yè)界提供了新的技術(shù)手段和工具。未來(lái),我們期待看到更多的研究者們利用強(qiáng)化學(xué)習(xí)來(lái)探索更多的應(yīng)用領(lǐng)域,推動(dòng)人工智能技術(shù)的進(jìn)一步發(fā)展。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )