當(dāng)初谷歌DeepMind的阿爾法狗橫空出世,使人類領(lǐng)教到了現(xiàn)代AI的恐怖潛力。從那時(shí)起,每隔幾個(gè)月DeepMind就會(huì)推出一篇重磅論文,從阿爾法狗到阿爾法零,進(jìn)步之速令觀者咋舌。
或許正是因?yàn)镈eepMind的AI技術(shù)階段性突破頻繁,逐漸令大眾產(chǎn)生了審美疲勞。幾天前,谷歌又搞出了一個(gè)MuZero,而關(guān)心者人數(shù)就已不及當(dāng)初。
癥結(jié)或許在這里:在棋藝上,阿爾法狗已經(jīng)完虐人類了,之后阿爾法零又完虐了狗,以后肯定又會(huì)出現(xiàn)新的AI完爆阿爾法零……如此以往,沒啥新意啊。此外,超越人類是一個(gè)坎,至于之后又勝過人類上萬倍還是百萬倍,都難以對(duì)公眾形成刺激。
好吧,說了這么多,MuZero到底有啥特殊之處呢,值得單獨(dú)拿出來說一說?
簡(jiǎn)單梳理一下。
最開始的阿爾法狗向人類學(xué)習(xí)圍棋,最終超越了人類。我們或許可以將它看做是人類圍棋的頂峰。
隨后,阿爾法零在僅僅知道規(guī)則的情況下,自己演化圍棋棋理,最終超越了狗。它是第一位真正意義上的AI圍棋大師,所取得的成就與人類圍棋的歷史毫無關(guān)系。
到MuZero,它壓根不知道什么圍棋!就是在棋盤上胡亂擺放棋子,工程師在幾個(gè)節(jié)點(diǎn)稍微誘導(dǎo)一下,使它產(chǎn)生偏向性。最終,MuZero發(fā)明了圍棋!
除了發(fā)明圍棋外,它還以更快的速度發(fā)展出更加高明的棋理。它是AI世界中的圍棋創(chuàng)造者。
直觀上,MuZero具有內(nèi)部驅(qū)動(dòng)力——精確設(shè)計(jì)游戲規(guī)則的動(dòng)力。
正如DeepMind研究人員所解釋的那樣,強(qiáng)化學(xué)習(xí)的一種形式——模型是MuZero和AlphaZero的核心技術(shù),其中的獎(jiǎng)勵(lì)系統(tǒng)將AI帶向目標(biāo)。
通常,基于模型的強(qiáng)化學(xué)習(xí)側(cè)重于直接在像素級(jí)別對(duì)觀察流進(jìn)行建模,但是這種粒度級(jí)別在大規(guī)模的情景計(jì)算中非常昂貴。從根本上說,MuZero會(huì)接收觀察結(jié)果(即Go木板或Atari屏幕的圖像)并將其轉(zhuǎn)換為隱藏狀態(tài)。 該隱藏狀態(tài)通過接收先前狀態(tài)和假定的下一個(gè)動(dòng)作的過程進(jìn)行迭代更新,并且在每個(gè)步驟中,模型都會(huì)給出對(duì)策(例如,下棋),價(jià)值函數(shù)(例如,預(yù)期的獲勝者)和獎(jiǎng)勵(lì)(例如,通過打法得分)。
MuZero與阿爾法零對(duì)弈,前者的搜索步數(shù)更少卻更加精妙,因?yàn)樗鼘?duì)圍棋的理解更深。它不僅比阿爾法零更強(qiáng)大,而且在架構(gòu)上更簡(jiǎn)單,更高效。
DeepMind認(rèn)為,現(xiàn)實(shí)生活中的許多問題(如股票,軍事行動(dòng))都沒有明確的規(guī)則,或者規(guī)則隨時(shí)變動(dòng)。所以,需要未來的決策AI自行摸索。這就是他們的研發(fā)方向。
本文譯自 venturebeat,由譯者 majer 基于創(chuàng)作共用協(xié)議(BY-NC)發(fā)布。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )