谷歌旗下AI開(kāi)發(fā)部門(mén)DeepMind的作品登上了最新一期的《Science》雜志的封面。AlphaZero在圍棋和日本將棋領(lǐng)域里超越了人類(lèi)之后,又從無(wú)到有地重新挖掘出了國(guó)際象棋的正確下法。研究人員公布了通用算法和測(cè)試數(shù)據(jù)。
2017年末,我們推出了AlphaZero,這是一個(gè)獨(dú)立的系統(tǒng),從頭開(kāi)始自行學(xué)習(xí)國(guó)際象棋、將棋(日本版的國(guó)際象棋)和圍棋,最終在每個(gè)領(lǐng)域內(nèi)擊敗世界冠軍程序。我們對(duì)初步結(jié)果感到非常興奮,并很高興看到國(guó)際象棋界的回應(yīng),他們?cè)贏lphaZero的棋譜中看到了一種突破性的、高度動(dòng)態(tài)的和“非傳統(tǒng)的”行棋風(fēng)格,與之前的任何國(guó)際象棋游戲引擎不同。
今天,我們非常開(kāi)心能夠向公眾發(fā)布AlphaZero的完整評(píng)估。報(bào)告發(fā)表在Science(開(kāi)放訪問(wèn)版本)雜志上。該期刊確認(rèn)了這些初步結(jié)果。它描述了AlphaZero如何快速學(xué)習(xí)每個(gè)游戲,成為歷史上最強(qiáng)大的玩家,從隨機(jī)游戲開(kāi)始自我訓(xùn)練,沒(méi)有內(nèi)置任何知識(shí),唯一需要預(yù)先輸入的就是游戲的基本規(guī)則。
國(guó)際象棋世界冠軍Garry Kasparov卡斯帕羅夫也在《科學(xué)》上撰文表示,“我無(wú)法掩飾自己的滿(mǎn)足感,它充滿(mǎn)了非常有活力的風(fēng)格,就像我一樣!”。他指出,這種從頭開(kāi)始每個(gè)游戲的能力,不受人類(lèi)游戲規(guī)范的約束,產(chǎn)生了獨(dú)特的、非正統(tǒng)的、但具有創(chuàng)造性和動(dòng)態(tài)的游戲風(fēng)格。AlphaZero的棋風(fēng)可能更接近本源?!八砸环N深刻而有用的方式超越了人類(lèi)?!?/p>
國(guó)際象棋大師Matthew Sadle和女性國(guó)際大師Natasha Regan已經(jīng)分析了AlphaZero數(shù)以千計(jì)的棋譜。Matthew指出,它的風(fēng)格不同于任何傳統(tǒng)的國(guó)際象棋引擎?!斑@就像在翻閱過(guò)去一些偉大棋手的秘籍?!?/p>
傳統(tǒng)的國(guó)際象棋引擎——包括世界計(jì)算機(jī)國(guó)際象棋冠軍Stockfish和IBM突破性的Deep Blue——依賴(lài)于數(shù)千個(gè)由強(qiáng)大的人類(lèi)玩家手工編制的規(guī)則和啟發(fā)式算法,試圖解讀游戲中的每一種可能性。 Shogi程序也是針對(duì)于特定游戲的,使用與國(guó)際象棋程序類(lèi)似的搜索引擎和算法。
AlphaZero采用了一種完全不同的方法,用深度神經(jīng)網(wǎng)絡(luò)和通用算法取代了這些手工制作的規(guī)則,這些算法對(duì)基本游戲規(guī)則之外的東西一無(wú)所知。
論文中舉例的決策樹(shù)
國(guó)際象棋:AlphaZero訓(xùn)練4小時(shí)就超越了世界冠軍程序Stockfish;
日本將棋:AlphaZero訓(xùn)練2小時(shí)就超越了世界冠軍程序Elmo;
圍棋:AlphaZero訓(xùn)練30小時(shí)就超越了傳奇性的AlphaGo。
為了掌握每一種游戲,未經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)通過(guò)被稱(chēng)為強(qiáng)化學(xué)習(xí)的試錯(cuò)過(guò)程自我對(duì)弈數(shù)百萬(wàn)盤(pán)。起初,它完全隨機(jī)落子,但隨著時(shí)間的推移,系統(tǒng)從每一盤(pán)的勝負(fù)得失中吸取經(jīng)驗(yàn),調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù),選擇出更加正確的一步。網(wǎng)絡(luò)需要的訓(xùn)練量取決于游戲的風(fēng)格和復(fù)雜程度,國(guó)際象棋大約需要9個(gè)小時(shí),將棋大約需要12個(gè)小時(shí),圍棋則用了13天。
AlphaZero能夠掌握三種不同的復(fù)雜游戲——或許應(yīng)該說(shuō)是,任何開(kāi)放信息的游戲——是走向最終實(shí)際應(yīng)用的重要一步。它表明單個(gè)算法可以?xún)H僅從最基本的規(guī)則中,發(fā)展出一整套超越人類(lèi)千年積累的知識(shí)體系。而且,盡管還處于早期階段,AlphaZero的創(chuàng)意見(jiàn)解加上我們?cè)贏lphaFold等其他項(xiàng)目中看到的令人鼓舞的結(jié)果,讓我們對(duì)完成創(chuàng)建通用學(xué)習(xí)系統(tǒng)的使命充滿(mǎn)信心。我們可以用它來(lái)解決最重要和最復(fù)雜的科學(xué)問(wèn)題。
本文譯自deepmind,由譯者 majer 基于創(chuàng)作共用協(xié)議(BY-NC)發(fā)布。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )