在金庸的小說(shuō)《射雕英雄傳》里,周伯通“左手畫(huà)圓,右手畫(huà)方”,左手攻擊右手,右手及時(shí)反搏,自?shī)首詷?lè),終無(wú)敵于天下。
現(xiàn)實(shí)世界中,亦有這么一個(gè)“幼童”,他沒(méi)見(jiàn)過(guò)一個(gè)棋譜,也沒(méi)有得到一個(gè)人指點(diǎn),從零開(kāi)始,自?shī)首詷?lè),自己參悟,用了僅僅40天,便稱(chēng)霸圍棋武林。
這個(gè)“幼童”,叫阿爾法元(AlphaGo Zero),就是今年5月在烏鎮(zhèn)圍棋峰會(huì)上打敗了人類(lèi)第一高手柯潔的阿爾法狗強(qiáng)化版AlphaGo Master的同門(mén)“師弟”。不過(guò),這個(gè)遍讀人類(lèi)幾乎所有棋譜、以3比0打敗人類(lèi)第一高手的師兄,在“師弟”阿爾法元從零自學(xué)第21天后,便被其擊敗。
10月19日,一手創(chuàng)造了AlphaGo神話(huà)的谷歌DeepMind團(tuán)隊(duì)在Nature雜志上發(fā)表重磅論文Mastering the game of Go without human knowledge,介紹了團(tuán)隊(duì)最新研究成果——阿爾法元的出世,引起業(yè)內(nèi)轟動(dòng)。
雖師出同門(mén),但是師兄弟的看家本領(lǐng)卻有本質(zhì)的差別。
“過(guò)去所有版本的AlphaGo都從利用人類(lèi)數(shù)據(jù)進(jìn)行培訓(xùn)開(kāi)始,它們被告知人類(lèi)高手在這個(gè)地方怎么下,在另一個(gè)地方又怎么下。” DeepMind阿爾法狗項(xiàng)目負(fù)責(zé)人David Silver博士在一段采訪中介紹,“而阿爾法元不使用任何人類(lèi)數(shù)據(jù),完全是自我學(xué)習(xí),從自我對(duì)弈中實(shí)踐。”
David Silver博士介紹,在他們所設(shè)計(jì)的算法中,阿爾法元的對(duì)手,或者叫陪練,總是被調(diào)成與其水平一致。“所以它是從最基礎(chǔ)的水平起步,從零開(kāi)始,從隨機(jī)招式開(kāi)始,但在學(xué)習(xí)過(guò)程中的每一步,它的對(duì)手都會(huì)正好被校準(zhǔn)為匹配器當(dāng)前水平,一開(kāi)始,這些對(duì)手都非常弱,但是之后漸漸變得越來(lái)越強(qiáng)大。”
這種學(xué)習(xí)方式正是當(dāng)今人工智能最熱門(mén)的研究領(lǐng)域之一——強(qiáng)化學(xué)習(xí)(Reinforcement learning)。
昆山杜克大學(xué)和美國(guó)杜克大學(xué)電子與計(jì)算機(jī)工程學(xué)教授李昕博士向澎湃新聞(www.thepaper.cn)介紹,DeepMind團(tuán)隊(duì)此次所利用的一種新的強(qiáng)化學(xué)習(xí)方式,是從一個(gè)對(duì)圍棋沒(méi)有任何知識(shí)的神經(jīng)網(wǎng)絡(luò)開(kāi)始,然后與一種強(qiáng)大的搜索算法相結(jié)合,“簡(jiǎn)單地解釋就是,它開(kāi)始不知道該怎么做,就去嘗試,嘗試之后,看到了結(jié)果,若是正面結(jié)果,就知道做對(duì)了,反之,就知道做錯(cuò)了,這就是它自我學(xué)習(xí)的方法。”
這一過(guò)程中,阿爾法元成為自己的“老師”,神經(jīng)網(wǎng)絡(luò)不斷被調(diào)整更新,以評(píng)估預(yù)測(cè)下一個(gè)落子位置以及輸贏,更新后的神經(jīng)網(wǎng)絡(luò)又與搜索算法重新組合,進(jìn)而創(chuàng)建一個(gè)新的、更強(qiáng)大的版本,然而再次重復(fù)這個(gè)過(guò)程,系統(tǒng)性能經(jīng)過(guò)每一次迭代得到提高,使得神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)越來(lái)越準(zhǔn)確,阿爾法元也越來(lái)越強(qiáng)大。
其中值得一提的是,以前版本的阿爾法狗通常使用預(yù)測(cè)下一步的“策略網(wǎng)絡(luò)(policy network)”和評(píng)估棋局輸贏的“價(jià)值網(wǎng)絡(luò)(value network)”兩個(gè)神經(jīng)網(wǎng)絡(luò)。而更為強(qiáng)大的阿爾法元只使用了一個(gè)神經(jīng)網(wǎng)絡(luò),也就是兩個(gè)網(wǎng)絡(luò)的整合版本。
這個(gè)意義上而言,“AlphaGo Zero”譯成“阿爾法元”,而不是字面上的“阿爾法零”,“內(nèi)涵更加豐富,代表了人類(lèi)認(rèn)知的起點(diǎn)——神經(jīng)元。”李昕教授說(shuō)。
上述研究更新了人們對(duì)于機(jī)器學(xué)習(xí)的認(rèn)知。“人們一般認(rèn)為,機(jī)器學(xué)習(xí)就是關(guān)于大數(shù)據(jù)和海量計(jì)算,但是通過(guò)阿爾法元,我們發(fā)現(xiàn),其實(shí)算法比所謂計(jì)算或數(shù)據(jù)可用性更重要。”DavidSilver博士說(shuō)。
李昕教授長(zhǎng)期專(zhuān)注于制造業(yè)大數(shù)據(jù)研究,他認(rèn)為,這個(gè)研究最有意義的一點(diǎn)在于,證明了人工智能在某些領(lǐng)域,也許可以擺脫對(duì)人類(lèi)經(jīng)驗(yàn)和輔助的依賴(lài)。“人工智能的一大難點(diǎn)就是,需要大量人力對(duì)數(shù)據(jù)樣本進(jìn)行標(biāo)注,而阿爾法元?jiǎng)t證明,人工智能可以通過(guò)‘無(wú)監(jiān)督數(shù)據(jù)(unsupervised data)’,也就是人類(lèi)未標(biāo)注的數(shù)據(jù),來(lái)解決問(wèn)題。”
有人暢想,類(lèi)似的深度強(qiáng)化學(xué)習(xí)算法,或許能更容易地被廣泛應(yīng)用到其他人類(lèi)缺乏了解或是缺乏大量標(biāo)注數(shù)據(jù)的領(lǐng)域。
不過(guò),究竟有多大實(shí)際意義,能應(yīng)用到哪些現(xiàn)實(shí)領(lǐng)域,李昕教授表示“還前途未卜”,“下圍棋本身是一個(gè)比較局限的應(yīng)用,人類(lèi)覺(jué)得下圍棋很復(fù)雜,但是對(duì)于機(jī)器來(lái)說(shuō)并不難。而且,下圍棋只是一種娛樂(lè)方式,不算作人們?cè)谏钪杏龅降膶?shí)際問(wèn)題。”
那么,谷歌的AI為什么會(huì)選擇圍棋?
據(jù)《第一財(cái)經(jīng)》報(bào)道,歷史上,電腦最早掌握的第一款經(jīng)典游戲是井字游戲,這是1952年一位博士在讀生的研究項(xiàng)目;隨后是1994年電腦程序Chinook成功挑戰(zhàn)西洋跳棋游戲;3年后,IBM深藍(lán)超級(jí)計(jì)算機(jī)在國(guó)際象棋比賽中戰(zhàn)勝世界冠軍加里?卡斯帕羅夫。
除了棋盤(pán)游戲外,IBM的Watson系統(tǒng)在2011年成功挑戰(zhàn)老牌智力競(jìng)賽節(jié)目Jeopardy游戲一戰(zhàn)成名;2014年,Google自己編寫(xiě)的算法,學(xué)會(huì)了僅需輸入初始像素信息就能玩幾十種Atari游戲。
但有一項(xiàng)游戲仍然是人類(lèi)代表著頂尖水平,那就是圍棋。
谷歌DeepMind創(chuàng)始人兼CEO Demis Hassabis博士曾在2016年AlphaGo對(duì)陣?yán)钍朗瘯r(shí)就做過(guò)說(shuō)明,有著3000多年歷史的圍棋是人類(lèi)有史以來(lái)發(fā)明出來(lái)的最復(fù)雜的游戲,對(duì)于人工智能來(lái)說(shuō),這是一次最尖端的大挑戰(zhàn),需要直覺(jué)和計(jì)算,要想熟練玩圍棋需要將模式識(shí)別和運(yùn)籌帷幄結(jié)合。
“圍棋的搜索空間是漫無(wú)邊際的——比圍棋棋盤(pán)要大1個(gè)古戈?duì)?數(shù)量級(jí)單位,10的100次方,甚至比宇宙中的原子數(shù)量還要多)。”因此,傳統(tǒng)的人工智能方法也就是“為所有可能的步數(shù)建立搜索樹(shù)”,在圍棋游戲中幾乎無(wú)法實(shí)現(xiàn)。
而打敗了人類(lèi)的AlphaGo系統(tǒng)的關(guān)鍵則是,將圍棋巨大無(wú)比的搜索空間壓縮到可控的范圍之內(nèi)。David Silver博士此前曾介紹,策略網(wǎng)絡(luò)的作用是預(yù)測(cè)下一步,并用來(lái)將搜索范圍縮小至最有可能的那些步驟。另一個(gè)神經(jīng)網(wǎng)絡(luò)“價(jià)值網(wǎng)絡(luò)(valuenetwork)”則是用來(lái)減少搜索樹(shù)的深度,每走一步估算一次游戲的贏家,而不是搜索所有結(jié)束棋局的途徑。
李昕教授對(duì)阿爾法元帶來(lái)的突破表示欣喜,但同時(shí)他也提到,“阿爾法元證明的只是在下圍棋這個(gè)游戲中,無(wú)監(jiān)督學(xué)習(xí)(unsupervised learning)比有監(jiān)督學(xué)習(xí)(supervised learning)‘更優(yōu)’,但并未證明這就是‘最優(yōu)’方法,也許兩者結(jié)合的semi-supervised learning,也就是在不同時(shí)間和階段,結(jié)合有監(jiān)督或無(wú)監(jiān)督學(xué)習(xí)各自的優(yōu)點(diǎn),可以得到更優(yōu)的結(jié)果。”
李昕教授說(shuō),人工智能的技術(shù)還遠(yuǎn)沒(méi)有達(dá)到人們所想象的程度,“比如,互聯(lián)網(wǎng)登錄時(shí)用的reCAPTCHA驗(yàn)證碼(圖像或者文字),就無(wú)法通過(guò)機(jī)器學(xué)習(xí)算法自動(dòng)識(shí)別”,他說(shuō),在某些方面,機(jī)器人確實(shí)比人做得更好,但目前并不能完全替換人。“只有當(dāng)科研證明,一項(xiàng)人工智能技術(shù)能夠解決一些實(shí)際問(wèn)題和人工痛點(diǎn)時(shí),才真正算作是一個(gè)重大突破。”
昆山杜克大學(xué)常務(wù)副校長(zhǎng)、中美科技政策和關(guān)系專(zhuān)家丹尼斯·西蒙(Denis Simon)博士在接受澎湃新聞采訪時(shí)表示,阿爾法元在圍棋領(lǐng)域的成功說(shuō)明它確實(shí)有極大的潛力。阿爾法元通過(guò)與自身對(duì)弈實(shí)現(xiàn)了自身能力的提升,每一次它都變得更聰明,每一次棋局也更有挑戰(zhàn)性。這種重復(fù)性的、充分參與的學(xué)習(xí)增強(qiáng)了阿爾法元處理更高層次的、戰(zhàn)略復(fù)雜問(wèn)題的能力。但缺點(diǎn)是這是一個(gè)封閉的系統(tǒng)。“阿爾法元如何能夠超過(guò)自身的局限獲得進(jìn)一步的成長(zhǎng)?換句話(huà)說(shuō),它能跳出框框思考嗎?”
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )