精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

直播
榜單
7x24h快訊

極客網(wǎng) > 人工智能 >

AlphaGo對(duì)局李世石兩周年紀(jì)：AI算法的秘密

人閱讀
2018-03-21 14:33:00
來源：科技行者
相關(guān)關(guān)鍵詞
- 人工智能
- AI

這篇文章的主角是AlphaGo，谷歌DeepMind團(tuán)隊(duì)開發(fā)出的圍棋AI。其憑借著2016年擊敗全球頂尖棋手李世石的壯舉而廣受矚目。圍棋是一種古老的棋類游戲，每一步都存在諸多選擇，因此接下來的落子位置很參議會(huì)預(yù)測(cè)——要求對(duì)弈棋手擁有強(qiáng)大的直覺與抽象思維能力。正因?yàn)槿绱?，人們長(zhǎng)久以來一直認(rèn)為只有人類擅長(zhǎng)下圍棋。大多數(shù)研究人員甚至認(rèn)定，還需要數(shù)十年才會(huì)出現(xiàn)真正具備這種思考能力的AI。但如今距離AlphaGo對(duì)李世石的比賽已經(jīng)過去了兩年（3月8日至3月15日），而本篇文章正是為了紀(jì)念這個(gè)偉大的日子！

不過更可怕的是，AlphaGo并沒有停止自己的前進(jìn)腳步。8個(gè)月之后，它在某圍棋網(wǎng)站上以“Master”為名與全球各地的冠軍棋手進(jìn)行了60盤職業(yè)對(duì)弈，且拿下全勝成績(jī)。

這當(dāng)然是人工智能領(lǐng)域的一項(xiàng)巨大成就，并在全球引起了一股新的討論熱潮——我們到底該對(duì)人工智能的發(fā)展速度感到興奮，還是擔(dān)心？

今天，我們將以DeepMind在《自然》雜志上發(fā)表的原始研究論文作為基礎(chǔ)，逐段對(duì)其內(nèi)容進(jìn)行簡(jiǎn)單清晰的解讀，詳細(xì)介紹AlphaGo是什么以及它的工作原理。我也希望大家能夠在閱讀本文之后，不再被媒體頭條拋出的聳人聽聞的標(biāo)題所恐嚇，而真正對(duì)關(guān)于人工智能的發(fā)展感到振奮。

當(dāng)然，你不需要掌握圍棋技巧，也同樣可以理解本文的觀點(diǎn)。事實(shí)上，我本人只讀過網(wǎng)絡(luò)百科上的一丁點(diǎn)圍棋說明。相反，我其實(shí)會(huì)使用基礎(chǔ)的國際象棋示例來解釋相關(guān)算法。大家只需要了解雙人棋類游戲的基本規(guī)則即可——每位選手輪流行動(dòng)，最后將產(chǎn)生一位贏家。除此之外，你不需要了解任何物理學(xué)或高數(shù)知識(shí)。

這樣盡可能降低入門門檻，是為了能讓剛剛接觸機(jī)器學(xué)習(xí)或者神經(jīng)網(wǎng)絡(luò)的朋友更容易接受。本文也刻意降低了表述復(fù)雜度，也是希望大家能把注意力盡量集中在內(nèi)容本身。

眾所周知，AlphaGo項(xiàng)目的目標(biāo)在于建立一款AI程序，并保證其能夠與世界頂級(jí)人類選手在圍棋領(lǐng)域一較高下。

為了理解圍棋帶來的挑戰(zhàn)，我們首先聊聊與之類似的另一種棋類運(yùn)動(dòng)——國際象棋。早在上世紀(jì)九十年代初，IBM公司出打造出深藍(lán)計(jì)算機(jī)，其在國際象棋比賽中擊敗了偉大的世界冠軍加里·卡斯帕羅夫。那么，深藍(lán)是如何做到這一點(diǎn)的？

事實(shí)上，深藍(lán)使用了一種非常“暴力”的作法。在游戲的每一步，深藍(lán)都會(huì)對(duì)所有可能作出的合理棋步作出考量，并沿著每種棋步探索以分析未來的局勢(shì)變化。在這樣的前瞻性分析之下，計(jì)算結(jié)果很快形成一種千變?nèi)f化的巨大決策樹。在此之后，深藍(lán)會(huì)沿著樹狀結(jié)構(gòu)返回原點(diǎn)，觀察哪些棋步最可能帶來積極的結(jié)果。然而，何謂“積極的結(jié)果”？事實(shí)上，眾多優(yōu)秀的國際象棋棋手為深藍(lán)精心設(shè)計(jì)出了國際象棋策略，旨在幫助其作出更好的決策——舉例來說，是決定保護(hù)國王，還是在盤面的其它位置獲得優(yōu)勢(shì)？他們針對(duì)此類目的構(gòu)建起特定的“評(píng)估算法”，從而比較不同盤面位置的優(yōu)勢(shì)或劣勢(shì)權(quán)重（IBM公司將專家們的象棋策略以硬編碼形式引入該評(píng)估函數(shù)）。最終，深藍(lán)會(huì)據(jù)此選擇出經(jīng)過精心計(jì)算的棋步。在接下來的回合中，整個(gè)過程再次重復(fù)。

這意味著，深藍(lán)在每一步之前都會(huì)考量數(shù)百萬個(gè)理論位置。因此，深藍(lán)最令人印象深刻的表現(xiàn)并不在于人工智能軟件層面，而體現(xiàn)在其硬件之上——IBM公司宣稱，深藍(lán)是當(dāng)時(shí)市場(chǎng)上最為強(qiáng)大的計(jì)算機(jī)之一。其每秒能夠計(jì)算2億個(gè)盤面位置。

現(xiàn)在讓我們回到圍棋方面。圍棋顯然更為開放，因此如果在這里重復(fù)深藍(lán)的戰(zhàn)略，將根本無法獲得理想效果。由于每個(gè)棋步都擁有過多可選擇的位置，因此計(jì)算機(jī)根本無法涵蓋這么多潛在的可能性。舉例來說，在國際象棋的開局當(dāng)中，只有20種可能的下法；但在圍棋方面，先手選手將擁有361個(gè)可能的落子點(diǎn)——而且這種選擇范圍在整個(gè)對(duì)弈過程中一直非常廣泛。

這就是所謂“巨大搜索空間”。而且在圍棋當(dāng)中，判斷某個(gè)特定盤面位置的有利或不利權(quán)重并沒那么容易——在官子階段，雙方甚至還需要再排布一陣才能最終確定誰才是勝利者。但有沒有一種神奇的方法能夠讓計(jì)算機(jī)在圍棋領(lǐng)域有所建樹？答案是肯定的，深度學(xué)習(xí)能夠完成這項(xiàng)艱巨的任務(wù)！

因此在本次研究當(dāng)中，DeepMind方面利用神經(jīng)網(wǎng)絡(luò)來完成以下兩項(xiàng)任務(wù)。他們訓(xùn)練了一套“策略神經(jīng)網(wǎng)絡(luò)（policy neural network）”以決定哪些才是特定盤面位置當(dāng)中最為明智的選項(xiàng)（這類似于遵循某種直觀策略選擇移動(dòng)位置）。此外，他們還訓(xùn)練了一套“估值神經(jīng)網(wǎng)絡(luò)（value neural network）”以估算特定盤面布局對(duì)選手的有利程度（或者說，下在這個(gè)位置對(duì)贏得游戲這一目標(biāo)的實(shí)際影響）。他們首先使用人類棋譜對(duì)這些神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練（也就是最傳統(tǒng)但也非常有效的監(jiān)督式學(xué)習(xí)方法）。經(jīng)歷了這樣的訓(xùn)練，我們的人工智能已經(jīng)可以在一定程度上模仿人類的下棋方式——這時(shí)的它，就像一位菜鳥級(jí)人類選手。而后，為了進(jìn)一步訓(xùn)練神經(jīng)網(wǎng)絡(luò)，DeepMind方面讓AI與自己進(jìn)行數(shù)百萬次對(duì)弈（也就是“強(qiáng)化學(xué)習(xí)”的部分）。如此一來，憑借著更為充分的練習(xí)，AI的棋力得到了極大提升。

憑借這兩套網(wǎng)絡(luò)，DeepMind的人工智能方案就足以擁有等同于此前最先進(jìn)的圍棋程序的棋藝水平。二者的區(qū)別在于，原有程序使用了此前更為流行的預(yù)置游戲算法，即“蒙特卡洛樹搜索（Monte Carlo Tree Search，簡(jiǎn)稱MCTS）”，我們將在稍后具體進(jìn)行介紹。

不過很明顯，到這里我們還沒有談到真正的核心。DeepMind的人工智能方案絕不僅僅依賴于策略與估值網(wǎng)絡(luò)——其并非利用這兩套網(wǎng)絡(luò)來替代蒙特卡洛樹搜索；相反，其使用神經(jīng)網(wǎng)絡(luò)以進(jìn)一步提升MCTS算法的成效。實(shí)際結(jié)果也確實(shí)令人滿意——MCTS的表現(xiàn)達(dá)到了超人的高度。這種經(jīng)過改進(jìn)的MCTS變種正是“AlphaGo”，其成功擊敗了李世石，并成為人工智能發(fā)展歷史上最大的突破之一。

下面讓我們回想一下本文的第一段內(nèi)容。上述提到，深藍(lán)計(jì)算機(jī)是如何在國際象棋的每一步當(dāng)中構(gòu)建起包含數(shù)以百萬計(jì)盤面位置與棋步的決策樹——計(jì)算機(jī)需要進(jìn)行模擬、觀察并比較每一種可能的落點(diǎn)——這是一種簡(jiǎn)單且非常直接的方法，如果一般的軟件工程師必須要設(shè)計(jì)出一種棋類程序，那么他們很可能會(huì)選擇類似的解決方案。

但讓我們想想，人類是怎樣下棋的？假設(shè)目前您身處比賽中的特定階段。根據(jù)游戲規(guī)則，你可以作出十幾種不同的選擇——在此處移動(dòng)棋子或者在那里移動(dòng)皇后等等。然而，你真的會(huì)在腦袋里列出所有能走的棋步，并從這份長(zhǎng)長(zhǎng)的清單中作出選擇嗎？不不，你會(huì)“直觀地”將可行范圍縮小至少數(shù)幾種關(guān)鍵性棋步（這里假定您提出了3種明智的棋步），而后思考如果選擇其中某一種，那么棋盤上的局勢(shì)將發(fā)生怎樣的轉(zhuǎn)變。對(duì)于其中每一種棋步，你可能需要15到20秒的時(shí)間進(jìn)行考量——但請(qǐng)注意，在這15秒內(nèi)，我們并不是在非常精確地推衍接下來的交鋒與變化。事實(shí)上，人類往往會(huì)在未經(jīng)太多思考的情況下“拋出”一些由直覺引導(dǎo)的選擇結(jié)果（當(dāng)然，優(yōu)秀的選手會(huì)比普通選手想得更遠(yuǎn)更深）。之所以這樣做，是因?yàn)槟愕臅r(shí)間有限，而且無法準(zhǔn)確預(yù)測(cè)你的對(duì)手會(huì)勾勒出怎樣的后續(xù)應(yīng)對(duì)策略。因此，你只能讓直覺引導(dǎo)自己。我將這一部分思考過程稱為“鋪展”，請(qǐng)大家在后文中注意這一點(diǎn)。

在完成了對(duì)幾種明智棋步的“鋪展”之后，你最終決定放棄這種令人頭痛的思考，直接下出你認(rèn)為最科學(xué)的一步。

在此之后，對(duì)手也會(huì)作出對(duì)應(yīng)的回應(yīng)。這一步可能早在你的預(yù)料當(dāng)中，這意味著你對(duì)于下一步要做的事情更具信心——換言之，不必耗費(fèi)太多時(shí)間進(jìn)行后續(xù)“鋪展”?；蛘?，也可能你的對(duì)手下出了一手妙招，導(dǎo)致你被迫回防并不得不更謹(jǐn)慎地思考下一步選擇。

游戲就這樣持續(xù)進(jìn)行，而隨著局勢(shì)的推進(jìn)，你將能夠更輕松地預(yù)測(cè)每步棋的結(jié)果，鋪展耗時(shí)也將相應(yīng)縮短。

之所以說了這么多，是希望以較為淺顯的方式為大家講述MCTS算法的作用——它通過反復(fù)構(gòu)建棋步與位置“搜索樹”以模擬上述思考過程。但其創(chuàng)新之處在于，MCTS算法不會(huì)在每個(gè)位置（與深藍(lán)有所不同）都進(jìn)行潛在棋步推衍；相反，其會(huì)更智能地選擇一小組合理棋步并加以探索。在探索過程中，它會(huì)“鋪展”這些棋步引發(fā)的局勢(shì)變化，并根據(jù)計(jì)算出的結(jié)果對(duì)其加以比較。

（好了，只要理解了以上內(nèi)容，本文的閱讀就算基本達(dá)標(biāo)。）

現(xiàn)在，讓我們回到論文本身。圍棋是一種“完美信息游戲”。也就是說，從理論層面講，無論您身處這類游戲的哪個(gè)階段（即使剛剛走出一、兩步），大家都有可能準(zhǔn)確猜出最終誰輸誰贏（假定兩位選手都會(huì)以‘完美’的方式下完整盤）。我不知道是誰提出了這項(xiàng)基本理論，但作為本次研究項(xiàng)目的前提性假設(shè)，其確實(shí)非常重要。

換句話來說，在游戲狀態(tài)下，我們將可通過一條函數(shù)v＊（s）來預(yù)測(cè)最終結(jié)果——例如你贏得這盤對(duì)弈的概率，區(qū)間為0到1。DeepMind的研究人員將其稱為“最優(yōu)估值函數(shù)”。由于某些盤面位置比其它盤面位置更有可能帶來獲勝結(jié)果，因此前者可能比其它位置擁有“更高估值”。讓我再強(qiáng)調(diào)一次，估值＝贏得比賽的0到1間概率值。

但先別急——假設(shè)一位名叫Foma的女孩坐在您的身邊，在每下一步棋時(shí)，她都會(huì)告訴您這次決定會(huì)導(dǎo)致您勝利還是失敗?！澳阙A了……你辦理了……不，還是辦理了……”我認(rèn)為這樣的提示對(duì)您的棋步選擇并沒有多大幫助，而且非常煩人。相反，真正能夠幫得上忙的其實(shí)應(yīng)該是勾勒出所有可能的棋步樹，以及這些棋步將會(huì)引發(fā)的狀態(tài)——而后，F(xiàn)oma會(huì)告訴你在整個(gè)樹狀結(jié)構(gòu)中，哪些狀態(tài)會(huì)將你推向勝利，而哪些會(huì)招致失敗。突然之間，F(xiàn)oma就成了您的完美伙伴——而非討厭的插嘴者。在這里，F(xiàn)oma將作為您的最優(yōu)估值函數(shù)v＊（s）。此前，人們一直認(rèn)為像圍棋這樣的游戲，不可能擁有Foma這樣的準(zhǔn)確估值函數(shù)——因?yàn)槠渲写嬖谥嗖淮_定性。

然而，即使您真的擁有了Foma，她對(duì)所有可能盤面位置的估算在現(xiàn)實(shí)對(duì)弈當(dāng)中恐怕也無法奏效。因?yàn)樵趪H象棋或圍棋這樣的游戲當(dāng)中，正如之前所提到，即使是想要預(yù)測(cè)七到八步之后的整體局勢(shì)，過多的可能性選擇也會(huì)令Foma需要耗費(fèi)大量時(shí)間才能得出分析結(jié)果。

也就是說，單憑Foma還遠(yuǎn)遠(yuǎn)不夠。大家還需要進(jìn)一步縮小明智棋步的具體范圍，并據(jù)此推衍接下來的局勢(shì)走向。那么我們的程序該如何做到這一點(diǎn)？Lusha在這里閃亮登場(chǎng)。Lusha是一位擁有相當(dāng)技巧的國際象棋選手加熱心人，她曾花費(fèi)數(shù)十年時(shí)間觀看國際象棋大師賽。她可以觀看你的盤面位置，快速思考您所能做出的全部合理選擇，并告訴你專業(yè)選手作出各種判斷的可能性。因此，如果您在某一特定時(shí)間點(diǎn)上擁有50種可能的棋步選項(xiàng)，Lusha會(huì)告訴你職業(yè)棋手選擇每種選項(xiàng)的具體概率。當(dāng)然，其中一些明智的棋步會(huì)擁有更高的概率，而其它無意義的棋步則概率極低。她就是你的策略函數(shù)，p（as）。對(duì)于給定狀態(tài)s，她能夠?yàn)槟峁I(yè)選手可能作出的全部選擇的對(duì)應(yīng)概率。

接下來，你可以在Lusha的幫助下尋找更為合理的棋步選項(xiàng)，而Foma則會(huì)告訴我們這些棋步對(duì)對(duì)弈結(jié)果的實(shí)際影響。在這種情況下，大家可以選擇由Foma與Lusha協(xié)商給出落子建議，或者也可以先由Lusha提供建議，再由Foma對(duì)結(jié)果作出評(píng)估。接下來，挑選其中一些選項(xiàng)進(jìn)行后續(xù)影響分析，再由Foma與Lusha繼續(xù)進(jìn)行預(yù)測(cè)指導(dǎo)——通過這種方式，我們將能夠更為高效地掌握盤面局勢(shì)走向。而這，正是所謂“減少搜索空間”的實(shí)際意義所在。利用估值函數(shù)（Foma）預(yù)測(cè)結(jié)果，利用策略函數(shù)（Lusha）提供棋藝層面的概率取舍以縮小值得進(jìn)一步探索的落子范圍。這套體系就是所謂“蒙特卡洛鋪展（Monte Carlo rollouts）”。接下來，當(dāng)重新回到當(dāng)前棋步時(shí)，你將能夠得到各種選項(xiàng)所對(duì)應(yīng)的平均估值結(jié)論，并據(jù)此找到最適合的落子位置。不過到這里，其在圍棋水平方面仍然表現(xiàn)不佳——因?yàn)檫@兩種函數(shù)的實(shí)際指導(dǎo)能力還比較孱弱。

不過沒關(guān)系。

首先進(jìn)行具體解釋。在MCTS當(dāng)中，起步階段的Foma與Lusha的功能還不夠精熟。但對(duì)弈數(shù)量越多，二者在預(yù)測(cè)可靠結(jié)果與落子位置方面就越強(qiáng)大。論文指出，“縮小高可能性棋步的具體范圍”其實(shí)是種較為復(fù)雜的表達(dá)，“Lusha實(shí)際上是通過提供專業(yè)棋手的落子概率幫助縮小需要考量的選項(xiàng)。以往的工作主要利用這種技術(shù)在策略函數(shù)較為簡(jiǎn)單的情況下，提供強(qiáng)大且成熟的AI選手解決方案。

是的，卷積神經(jīng)網(wǎng)絡(luò)非常適合圖像處理類任務(wù)。而且由于神經(jīng)網(wǎng)絡(luò)需要特定輸入內(nèi)容并給出對(duì)應(yīng)的輸出結(jié)果，所以其在本質(zhì)上其實(shí)也相當(dāng)于一條函數(shù)。這意味著大家可以利用神經(jīng)網(wǎng)絡(luò)來充當(dāng)一種高度復(fù)雜的函數(shù)。從這個(gè)思路出發(fā)，大家可以將其傳遞一份盤面位置圖像，并由神經(jīng)網(wǎng)絡(luò)自行判斷當(dāng)前局勢(shì)。如此一來，創(chuàng)建出的神經(jīng)網(wǎng)絡(luò)將擁有非常準(zhǔn)確的策略與估值能力。

下面，我們將討論Foma與Luha的具體訓(xùn)練方式。為了訓(xùn)練策略網(wǎng)絡(luò)（負(fù)責(zé)預(yù)測(cè)專業(yè)棋手的落子位置判斷），我們只需要將人類對(duì)弈棋譜作為素材，并利用其進(jìn)行傳統(tǒng)的監(jiān)督式學(xué)習(xí)即可。

另外，我們還希望能夠構(gòu)建起一套略有不同的策略網(wǎng)絡(luò)版本；其應(yīng)該更小巧且速度更快?？梢韵胂?，如果Lusha的經(jīng)驗(yàn)非常豐富，那么其用于處理每個(gè)位置的時(shí)間也將相應(yīng)延長(zhǎng)。在這種情況下，雖然她能夠更好地縮小合理落子范圍，但由于整個(gè)過程會(huì)不斷重復(fù)，因此耗費(fèi)時(shí)間可能會(huì)過長(zhǎng)。所以，我們需要為這項(xiàng)工作訓(xùn)練出一套速度更快的策略網(wǎng)絡(luò)（我們將其稱為……Lusha的弟弟，Jerry？姑且就這么稱呼吧）。接下來，一旦利用人類選手的數(shù)據(jù)訓(xùn)練出滿足需求的策略網(wǎng)絡(luò)，我們就可以讓Lusha在圍棋棋盤上進(jìn)行自我對(duì)抗以獲得更多練習(xí)機(jī)會(huì)。這正是強(qiáng)化學(xué)習(xí)的體現(xiàn)——構(gòu)建起更強(qiáng)大的策略網(wǎng)絡(luò)版本。

此后，我們需要訓(xùn)練Foma進(jìn)行估值：確定獲勝的概率。人工智能將在模擬環(huán)境當(dāng)中反復(fù)進(jìn)行自我練習(xí)，每一次觀察其最終綶，并從錯(cuò)誤當(dāng)中學(xué)習(xí)到更好、更先進(jìn)的經(jīng)驗(yàn)。

受到篇幅所限，這里我就不具體介紹網(wǎng)絡(luò)的訓(xùn)練方式了。您可以在本文末尾提供的論文鏈接中（參閱‘方法’部分）了解更多細(xì)節(jié)信息。事實(shí)上，這篇論文的主要目的并非說明研究人員如何在這些神經(jīng)網(wǎng)絡(luò)之上進(jìn)行強(qiáng)化學(xué)習(xí)。DeepMind在之前發(fā)表的一篇文章中，已經(jīng)談到過他們?nèi)绾卫脧?qiáng)化學(xué)習(xí)技術(shù)教會(huì)AI掌握雅達(dá)利游戲。因此在本文當(dāng)中，我只在內(nèi)容摘要部分稍微提到一點(diǎn)相關(guān)內(nèi)容。這里再次強(qiáng)調(diào)，AlphaGo的最大創(chuàng)新在于DeepMind研究人員們利用強(qiáng)化學(xué)習(xí)加神經(jīng)網(wǎng)絡(luò)來改進(jìn)已經(jīng)廣泛流行的游戲算法MCTS。強(qiáng)化學(xué)習(xí)確實(shí)是一種很酷的工具，研究人員們?cè)诔Ｒ?guī)監(jiān)督式訓(xùn)練之后利用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)策略與估值函數(shù)神經(jīng)網(wǎng)絡(luò)的微調(diào)。但是，這篇研究論文的主要作用在于證明這款工具的功能多樣性與優(yōu)秀性，而非教導(dǎo)大家如何實(shí)際使用。

好了，現(xiàn)在大家對(duì)AlphaGo應(yīng)該已經(jīng)建立起比較完整的印象。下面，我們會(huì)進(jìn)一步深入探討之前提到的各個(gè)議題。當(dāng)然，其中不可避免要涉及一些看似“危險(xiǎn)”的數(shù)學(xué)公式及表達(dá)式，但相信我，它們都很簡(jiǎn)單（我會(huì)作出詳盡解釋）。因此，請(qǐng)放松心態(tài)。

所以，第一步就是訓(xùn)練我們的策略神經(jīng)網(wǎng)絡(luò)（Lusha），其負(fù)責(zé)預(yù)測(cè)專業(yè)棋手可能作出的判斷。神經(jīng)網(wǎng)絡(luò)的目標(biāo)是讓人工智能發(fā)揮類似于人類專家的作用。這套卷積神經(jīng)網(wǎng)絡(luò)（正如之前提到，這種特殊的神經(jīng)網(wǎng)絡(luò)非常擅長(zhǎng)圖像處理）采用電路板式布局以簡(jiǎn)化圖像內(nèi)容。我們可以向該網(wǎng)絡(luò)架構(gòu)的各個(gè)層中添加“整流器非線性”，其將賦予整體網(wǎng)絡(luò)學(xué)習(xí)更復(fù)雜技能的能力。如果大家以前曾經(jīng)訓(xùn)練過神經(jīng)網(wǎng)絡(luò)，可能對(duì)“ReLU”層不會(huì)感到陌生。這里我們同樣使用ReLU層。

這里的訓(xùn)練數(shù)據(jù)以隨機(jī)盤面位置對(duì)的形式存在，而標(biāo)簽則為人類所作出的落子選擇。這部分訓(xùn)練采用常規(guī)的監(jiān)督式學(xué)習(xí)。

在這里，DeepMind使用了“隨機(jī)梯度ASCENT”。這是一種反向傳播算法。通過這種方式，我們希望最大程度發(fā)揮獎(jiǎng)勵(lì)函數(shù)的作用。獎(jiǎng)勵(lì)函數(shù)代表的是人類專家作出不同行動(dòng)預(yù)測(cè)的概率；我們的目標(biāo)則是盡可能提升這一概率。但是，在實(shí)際網(wǎng)絡(luò)訓(xùn)練當(dāng)中，我們一般只需要讓丟失函數(shù)盡可能降低即可——這在實(shí)質(zhì)上是縮小預(yù)測(cè)結(jié)果與實(shí)際標(biāo)簽之間的誤差／差異，也就是所謂梯度下降。在研究論文的實(shí)際實(shí)現(xiàn)部分，他們確實(shí)使用了常規(guī)的梯度下降方法。大家可以輕松找到與獎(jiǎng)勵(lì)函數(shù)相對(duì)的丟失函數(shù)，并通過盡可能降低后者最大程度提升前者。

這套策略網(wǎng)絡(luò)擁有13層，我們將其稱為“SL策略（SL policy）”網(wǎng)絡(luò)（SL代表監(jiān)督式學(xué)習(xí)）。其使用的數(shù)據(jù)來自某個(gè)高人氣網(wǎng)站，有數(shù)百萬用戶在這里進(jìn)行圍棋對(duì)弈。那么，SL策略網(wǎng)絡(luò)的實(shí)際表現(xiàn)如何？

首先，其圍棋水平要高于其他研究人員的早期開發(fā)成果。至于“鋪展策略”方面，大家可能還記得之前我們?cè)岬?，研究人員們訓(xùn)練出一套速度更快的Lusha版本——我們稱其為Jerry。在這里，Jerry負(fù)責(zé)發(fā)揮作用。如大家所看到，Jerry的準(zhǔn)確度只有Lusha的一半，但速度卻快了數(shù)千倍！當(dāng)我們應(yīng)用MCTS算法時(shí)，Jerry將幫助我們更快地完成對(duì)后續(xù)局勢(shì)變化的模擬。

要理解下一節(jié)的內(nèi)容，大家可以不了解強(qiáng)化學(xué)習(xí)，但需要認(rèn)同一項(xiàng)前提——即我所作出的闡述真實(shí)有效。如果您希望探究更多細(xì)節(jié)并加以嘗試，可能需要首先閱讀一些關(guān)于強(qiáng)化學(xué)習(xí)的背景信息。

一旦擁有了這套SL網(wǎng)絡(luò)，接下來要做的就是利用人類選手的判斷數(shù)據(jù)以監(jiān)督式方式對(duì)其進(jìn)行訓(xùn)練。在此之后，就是由其自我對(duì)弈以不斷磨練判斷能力。具體實(shí)現(xiàn)方法也很簡(jiǎn)單——選擇SL策略網(wǎng)絡(luò)，將其保存在一個(gè)文件中，而后再復(fù)制一份副本。

然后，你可以利用強(qiáng)化學(xué)習(xí)對(duì)其進(jìn)行微調(diào)。如此一來，這套網(wǎng)絡(luò)就能夠自我對(duì)抗并從結(jié)果中學(xué)習(xí)經(jīng)驗(yàn)。

不過這樣的訓(xùn)練方式其實(shí)存在一個(gè)問題。

如果其只在練習(xí)中對(duì)抗同一個(gè)對(duì)手，且該對(duì)手也一直貫穿訓(xùn)練始終，那么可能無法獲得新的學(xué)習(xí)經(jīng)驗(yàn)。換言之，該網(wǎng)絡(luò)所學(xué)到的只是如何擊敗對(duì)方，而非真正掌握圍棋的奧秘。沒錯(cuò)，這就是過度擬合問題：你在對(duì)抗某一特定對(duì)手時(shí)表現(xiàn)出色，但卻未必?fù)碛袑?duì)付各類選手的能力。那么，我們?cè)撊绾谓鉀Q這個(gè)問題？

答案很簡(jiǎn)單，當(dāng)我們對(duì)一套神經(jīng)網(wǎng)絡(luò)進(jìn)行微調(diào)時(shí)，其就會(huì)變成另一個(gè)風(fēng)格上略有不同的選手。如此一來，我們可以將各個(gè)版本的神經(jīng)網(wǎng)絡(luò)保存在一份“選手”列表當(dāng)中，并確保每位選手的表現(xiàn)都有所區(qū)別。很好，在接下來的神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中，我們可以從列表中隨機(jī)選擇不同的版本作為對(duì)抗對(duì)象。它們雖然源自同一套神經(jīng)網(wǎng)絡(luò)，但表現(xiàn)卻略有區(qū)別。而且訓(xùn)練得越多，選手的版本也就越多。問題就此解決！

在這樣的訓(xùn)練過程中，惟一指導(dǎo)訓(xùn)練過程的只有最終目標(biāo) ——即贏得比賽。到這里，我們已經(jīng)不再需要對(duì)網(wǎng)絡(luò)進(jìn)行針對(duì)性訓(xùn)練，例如捕捉盤面上的更多位置等。我們只需要為其提供所有可能的合理選項(xiàng)，并下面目標(biāo)“你必須獲勝”。也正因?yàn)槿绱?，?qiáng)化學(xué)習(xí)才如此強(qiáng)大——其能夠被用于訓(xùn)練任何游戲策略或估值網(wǎng)絡(luò)，而絕不僅限于圍棋。

到這里，DeepMind的研究人員們測(cè)試了這套R(shí)L策略網(wǎng)絡(luò)的準(zhǔn)確性——不使用任何MCTS算法。之前我們?cè)?jīng)提到，這套網(wǎng)絡(luò)能夠直接獲取盤面位置并思考專業(yè)棋手的判斷概率。到這里，它已經(jīng)能夠獨(dú)立進(jìn)行對(duì)弈了。結(jié)果是，強(qiáng)化學(xué)習(xí)微調(diào)后的網(wǎng)絡(luò)戰(zhàn)勝了僅利用人類棋譜進(jìn)行訓(xùn)練的監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)。不僅如此，它還能夠戰(zhàn)勝其它強(qiáng)大的圍棋程序。

必須強(qiáng)調(diào)的是，即使是在訓(xùn)練這套強(qiáng)化學(xué)習(xí)策略網(wǎng)絡(luò)之前，監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)也已經(jīng)擁有了超越現(xiàn)有技術(shù)的對(duì)弈水平——而如今我們又更進(jìn)一步！更重要的是，我們甚至不需要使用估值網(wǎng)絡(luò)這類其它輔助方案。

到這里，我們終于完成了對(duì)Lusha的訓(xùn)練。接下來重新回到Foma這邊，它代表的是最優(yōu)估值函數(shù)v＊（s）——即只有兩位選手皆完美執(zhí)行其預(yù)期內(nèi)的落子判斷時(shí)，她才能提供在目前盤面局勢(shì)下獲得優(yōu)勝的可能性。很明顯，為了訓(xùn)練神經(jīng)網(wǎng)絡(luò)充當(dāng)我們的估值函數(shù)，這里需要一位完美的對(duì)手……遺憾的是，目前我們還沒有這樣一位對(duì)手。因此，我們派出了最強(qiáng)大的選手——RL策略網(wǎng)絡(luò)。

其會(huì)提取當(dāng)前盤面狀態(tài)state＿s，而后輸出您贏得本場(chǎng)對(duì)弈的概率。每一項(xiàng)游戲狀態(tài)都將充當(dāng)數(shù)據(jù)樣本，并以標(biāo)簽的形式用于注釋游戲結(jié)果。因此，在經(jīng)過 50次落子之后，我們就獲得了50份估值預(yù)測(cè)樣本。

但這種作法實(shí)際上非常幼稚——畢竟我們不可能也不應(yīng)該將對(duì)弈中的全部50次落子全部添加到數(shù)據(jù)集當(dāng)中。

換言之，我們必須認(rèn)真選擇訓(xùn)練數(shù)據(jù)集以避免過度擬合的發(fā)生。由于每次落子都會(huì)與一個(gè)新位置對(duì)應(yīng)，因此圍棋中的每一次落子都非常相似。如果將所有落子選擇的狀態(tài)都添加到具有相同標(biāo)簽的訓(xùn)練數(shù)據(jù)當(dāng)中，那么其內(nèi)容將存在大量“重復(fù)”，并必然導(dǎo)致過度擬合。為了防止這種情況的發(fā)生，我們只能選擇那些更具代表性的游戲狀態(tài)。舉例來說，我們可以只選擇對(duì)弈過程中的五個(gè)狀態(tài)——而非全部50個(gè)狀態(tài)——添加到訓(xùn)練數(shù)據(jù)集內(nèi)。DeepMind從3000萬盤不同對(duì)弈過程中提取了3000萬種狀態(tài)，從而減少重復(fù)數(shù)據(jù)的出現(xiàn)可能性。事實(shí)證明，這種作法效果極佳！

現(xiàn)在，我們談?wù)劯拍睿?我們可以通過兩種方法評(píng)估盤面位置的價(jià)值。第一是選擇最佳估值函數(shù)（即之前訓(xùn)練完成的函數(shù)）。另一種則是使用現(xiàn)有策略（Lusha）直接推導(dǎo)盤面局勢(shì)，并預(yù)測(cè)本次落子帶來的最終結(jié)果。很明顯，真正的對(duì)弈很少會(huì)完全按照我們的計(jì)劃推進(jìn)。但DeepMind仍然比較了這兩種方法的實(shí)際效果。此外，大家也可以將這兩種選項(xiàng)混合使用。稍后，我們將了解這一“混合參數(shù)”，請(qǐng)各位記住這個(gè)重要概念。

在這里，我們的一套神經(jīng)網(wǎng)絡(luò)會(huì)嘗試給出最近似的最優(yōu)估值函數(shù)，其效果甚至優(yōu)于經(jīng)過數(shù)千次模擬而得出的鋪展策略！Foma在這里的表現(xiàn)真的超贊。在另一方面，DeepMind方面也嘗試使用了準(zhǔn)確度翻倍但速度極慢的Lusha RL策略，其需要進(jìn)行成千上萬次模擬以得出結(jié)論——最終效果略好于Foma。但也只是略好，而速度卻慢了太多。因此，F(xiàn)oma在這場(chǎng)比拼中勝出，她證明自己擁有著不可替代的價(jià)值。

現(xiàn)在，我們已經(jīng)完成了策略與估值函數(shù)的訓(xùn)練，接下來可以將其與MCTS結(jié)合起來，從而帶來我們的前任世界冠軍、大師中的大量、一個(gè)世代的突破、體重268磅的……Alphaaaa GO！

在本節(jié)中，大家應(yīng)該對(duì)MCTS算法的工作原理擁有更為深入的理解。請(qǐng)別擔(dān)心，迄今為止提到的全部?jī)?nèi)容應(yīng)該足以支持您順利掌握相關(guān)內(nèi)容。惟一需要注意的是我們?nèi)绾问褂貌呗愿怕逝c估值方法。我們?cè)阡佌惯^程中將二者結(jié)合在一起，從而縮小每次落子時(shí)需要探索的具體范圍。Q（s，a）表示估值函數(shù)，u（s，a）則代表該位置的已保存概率。下面我將具體作出解釋。

另外需要注意的是，策略網(wǎng)絡(luò)是使用監(jiān)督學(xué)習(xí)來預(yù)測(cè)專業(yè)棋手落子判斷的。其不僅能夠提供概率最高的落子選項(xiàng)，同時(shí)也會(huì)提供各個(gè)選項(xiàng)的具體概率。這一概率可被存儲(chǔ)在各個(gè)落子判斷當(dāng)中。在這里，DeepMind方面將其稱為“先驗(yàn)概率”，并利用其選擇有必要進(jìn)行探索的落子選項(xiàng)。基本上，要決定是否需要對(duì)某一特定落子選項(xiàng)進(jìn)行探索，我們需要考慮以下兩點(diǎn)：首先，通過這步棋，我們有多大概率獲勝？是的，我們已經(jīng)擁有了能夠回答這個(gè)問題的“估值網(wǎng)絡(luò)”。第二個(gè)問題是，專業(yè)棋手有多大概率會(huì)考慮這一棋步？（如果專業(yè)棋手不太可能考慮這步棋，那么我們?yōu)槭裁匆速M(fèi)時(shí)間進(jìn)行探索？這部分結(jié)論由策略網(wǎng)絡(luò)負(fù)責(zé)提供。）

接下來，讓我們聊聊“混合參數(shù)”。如前文所述，為了評(píng)估各個(gè)盤面位置，我們有兩種選擇：其一，直接利用一直用于評(píng)估盤面狀態(tài)的估值網(wǎng)絡(luò)。第二，我們也可以使用現(xiàn)有策略網(wǎng)絡(luò)快速推導(dǎo)對(duì)弈情況（假定對(duì)方選手也采取符合預(yù)測(cè)的下法），從而判斷我們是輸還是贏。一般來講，估值函數(shù)的效果要比常規(guī)鋪展更好。在這里，將二者結(jié)合將能夠提供每項(xiàng)預(yù)測(cè)的權(quán)重估值，例如五五開、四六開等等。如果大家以百分比形式對(duì)估值X進(jìn)行處理，則另一項(xiàng)就是（100－X）％。這就是混合參數(shù)的意義所在。后文中將對(duì)其實(shí)際效果進(jìn)行說明。

在每一次鋪展之后，大家都可以利用在模擬當(dāng)中獲得的任何信息對(duì)搜索樹進(jìn)行更新，從而進(jìn)一步提升未來模擬的明智度。在所有模擬結(jié)束之后，您從中選擇最佳落子選項(xiàng)即可。

下面來看有趣的結(jié)論！

大家應(yīng)該還記得，RL微調(diào)策略神經(jīng)網(wǎng)絡(luò)擁有比SL人力訓(xùn)練策略神經(jīng)網(wǎng)絡(luò)更好的判斷效果。但在將其添加至AlphaGo的MCTS算法中時(shí)，使用人工訓(xùn)練的神經(jīng)網(wǎng)絡(luò)反過來超越了微調(diào)神經(jīng)網(wǎng)絡(luò)。與此同時(shí)，在估值函數(shù)（可以理解成以無限趨近方式提供完美判斷）方面，利用RL策略進(jìn)行Foma訓(xùn)練能夠帶來超越使用SL策略的實(shí)際效果。

“執(zhí)行上述評(píng)估需要耗費(fèi)大量計(jì)算資源，我們必須拿出壓箱底的硬貨才能搞定這些該死的程序?！?/p>

但DeepMind的言下之意其實(shí)是……

“吼吼，跟我們的程序相比，以前的那些圍棋程序簡(jiǎn)直就是唐氏兒童級(jí)別?！?/p>

這里再說回“混合參數(shù)（mixing parameter）”。在評(píng)估位置時(shí)，對(duì)估值函數(shù)及鋪展二者的重視程度要高于其中任意一者。其余部分是DeepMind方面的深入解釋，可以看到其中昭示了一項(xiàng)有趣的結(jié)論！

請(qǐng)?jiān)僮x一次標(biāo)有紅色下劃線的句子。相信大家已經(jīng)能夠理解，這句話基本就是對(duì)整個(gè)研究項(xiàng)目的全面總結(jié)。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

為您推薦

極客觀察

欄目相關(guān)

贊助商

極客網(wǎng)熱搜關(guān)鍵詞

人工智能 AI OpenAI ChatGPT 機(jī)器學(xué)習(xí) 生成式AI AI芯片 AIGC U-Mail AI大模型世界人工智能大會(huì) AIoT AirPods Airbnb Rushmail 人工智能AI AI人工智能 Akamai 昇騰AI 生成式人工智能 AIPC Air AI技術(shù) 谷歌AI 蘋果AI GenAI 科大訊飛AI學(xué)習(xí)機(jī) 百度AI CAICT AI手機(jī) 阿爾法蛋AI詞典筆T10 華為AI 松鼠AI AI+ 昇騰AI創(chuàng)新大賽微軟AI AIS Airdoc WAIC AITO 阿爾法蛋AI詞典筆京東AI AI模型智譜AI xAI SoleusAir aigo SoleusAir舒樂氏 LIFAair 2019世界人工智能大會(huì) AI機(jī)器人人工智能大會(huì) AI創(chuàng)企移動(dòng)AI時(shí)代浙大AIF 人工智能技術(shù) AI應(yīng)用 Zain AI醫(yī)療 AI算力 AI人才人工智能芯片 Airtag AI時(shí)代騰訊AI AI服務(wù)器 AI算法 AI投資 BrainCo AI框架 Gmail AI眼鏡聯(lián)想AI VAIO 人工智能計(jì)算中心 Airwallex空中云匯人工智能大賽 Chain AI教育 Coremail AI搜索 OPENAIGC開發(fā)者大賽 AI賦能谷歌人工智能人工智能名片 Airwheel Mirai 昇騰AI開發(fā)者創(chuàng)享日人工智能機(jī)器人 AI聊天機(jī)器人阿里AI AI音樂 BrainCo強(qiáng)腦科技 AI計(jì)算人工智能+ 浪潮KaiwuDB 阿爾法蛋AI詞典筆T20 英偉達(dá)AI芯片 AI助手 AIOps

上一篇

Instagram:大數(shù)據(jù)與人工智能讓社交軟件更智能

下一篇

AI芯片千億市場(chǎng)待爆發(fā) 狂歡的背后落地少！

簡(jiǎn)版
原版
投稿
回頂部

2018-03-21

AlphaGo對(duì)局李世石兩周年紀(jì)：AI算法的秘密

這篇文章的主角是AlphaGo，谷歌DeepMind團(tuán)隊(duì)開發(fā)出的圍棋AI。其憑借著2016年擊敗全球頂尖棋手李世石的壯舉而廣受矚目。

長(zhǎng)按掃碼閱讀全文