精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<rt id="2e02s"><acronym id="2e02s"></acronym></rt>

<samp id="2e02s"></samp>

直播
榜單
7x24h快訊

極客網(wǎng) > 人工智能 >

人工智能(61)–AlphaGo淺析(1)

人閱讀
2018-06-20 09:32:00
相關(guān)關(guān)鍵詞
- 人工智能
- AI

AlphaGo（阿爾法狗）戰(zhàn)勝了柯潔，人工智能贏了，贏家仍然是人類！

之前介紹過深度強(qiáng)化學(xué)習(xí)DRL，其中一個(gè)最最經(jīng)典的應(yīng)用就是谷歌DeepMind團(tuán)隊(duì)研發(fā)的圍棋程序AlphaGo（阿爾法狗）。AlphaGo的勝利將深度強(qiáng)化學(xué)習(xí)推上新的熱點(diǎn)和高度，成為AI人工智能歷史上一個(gè)新的里程碑。

有必要跟大家一起探討一下AlphaGo（阿爾法狗），了解一下AlphaGo背后神奇的AI力量。

圍棋的程序設(shè)計(jì)：

圍棋是一個(gè)完美的、有趣的數(shù)學(xué)問題。

圍棋棋盤是19x19路，所以一共是361個(gè)交叉點(diǎn)，每個(gè)交叉點(diǎn)有三種狀態(tài)，可以用1表示黑子，－1表示白字，0表示無子，考慮到每個(gè)位置還可能有落子的時(shí)間、這個(gè)位置的氣等其他信息，可以用一個(gè)361 ＊ n維的向量來表示一個(gè)棋盤的狀態(tài)。則把一個(gè)棋盤狀態(tài)向量記為s。

當(dāng)狀態(tài)s下，暫時(shí)不考慮無法落子的地方，可供下一步落子的空間也是361個(gè)。把下一步的落子的行動(dòng)也用361維的向量來表示記為a。

于是，設(shè)計(jì)一個(gè)圍棋人工智能的程序，就轉(zhuǎn)變?yōu)椋喝我饨o定一個(gè)s狀態(tài)，尋找最好的應(yīng)對(duì)策略a，讓程序按照這個(gè)策略走，最后獲得棋盤上最大的地盤。

谷歌DeepMind的圍棋程序AlphaGo（阿爾法狗）就是基于這樣思想設(shè)計(jì)的。

AlphaGo概述：

AlphaGo（阿爾法狗）創(chuàng)新性地將深度強(qiáng)化學(xué)習(xí)DRL和蒙特卡羅樹搜索MCTS相結(jié)合，通過價(jià)值網(wǎng)絡(luò)（value network）評(píng)估局面以減小搜索深度，利用策略網(wǎng)絡(luò)（policy network）降低搜索寬度，使搜索效率得到大幅提升，勝率估算也更加精確。

MCTS必要性：

AlphaGo（阿爾法狗）系統(tǒng)中除了深度強(qiáng)化學(xué)習(xí)DRL外，為什么還需要蒙特卡羅樹搜索？

圍棋棋面總共有19 ＊ 19 ＝ 361個(gè)落子位置。假如計(jì)算機(jī)有足夠的計(jì)算能力，理論上來說，可以窮舉黑白雙方所有可能的落子位置，找到最優(yōu)或次優(yōu)落子策略。如果窮舉黑白雙方所有可能的落子位置，各種組合的總數(shù)，大約是 250＾150 數(shù)量級(jí)，即圍棋的計(jì)算復(fù)雜度約為250的150次方。假如采用傳統(tǒng)的暴力搜索方式（遍歷搜索方式），用當(dāng)今世界最強(qiáng)大云計(jì)算系統(tǒng)，算幾十年也算不完。按照現(xiàn)有的計(jì)算能力是遠(yuǎn)遠(yuǎn)無法解決圍棋問題的。早期計(jì)算機(jī)圍棋軟件通過專家系統(tǒng)和模糊匹配縮小搜索空間， 減輕計(jì)算強(qiáng)度，但受限于計(jì)算資源和硬件能力，實(shí)際效果并不理想。

但是到了2006年，蒙特卡羅樹搜索的應(yīng)用標(biāo)志著計(jì)算機(jī)圍棋進(jìn)入了嶄新階段。

AlphaGo網(wǎng)絡(luò)結(jié)構(gòu)：

網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示：

AlphaGo系統(tǒng)組成：

AlphaGo（阿爾法狗）系統(tǒng)主要由幾個(gè)部分組成：

1．策略網(wǎng)絡(luò)（Policy Network）：給定當(dāng)前圍棋局面，預(yù)測(cè)／采樣下一步的走棋。

2．快速走子（Fast rollout）：目標(biāo)和策略網(wǎng)絡(luò)一樣，只不過圍棋有時(shí)間限制，需要在規(guī)定時(shí)間內(nèi)適當(dāng)犧牲走棋質(zhì)量情況下，快速落子，速度要比策略網(wǎng)絡(luò)要快1000倍。

3．價(jià)值網(wǎng)絡(luò)（Value Network）：給定當(dāng)前圍棋局面，估計(jì)是白勝還是黑勝。

4．蒙特卡羅樹搜索（Monte Carlo Tree Search）：不窮舉所有組合，找到最優(yōu)或次優(yōu)位置。

把以上這四個(gè)部分結(jié)合起來，形成一個(gè)完整的AlphaGo（阿爾法狗）系統(tǒng)。

蒙特卡洛樹搜索（MCTS）是一個(gè)大框架，許多博弈AI都會(huì)采用這個(gè)框架。強(qiáng)化學(xué)習(xí)（RL）是學(xué)習(xí)方法，用來提升AI的實(shí)力。深度學(xué)習(xí)（DL）采用了深度神經(jīng)網(wǎng)絡(luò) （DNN），它是工具，用來擬合圍棋局面評(píng)估函數(shù)和策略函數(shù)的。蒙特卡洛樹搜索（MCTS）和強(qiáng)化學(xué)習(xí)RL讓具有自學(xué)能力、并行的圍棋博弈算法成為可能。深度學(xué)習(xí)（DL）讓量化地評(píng)估圍棋局面成為了可能。

小結(jié)：

可以說 AlphaGo 最大優(yōu)勢(shì)就是它應(yīng)用了通用算法，而不是僅局限于圍棋領(lǐng)域的算法。AlphaGo勝利證明了像圍棋這樣復(fù)雜的問題，都可以通過先進(jìn)的AI人工智能技術(shù)來解決。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

為您推薦

極客觀察

欄目相關(guān)

贊助商

極客網(wǎng)熱搜關(guān)鍵詞

人工智能 AI OpenAI 機(jī)器學(xué)習(xí) ChatGPT 生成式AI AI芯片 AIGC U-Mail AI大模型世界人工智能大會(huì) AIoT AirPods Airbnb Rushmail 人工智能AI AI人工智能 Akamai 昇騰AI 生成式人工智能 AIPC Air AI技術(shù) 蘋果AI 谷歌AI GenAI 科大訊飛AI學(xué)習(xí)機(jī) 百度AI CAICT 阿爾法蛋AI詞典筆T10 AI手機(jī) 華為AI 松鼠AI 微軟AI AI+ AIS Airdoc WAIC 昇騰AI創(chuàng)新大賽 AITO 阿爾法蛋AI詞典筆京東AI AI模型智譜AI SoleusAir aigo SoleusAir舒樂氏 2019世界人工智能大會(huì) LIFAair AI機(jī)器人移動(dòng)AI時(shí)代 AI創(chuàng)企人工智能大會(huì) 浙大AIF Zain 人工智能技術(shù) AI應(yīng)用 AI醫(yī)療 AI算力人工智能芯片 AI人才 xAI Airtag AI時(shí)代騰訊AI AI服務(wù)器 AI算法 AI框架 BrainCo AI投資 Gmail 人工智能計(jì)算中心聯(lián)想AI VAIO 人工智能大賽 AI教育 Chain OPENAIGC開發(fā)者大賽 Coremail AI賦能谷歌人工智能 Airwheel AI搜索人工智能名片昇騰AI開發(fā)者創(chuàng)享日 Mirai Airwallex空中云匯人工智能機(jī)器人 AI聊天機(jī)器人 AI音樂 BrainCo強(qiáng)腦科技百度人工智能 AI計(jì)算 AIOps 阿里AI 英偉達(dá)AI芯片 AI原生應(yīng)用 AI基礎(chǔ)設(shè)施蘋果人工智能人工智能+

上一篇

整體估值達(dá)25億美元，寒武紀(jì)完成B輪融資

下一篇

人工智能(59)–BP算法

簡版
原版
投稿
回頂部

2018-06-20

人工智能(61)–AlphaGo淺析(1)

AlphaGo（阿爾法狗）戰(zhàn)勝了柯潔，人工智能贏了，贏家仍然是人類！之前介紹過深度強(qiáng)化學(xué)習(xí)DRL，其中一個(gè)最最經(jīng)典的應(yīng)用就是谷歌DeepMind團(tuán)隊(duì)研發(fā)的圍棋程序AlphaGo（阿爾法狗）。

長按掃碼閱讀全文

<td id="s4s2g"></td>

<button id="s4s2g"><kbd id="s4s2g"></kbd></button>

<del id="s4s2g"><abbr id="s4s2g"></abbr></del>