精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<input id="plwdn"></input>

<s id="plwdn"><legend id="plwdn"></legend></s>

直播
榜單
7x24h快訊

極客網(wǎng) > 人工智能 >

好奇的AI通過(guò)探索游戲世界和犯錯(cuò)來(lái)學(xué)習(xí)

人閱讀
2017-06-16 18:49:00
來(lái)源：煎蛋
作者：Zeno
相關(guān)關(guān)鍵詞
- 人工智能
- AI

credit: 123RF

我好奇我按下這個(gè)按鈕會(huì)發(fā)生什么？擁有好奇心的算法正在教會(huì)自己探索并解決它們從未見(jiàn)過(guò)的問(wèn)題。

面對(duì)超級(jí)馬里奧的第一關(guān)，一個(gè)好奇心驅(qū)動(dòng)的AI學(xué)會(huì)了如何探索地圖，避開深坑，以及躲開并消滅敵人。這可能聽(tīng)起來(lái)不那么厲害——算法在電子游戲領(lǐng)域把人類虐爆已經(jīng)好幾年了——但這個(gè)AI的技能都是借助于它內(nèi)建的對(duì)游戲世界的探索欲望而學(xué)會(huì)的。

傳統(tǒng)的AI是通過(guò)正面強(qiáng)化學(xué)習(xí)的。它們?cè)谕瓿赡撤N外界目標(biāo)時(shí)會(huì)得到獎(jiǎng)勵(lì)，比如把游戲總分提高一分時(shí)。這鼓勵(lì)它們做出能提高分?jǐn)?shù)的行為——例如在超級(jí)馬里奧中踩扁敵人——并阻礙它們做出不能提高分?jǐn)?shù)的行為，例如掉進(jìn)深坑。

這種方法叫做增強(qiáng)學(xué)習(xí)，它曾被用來(lái)創(chuàng)造 AlphaGo，來(lái)自谷歌 DeepMind 的在去年以四比一的成績(jī)擊敗韓國(guó)圍棋大師李世石的圍棋AI。在經(jīng)歷數(shù)千盤真實(shí)與模擬的棋局的過(guò)程中，AlphaGo 學(xué)會(huì)了追求能帶來(lái)終極獎(jiǎng)勵(lì)——?jiǎng)倮牟呗浴?/p>

然而，在現(xiàn)實(shí)世界中并非到處都有獎(jiǎng)勵(lì)，領(lǐng)導(dǎo)了加州大學(xué)伯克利分校的這項(xiàng)研究的 Deepak Pathak 如是說(shuō)道?！白鳛樘娲?，人類擁有內(nèi)稟的好奇心來(lái)幫助他們學(xué)習(xí)?！?他說(shuō)。這或許能解釋為什么我們不需要刻意學(xué)習(xí)就能輕松地掌握領(lǐng)域廣泛的各種技能。

因此，Pathak 給他自己的增強(qiáng)學(xué)習(xí)算法加入了好奇心，并觀察這是否足以讓它學(xué)會(huì)許多技能。當(dāng) Pathak 的算法加深了它對(duì)周邊環(huán)境的理解，特別是對(duì)那些能直接影響環(huán)境的因素的理解時(shí)，它便會(huì)獲得獎(jiǎng)勵(lì)。所以，這個(gè)算法會(huì)因探索和掌握那些使它更加理解游戲世界的技能而獲得獎(jiǎng)勵(lì)，而非在游戲世界中直接尋找獎(jiǎng)勵(lì)。

這種方法能加快學(xué)習(xí)并提高算法的效率，來(lái)自谷歌的AI公司 DeepMind 的 Max Jaderberg 說(shuō)道。這家公司在去年用了一種類似的技巧去訓(xùn)練一個(gè)AI去探索一個(gè)虛擬迷宮。它的算法學(xué)習(xí)的速度比起傳統(tǒng)的增強(qiáng)學(xué)習(xí)算法快了很多。“我們的AI學(xué)習(xí)時(shí)快得多，并且訓(xùn)練時(shí)需要少得多的來(lái)自環(huán)境的經(jīng)驗(yàn)，這使得它在利用數(shù)據(jù)方面效率更高。” 他說(shuō)道。

高效學(xué)習(xí)者

憑借著好奇心，Pathak 自己的AI學(xué)會(huì)了在超級(jí)馬里奧中踩扁敵人并跳過(guò)深坑，還學(xué)會(huì)了在另一個(gè)類似 Doom 的游戲中探索遙遠(yuǎn)的房間和穿越走廊。它還能夠在更后面的馬里奧關(guān)卡中應(yīng)用它新得到的技能，即使它從未見(jiàn)過(guò)這些關(guān)卡。

但是好奇心只能讓這個(gè)算法在超級(jí)馬里奧中達(dá)到一定水平。平均來(lái)說(shuō)，它只探索了第一關(guān)的百分之三十，因?yàn)樗麤](méi)能找到越過(guò)只能用一段超過(guò)十五次操作的連擊穿過(guò)的一系列深坑的途徑。當(dāng)AI到達(dá)這一地點(diǎn)時(shí)，它并不會(huì)信仰之躍跳向死亡，而是學(xué)會(huì)了轉(zhuǎn)身停下。

這個(gè)AI如此困惑的原因，可能是它不知道在這個(gè)深坑之后還有關(guān)卡的另一部分，Pathak 如是說(shuō)道。它沒(méi)有學(xué)會(huì)持續(xù)地利用游戲中的捷徑，因?yàn)檫@會(huì)讓它的探索范圍減小，從而無(wú)法滿足它的探索欲望。

Pathak 如今在研究機(jī)械臂是否能通過(guò)好奇心學(xué)會(huì)抓取新物體?！氨绕鹱屗S機(jī)地行動(dòng)，你可以利用這種方法讓它更有價(jià)值地活動(dòng)?！?他說(shuō)。他還打算研究一個(gè)類似的算法是否能用在像 Roomba 吸塵器這樣的家用機(jī)器人上。

但 Jaderberg 并不確定這種算法已經(jīng)準(zhǔn)備好被正式使用了?！艾F(xiàn)在談實(shí)際應(yīng)用還為時(shí)尚早?！?他說(shuō)。

論文地址：arXiv:1705.05363

本文譯自New Scientist，由譯者 Zeno 基于創(chuàng)作共用協(xié)議(BY-NC)發(fā)布。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

為您推薦

極客觀察

欄目相關(guān)

贊助商

極客網(wǎng)熱搜關(guān)鍵詞

人工智能 AI OpenAI 機(jī)器學(xué)習(xí) ChatGPT 生成式AI AI芯片 AIGC U-Mail 世界人工智能大會(huì) AI大模型 AIoT AirPods Airbnb Rushmail 人工智能AI AI人工智能 Akamai 昇騰AI 生成式人工智能 AIPC Air AI技術(shù) 蘋果AI 谷歌AI GenAI 科大訊飛AI學(xué)習(xí)機(jī) 百度AI CAICT 阿爾法蛋AI詞典筆T10 AI手機(jī) 華為AI 松鼠AI 微軟AI AI+ AIS Airdoc WAIC 昇騰AI創(chuàng)新大賽 AITO 阿爾法蛋AI詞典筆京東AI 智譜AI AI模型 SoleusAir aigo SoleusAir舒樂(lè)氏 2019世界人工智能大會(huì) LIFAair AI機(jī)器人 AI創(chuàng)企移動(dòng)AI時(shí)代人工智能大會(huì) 浙大AIF Zain 人工智能技術(shù) AI應(yīng)用 AI醫(yī)療 AI算力人工智能芯片 AI人才 xAI Airtag AI時(shí)代騰訊AI AI服務(wù)器 AI算法 AI框架 BrainCo AI投資 Gmail 人工智能計(jì)算中心聯(lián)想AI VAIO 人工智能大賽 AI教育 Chain Coremail OPENAIGC開發(fā)者大賽 AI賦能谷歌人工智能 Airwheel AI搜索人工智能名片昇騰AI開發(fā)者創(chuàng)享日 Mirai AI聊天機(jī)器人 AI音樂(lè) Airwallex空中云匯 BrainCo強(qiáng)腦科技 AI原生應(yīng)用百度人工智能 AI計(jì)算阿爾法蛋AI詞典筆T20 AIOps 阿里AI 英偉達(dá)AI芯片 AI基礎(chǔ)設(shè)施蘋果人工智能人工智能+

上一篇

好評(píng)度100%，暴風(fēng)TV這款人工智能電視為何口碑爆表？

下一篇

反烏托邦設(shè)備：AI提醒你AI正在扮演人類

簡(jiǎn)版
原版
投稿
回頂部

2017-06-16

好奇的AI通過(guò)探索游戲世界和犯錯(cuò)來(lái)學(xué)習(xí)

我好奇我按下這個(gè)按鈕會(huì)發(fā)生什么？擁有好奇心的算法正在教會(huì)自己探索并解決它們從未見(jiàn)過(guò)的問(wèn)題。面對(duì)超級(jí)馬里奧的第一關(guān)，一個(gè)好奇心驅(qū)動(dòng)的AI學(xué)會(huì)了如何探索地圖，避開深坑，以及躲開并消滅敵人。

長(zhǎng)按掃碼閱讀全文