精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    好奇的AI通過(guò)探索游戲世界和犯錯(cuò)來(lái)學(xué)習(xí)


    credit: 123RF

    我好奇我按下這個(gè)按鈕會(huì)發(fā)生什么?擁有好奇心的算法正在教會(huì)自己探索并解決它們從未見(jiàn)過(guò)的問(wèn)題。

    面對(duì)超級(jí)馬里奧的第一關(guān),一個(gè)好奇心驅(qū)動(dòng)的AI學(xué)會(huì)了如何探索地圖,避開深坑,以及躲開并消滅敵人。這可能聽(tīng)起來(lái)不那么厲害——算法在電子游戲領(lǐng)域把人類虐爆已經(jīng)好幾年了——但這個(gè)AI的技能都是借助于它內(nèi)建的對(duì)游戲世界的探索欲望而學(xué)會(huì)的。

    傳統(tǒng)的AI是通過(guò)正面強(qiáng)化學(xué)習(xí)的。它們?cè)谕瓿赡撤N外界目標(biāo)時(shí)會(huì)得到獎(jiǎng)勵(lì),比如把游戲總分提高一分時(shí)。這鼓勵(lì)它們做出能提高分?jǐn)?shù)的行為——例如在超級(jí)馬里奧中踩扁敵人——并阻礙它們做出不能提高分?jǐn)?shù)的行為,例如掉進(jìn)深坑。

    這種方法叫做增強(qiáng)學(xué)習(xí),它曾被用來(lái)創(chuàng)造 AlphaGo,來(lái)自谷歌 DeepMind 的在去年以四比一的成績(jī)擊敗韓國(guó)圍棋大師李世石的圍棋AI。在經(jīng)歷數(shù)千盤真實(shí)與模擬的棋局的過(guò)程中,AlphaGo 學(xué)會(huì)了追求能帶來(lái)終極獎(jiǎng)勵(lì)——?jiǎng)倮牟呗浴?/p>

    然而,在現(xiàn)實(shí)世界中并非到處都有獎(jiǎng)勵(lì),領(lǐng)導(dǎo)了加州大學(xué)伯克利分校的這項(xiàng)研究的 Deepak Pathak 如是說(shuō)道?!白鳛樘娲?,人類擁有內(nèi)稟的好奇心來(lái)幫助他們學(xué)習(xí)?!?他說(shuō)。這或許能解釋為什么我們不需要刻意學(xué)習(xí)就能輕松地掌握領(lǐng)域廣泛的各種技能。

    因此,Pathak 給他自己的增強(qiáng)學(xué)習(xí)算法加入了好奇心,并觀察這是否足以讓它學(xué)會(huì)許多技能。當(dāng) Pathak 的算法加深了它對(duì)周邊環(huán)境的理解,特別是對(duì)那些能直接影響環(huán)境的因素的理解時(shí),它便會(huì)獲得獎(jiǎng)勵(lì)。所以,這個(gè)算法會(huì)因探索和掌握那些使它更加理解游戲世界的技能而獲得獎(jiǎng)勵(lì),而非在游戲世界中直接尋找獎(jiǎng)勵(lì)。

    這種方法能加快學(xué)習(xí)并提高算法的效率,來(lái)自谷歌的AI公司 DeepMind 的 Max Jaderberg 說(shuō)道。這家公司在去年用了一種類似的技巧去訓(xùn)練一個(gè)AI去探索一個(gè)虛擬迷宮。它的算法學(xué)習(xí)的速度比起傳統(tǒng)的增強(qiáng)學(xué)習(xí)算法快了很多。“我們的AI學(xué)習(xí)時(shí)快得多,并且訓(xùn)練時(shí)需要少得多的來(lái)自環(huán)境的經(jīng)驗(yàn),這使得它在利用數(shù)據(jù)方面效率更高。” 他說(shuō)道。

    高效學(xué)習(xí)者

    憑借著好奇心,Pathak 自己的AI學(xué)會(huì)了在超級(jí)馬里奧中踩扁敵人并跳過(guò)深坑,還學(xué)會(huì)了在另一個(gè)類似 Doom 的游戲中探索遙遠(yuǎn)的房間和穿越走廊。它還能夠在更后面的馬里奧關(guān)卡中應(yīng)用它新得到的技能,即使它從未見(jiàn)過(guò)這些關(guān)卡。

    但是好奇心只能讓這個(gè)算法在超級(jí)馬里奧中達(dá)到一定水平。平均來(lái)說(shuō),它只探索了第一關(guān)的百分之三十,因?yàn)樗麤](méi)能找到越過(guò)只能用一段超過(guò)十五次操作的連擊穿過(guò)的一系列深坑的途徑。當(dāng)AI到達(dá)這一地點(diǎn)時(shí),它并不會(huì)信仰之躍跳向死亡,而是學(xué)會(huì)了轉(zhuǎn)身停下。

    這個(gè)AI如此困惑的原因,可能是它不知道在這個(gè)深坑之后還有關(guān)卡的另一部分,Pathak 如是說(shuō)道。它沒(méi)有學(xué)會(huì)持續(xù)地利用游戲中的捷徑,因?yàn)檫@會(huì)讓它的探索范圍減小,從而無(wú)法滿足它的探索欲望。

    Pathak 如今在研究機(jī)械臂是否能通過(guò)好奇心學(xué)會(huì)抓取新物體?!氨绕鹱屗S機(jī)地行動(dòng),你可以利用這種方法讓它更有價(jià)值地活動(dòng)?!?他說(shuō)。他還打算研究一個(gè)類似的算法是否能用在像 Roomba 吸塵器這樣的家用機(jī)器人上。

    但 Jaderberg 并不確定這種算法已經(jīng)準(zhǔn)備好被正式使用了?!艾F(xiàn)在談實(shí)際應(yīng)用還為時(shí)尚早?!?他說(shuō)。

    論文地址:arXiv:1705.05363

    本文譯自New Scientist,由譯者 Zeno 基于創(chuàng)作共用協(xié)議(BY-NC)發(fā)布。

    (免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
    任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

    贊助商
    2017-06-16
    好奇的AI通過(guò)探索游戲世界和犯錯(cuò)來(lái)學(xué)習(xí)
    我好奇我按下這個(gè)按鈕會(huì)發(fā)生什么?擁有好奇心的算法正在教會(huì)自己探索并解決它們從未見(jiàn)過(guò)的問(wèn)題。面對(duì)超級(jí)馬里奧的第一關(guān),一個(gè)好奇心驅(qū)動(dòng)的AI學(xué)會(huì)了如何探索地圖,避開深坑,以及躲開并消滅敵人。

    長(zhǎng)按掃碼 閱讀全文