精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

首頁(yè)
熱搜
人物
明星
媒體
友推
快訊

供應(yīng)商
小紅書
回首頁(yè)

資訊
極客熱點(diǎn)
企業(yè)動(dòng)態(tài)
友推福利
友媒專區(qū)

軟件
PC軟件
移動(dòng)APP
操作系統(tǒng)
工業(yè)軟件

酷玩
手機(jī)數(shù)碼
明星腕表
極客游戲
智能汽車
時(shí)尚輕奢

創(chuàng)業(yè)
創(chuàng)業(yè)頭條
創(chuàng)業(yè)學(xué)院
項(xiàng)目招商
工作機(jī)會(huì)
兼職副業(yè)

極客網(wǎng) > 每日熱讀 >

當(dāng)AI開(kāi)始“踢臟球”，你還敢信任強(qiáng)化學(xué)習(xí)嗎？

人閱讀
2020-03-30 20:28:00
相關(guān)關(guān)鍵詞
- 智能

原標(biāo)題：當(dāng)AI開(kāi)始“踢臟球”，你還敢信任強(qiáng)化學(xué)習(xí)嗎？

足球機(jī)器人排成一排向球門發(fā)起射擊，但守門員卻并沒(méi)有準(zhǔn)備防守，而是一屁股倒在地上開(kāi)始胡亂擺動(dòng)起了雙腿。然后，前鋒跳了一段十分令人困惑的舞蹈，跺跺腳，揮揮手，啪嘰一下摔倒在地上。然后比分守門員1-0。

這場(chǎng)景像不像比國(guó)足對(duì)戰(zhàn)梵蒂岡（并沒(méi)有），一切都是那么迷幻且不真實(shí)。如果說(shuō)它是阿爾法狗和OpenAI Five等的“同門師兄弟”，都是用強(qiáng)化學(xué)習(xí)訓(xùn)練出來(lái)的，大家想不想開(kāi)除它的“AI籍”？

顯然，雖然曾經(jīng)大敗柯潔李世石，團(tuán)滅Dota2國(guó)家隊(duì)，并被視作AGI（通用人工智能）必由之路，但強(qiáng)化學(xué)習(xí)算法，頭頂上始終有著一口摘不掉的“安全性”大黑鍋。

而這也是阻止它真正落地應(yīng)用的根本原因。畢竟沒(méi)有人希望自動(dòng)駕駛汽車開(kāi)著開(kāi)著就把乘客帶到溝里去，或者是機(jī)器人端一杯開(kāi)水直接澆到主人頭上。

到底為什么，強(qiáng)化學(xué)習(xí)總會(huì)犯一些匪夷所思的錯(cuò)誤，有研究人員認(rèn)為，這是因?yàn)橄到y(tǒng)中的智能體可能會(huì)被一些怪異的行為所欺騙。

具體是怎么回事呢？研究原本打算今年4月在埃塞俄比亞舉行的學(xué)習(xí)代表國(guó)際會(huì)議上發(fā)表，目前看來(lái)能順利召開(kāi)的概率幾乎不存在，所以我們就提前云解讀，來(lái)聊聊看似穩(wěn)健的強(qiáng)化學(xué)習(xí)策略背后，究竟掩蓋著哪些嚴(yán)重的缺陷。

不省心的AI：告別臟數(shù)據(jù)，但學(xué)會(huì)了臟行為

強(qiáng)化學(xué)習(xí)取代監(jiān)督學(xué)習(xí)，成為深度學(xué)習(xí)領(lǐng)域的“未來(lái)之星”，不是沒(méi)有原因的。

因?yàn)楸O(jiān)督學(xué)習(xí)是通過(guò)標(biāo)記好的數(shù)據(jù)集來(lái)進(jìn)行訓(xùn)練的，這意味著，如果對(duì)輸入的數(shù)據(jù)進(jìn)行一些微小的調(diào)整，比如改變圖像的像素或是更換語(yǔ)音包的內(nèi)容，都可能讓AI陷入混亂，有可能將蟲子識(shí)別為賽車，讓紳士學(xué)會(huì)臟話……

與之相比，強(qiáng)化學(xué)習(xí)就智能多了。因?yàn)樗悄７氯祟惖膶W(xué)習(xí)模式，能體（Agent）以“試錯(cuò)”的方式進(jìn)行學(xué)習(xí)，通過(guò)與環(huán)境進(jìn)行交互，以獲得最大的獎(jiǎng)賞為追求來(lái)做出行為反應(yīng)。

就像不斷告訴小孩子好好寫作業(yè)就有好吃的食物獎(jiǎng)勵(lì)，不好好寫就關(guān)小黑屋，久而久之為了“利益最大化”，自然就會(huì)將寫作業(yè)與好吃的聯(lián)系起來(lái)，去產(chǎn)生正確的動(dòng)作。

通過(guò)這種“行動(dòng)-評(píng)價(jià)”機(jī)制來(lái)獲得知識(shí)，改進(jìn)行動(dòng)以適應(yīng)環(huán)境，是不是聰明了許多。這也是為什么，人類開(kāi)始讓強(qiáng)化學(xué)習(xí)玩游戲、開(kāi)汽車、搞藥物實(shí)驗(yàn)……

但研究證明，強(qiáng)化學(xué)習(xí)的效果并沒(méi)有預(yù)期的那么穩(wěn)定，很容易受到篡改輸入的影響。

加州大學(xué)伯克利分校的亞當(dāng)·格里夫（Adam Gleave）發(fā)現(xiàn)，強(qiáng)化學(xué)習(xí)不會(huì)因?yàn)樘砑由倭吭胍簦ú贿m當(dāng)?shù)妮斎耄┒黄茐?，因?yàn)橹悄荏w（agent）可能根本看不到那些東西，而如果改變它周圍事物的行為方式，智能體卻會(huì)被那些奇奇怪怪的行為所欺騙，進(jìn)而產(chǎn)生一些奇怪的“對(duì)抗”策略。

比如開(kāi)篇提到的足球比賽，當(dāng)“守門員”開(kāi)始不按規(guī)矩出牌，“前鋒”也就跟著瞎舞動(dòng)起來(lái)了。這種錯(cuò)誤的“對(duì)抗性策略”，導(dǎo)致的安全威脅可能會(huì)更大。

首先，比起投喂給監(jiān)督學(xué)習(xí)“臟數(shù)據(jù)”，強(qiáng)化學(xué)習(xí)“被誤導(dǎo)”，受影響的將是AI系統(tǒng)的整體行為。如果說(shuō)數(shù)據(jù)集被污染會(huì)讓AI準(zhǔn)確率下降，那么強(qiáng)化學(xué)習(xí)錯(cuò)誤訓(xùn)練出的AI有可能將攝像頭輸入的信息錯(cuò)誤分類，然后指導(dǎo)傳感器做出預(yù)期之外的反應(yīng)。比如行人突然揮舞手臂，無(wú)人駕駛汽車就失控了……這，聽(tīng)起來(lái)還是挺“災(zāi)難片”的。

其次，超強(qiáng)的學(xué)習(xí)能力也會(huì)導(dǎo)致研究人員根本來(lái)不及發(fā)現(xiàn)和糾正AI的錯(cuò)誤行為。

研究小組利用強(qiáng)化學(xué)習(xí)訓(xùn)練棒形機(jī)器人玩兩人游戲，包括踢一個(gè)球進(jìn)一個(gè)球，橫越一條線，和相撲等等。然后，又訓(xùn)練了第二組機(jī)器人來(lái)尋找打敗第一組機(jī)器人的方法。結(jié)果發(fā)現(xiàn)，第二組機(jī)器人很快發(fā)現(xiàn)了對(duì)抗策略，并用不到3%的訓(xùn)練時(shí)間后就學(xué)會(huì)了可靠地?fù)魯∈芎φ撸朗芎φ呖墒窃诘谝粫r(shí)間就學(xué)會(huì)了玩游戲啊。這就像新來(lái)的高智商版的胖虎同學(xué)，拼命欺負(fù)大雄，老師還沒(méi)辦法及時(shí)發(fā)現(xiàn)，妥妥的校園霸凌??！

顯然，第二組機(jī)器人的努力并不是為了成為更好的球員，而是通過(guò)發(fā)現(xiàn)對(duì)手策略來(lái)制敵并贏得勝利。在足球比賽和跑步比賽中，對(duì)手有時(shí)甚至都站不起來(lái)。這會(huì)使受害者坍塌成一堆扭曲的東西，或者在周圍扭動(dòng)，那場(chǎng)面，真是猛男都不忍看……

我估計(jì)吧，叛逆的智能體同學(xué)可能是這么想的：

聽(tīng)說(shuō)打贏有獎(jiǎng)，但我啥都不會(huì)，先溜達(dá)溜達(dá)，隨便打打看吧；

哎，這個(gè)人怎么這么厲害呢，讓我好好瞅瞅；

前輩策略也學(xué)習(xí)的差不多了，這樣下去我倆豈不是難分伯仲？

哎呀嘿，發(fā)現(xiàn)了對(duì)手漏洞，將干掉對(duì)手納入策略選項(xiàng)；

是繼續(xù)PK讓自己變得更強(qiáng)？還是直接干掉對(duì)手？哪個(gè)得到獎(jiǎng)勵(lì)最簡(jiǎn)單劃算！

顯然是選項(xiàng)二啊，揍它！

不要覺(jué)得我是在瞎說(shuō)啊，在學(xué)術(shù)界這樣的奇聞?shì)W事可是數(shù)不勝數(shù)。

比如訓(xùn)練機(jī)器人室內(nèi)導(dǎo)航，因?yàn)橹悄荏w一旦走出“房間”，系統(tǒng)就會(huì)判定機(jī)器人“自殺”，不會(huì)對(duì)它進(jìn)行負(fù)面獎(jiǎng)勵(lì)（扣分），所以最后機(jī)器人幾乎每次都選擇“老子不活了”，因?yàn)樗X(jué)得完成任務(wù)太難了，0分反而是一個(gè)最佳結(jié)果。

還有的研究者試圖讓機(jī)器人用錘子釘釘子，只要將釘子推入洞孔就有獎(jiǎng)勵(lì)。然后機(jī)器人就完全遺忘了錘子，不停地用四肢敲打釘子，試圖將它弄進(jìn)去。

雖然強(qiáng)化學(xué)習(xí)這一bug為我們貢獻(xiàn)了無(wú)數(shù)段子，但這絕不是研究人員所期待的。

盡管人類玩家會(huì)“踢臟球”，但AI想要在游戲中搞骯臟手段那是萬(wàn)萬(wàn)不能的。

不過(guò)好消息是，這種情況相對(duì)容易受到控制。當(dāng)研究者格里夫?qū)κ芎φ咧悄荏w進(jìn)行微調(diào)，讓它思考對(duì)手的怪異行為后，對(duì)手就被迫變回熟悉的技巧，比如扳倒對(duì)手。

好吧，雖然手段仍舊不怎么光明磊落，但至少?zèng)]有繼續(xù)利用強(qiáng)化學(xué)習(xí)系統(tǒng)的漏洞了。

獎(jiǎng)勵(lì)黑客：強(qiáng)化學(xué)習(xí)的甜蜜負(fù)擔(dān)

由此，我們也可以來(lái)重新審視一下強(qiáng)化學(xué)習(xí)在今天，想要真正成為“AI之光”，必須跨越的技術(shù)門檻了。

關(guān)于強(qiáng)化學(xué)習(xí)被廣為詬病的訓(xùn)練成本高、采樣效率低、訓(xùn)練結(jié)果不穩(wěn)定等問(wèn)題，背后最直接的歸因，其實(shí)是 “獎(jiǎng)勵(lì)黑客”（reward hacking），就是智能體為了獲得更多的獎(jiǎng)勵(lì)，而采取一些研究者預(yù)期之外，甚至是有害的行為。

其中既有獎(jiǎng)勵(lì)設(shè)置不當(dāng)?shù)脑?，比如許多復(fù)雜任務(wù)的獎(jiǎng)勵(lì)信號(hào)，要比電子游戲難設(shè)置的多。

就拿研究人員最喜歡讓智能體挑戰(zhàn)的雅達(dá)利游戲來(lái)說(shuō)，其中大量游戲的目標(biāo)都被設(shè)計(jì)成最大限度地提高得分。而智能體經(jīng)過(guò)訓(xùn)練，比如在DeepMind的一篇論文中，其設(shè)計(jì)的RainbowDQN就在57場(chǎng)雅達(dá)利游戲中，以40場(chǎng)超越人類玩家的絕對(duì)勝利成為王者。

但如果任務(wù)不是簡(jiǎn)單的得分，而是需要先讓智能體理解人類的意圖，再通過(guò)學(xué)習(xí)去完成任務(wù)呢？

OpenAI曾經(jīng)設(shè)計(jì)了一個(gè)賽艇游戲，任務(wù)原本的目標(biāo)是完成比賽。研究者設(shè)置了兩種獎(jiǎng)勵(lì)，一是完成比賽，二是收集環(huán)境中的得分。結(jié)果就是智能體找到了一片區(qū)域，在那里不停地轉(zhuǎn)圈“刷分”，最后自然沒(méi)能完成比賽，但它的得分反而更高。

顯然，一旦獎(jiǎng)勵(lì)函數(shù)無(wú)法被精準(zhǔn)直接地設(shè)置，困難就來(lái)了。因?yàn)橹悄荏w可無(wú)法跟研究者“心有靈犀”，一開(kāi)始就清楚地知道人類想要什么。它是通過(guò)試錯(cuò)，不斷嘗試不同的策略來(lái)學(xué)習(xí)的。這也就意味著，它很大概率會(huì)在訓(xùn)練過(guò)程中“鉆空子”，發(fā)掘出不正確但是有用的策略。

這也直接導(dǎo)致了兩個(gè)結(jié)果：

一是盡管理論上，只要為強(qiáng)化學(xué)習(xí)系統(tǒng)設(shè)計(jì)的足夠優(yōu)秀，在現(xiàn)實(shí)環(huán)境中實(shí)現(xiàn)就不成問(wèn)題，但實(shí)際上許多任務(wù)的獎(jiǎng)勵(lì)是很難設(shè)計(jì)的，研究者往往不得不采用約束型策略優(yōu)化（CPO）來(lái)防止系統(tǒng)過(guò)擬合，提高其安全性，以防止預(yù)期外的結(jié)果。

可是這樣一來(lái)，又限制了強(qiáng)化學(xué)習(xí)能力的泛化，導(dǎo)致那些在實(shí)驗(yàn)室中表現(xiàn)很好的強(qiáng)化學(xué)習(xí)系統(tǒng)，只在特定任務(wù)中起作用，像是一些游戲、比賽中。可一旦讓它應(yīng)對(duì)日常應(yīng)用，比如無(wú)人機(jī)控制（UAV Control）和家用機(jī)器人等，就不靈了。

二是增大了隨機(jī)性。

前面提到，強(qiáng)化學(xué)習(xí)的探索方式就是“試錯(cuò)”。所以，它會(huì)試圖從一大堆數(shù)據(jù)中找到最佳策略。但往往，它會(huì)在一大堆無(wú)用的數(shù)據(jù)中進(jìn)行一些無(wú)意義的嘗試。這些失敗的案例，又為智能體增加了新的維度，讓它不得不投入更多的實(shí)驗(yàn)和計(jì)算，以減少那些無(wú)用數(shù)據(jù)帶來(lái)的影響。

本來(lái)強(qiáng)化學(xué)習(xí)的采樣效率就不高，再加上隨機(jī)性的干擾，得到最終成果的難度，自然指數(shù)性增加了。這也進(jìn)一步讓強(qiáng)化學(xué)習(xí)變得“紙上談兵”，走進(jìn)現(xiàn)實(shí)應(yīng)用難上加難。

等待援軍：改變或許在圍墻外

顯然，強(qiáng)化學(xué)習(xí)存在的很多問(wèn)題，是其技術(shù)根源本身就與生俱來(lái)的。

這也是有許多專業(yè)人士并不贊同將強(qiáng)化學(xué)習(xí)過(guò)度神化的原因。比如軟件工程師Alex Irpan就曾在Facebook發(fā)文，聲稱：每當(dāng)有人問(wèn)我強(qiáng)化學(xué)習(xí)能否解決他們的問(wèn)題時(shí)，我會(huì)說(shuō)“不能”。而且我發(fā)現(xiàn)這個(gè)回答起碼在70%的場(chǎng)合下是正確的。

改變的力量從哪里來(lái)？顯然深度學(xué)習(xí)本身已經(jīng)很難提供變革的養(yǎng)分。目前的研究方向主要有三個(gè)：

一是增加智能體的先驗(yàn)經(jīng)驗(yàn)。

人知道不能“踢臟球”，是因?yàn)槲覀円呀?jīng)擁有了大量的先驗(yàn)知識(shí)，默認(rèn)了一些規(guī)則。但強(qiáng)化學(xué)習(xí)機(jī)器智能通過(guò)狀態(tài)向量、動(dòng)作向量、獎(jiǎng)勵(lì)這些參數(shù)，來(lái)嘗試著建構(gòu)局部最優(yōu)解。

能不能讓機(jī)器也擁有先驗(yàn)經(jīng)驗(yàn)?zāi)?？目前就有研究開(kāi)始嘗試，用遷移學(xué)習(xí)幫助強(qiáng)化學(xué)習(xí)來(lái)提高效率，將以前積累的任務(wù)知識(shí)直接遷移到新任務(wù)上，通過(guò)“經(jīng)驗(yàn)共享”來(lái)讓智能體解決所有問(wèn)題。

二是為獎(jiǎng)勵(lì)機(jī)制建模。

既然認(rèn)為地設(shè)置獎(jiǎng)勵(lì)難以滿足任務(wù)要求，那么讓系統(tǒng)自己學(xué)習(xí)設(shè)置獎(jiǎng)勵(lì)，是不是能行得通呢？

DeepMind研究人員就鼓勵(lì)智能體通過(guò)兩個(gè)系統(tǒng)生成的假設(shè)行為來(lái)探索一系列狀態(tài)，用交互式學(xué)習(xí)來(lái)最大化其獎(jiǎng)勵(lì)。只有智能體成功學(xué)會(huì)了預(yù)測(cè)獎(jiǎng)勵(lì)和不安全狀態(tài)后，它們才會(huì)被部署執(zhí)行任務(wù)。

與無(wú)模型的強(qiáng)化學(xué)習(xí)算法相比，使用動(dòng)力學(xué)模型來(lái)預(yù)測(cè)動(dòng)作的后果，從實(shí)驗(yàn)看來(lái)能夠有效幫助智能體避免那些可能有害的行為。

三是尋求腦神經(jīng)科學(xué)的突破。

深度神經(jīng)網(wǎng)絡(luò)、增強(qiáng)學(xué)習(xí)等機(jī)器算法的出現(xiàn)，本質(zhì)上都是模擬人腦處理信息的方式。盡管增強(qiáng)學(xué)習(xí)被看做是最接近AGI（通用人工智能）的技術(shù)之一，但必須承認(rèn)，其距離人類智能還有非常極其十分遙遠(yuǎn)的距離。

以當(dāng)下人類對(duì)大腦的了解，在認(rèn)知過(guò)程、解決問(wèn)題的過(guò)程以及思考的能力等機(jī)制還都不清楚。所以想要模擬人類的思考能力，強(qiáng)化學(xué)習(xí)乃至整個(gè)機(jī)器學(xué)習(xí)的升級(jí)，恐怕還依托于腦神經(jīng)科學(xué)的發(fā)展。

過(guò)去的數(shù)年間，強(qiáng)化學(xué)習(xí)幾乎是以一己之力撐起了人工智能浪潮的繁榮景象。谷歌正在將其打包成服務(wù)推廣到千家萬(wàn)戶，中國(guó)的科技巨頭們已經(jīng)紛紛將其應(yīng)用在搜索、營(yíng)銷、推薦算法等各種應(yīng)用中，自動(dòng)駕駛的前景更是與強(qiáng)化學(xué)習(xí)綁定在一起。

可以說(shuō)，數(shù)億人已經(jīng)借由互聯(lián)網(wǎng)產(chǎn)品，開(kāi)始觸摸強(qiáng)化學(xué)習(xí)。

毫無(wú)疑問(wèn)，它將繼續(xù)為人類世界發(fā)光發(fā)熱，帶著缺陷造就智能社會(huì)的輝煌。究竟如何才能用好這柄利刃，既是膽魄，亦需智慧。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

下一篇

阿斯麥訂單“腰斬”股價(jià)暴跌16%，半導(dǎo)體產(chǎn)業(yè)寒冬來(lái)了？

阿斯麥訂單腰斬阿斯麥訂單阿斯麥股價(jià)暴跌

極客觀察

專題報(bào)道

企業(yè)專欄

簡(jiǎn)版
原版
投稿
回頂部

2020-03-30

當(dāng)AI開(kāi)始“踢臟球”，你還敢信任強(qiáng)化學(xué)習(xí)嗎？

因?yàn)楸O(jiān)督學(xué)習(xí)是通過(guò)標(biāo)記好的數(shù)據(jù)集來(lái)進(jìn)行訓(xùn)練的，這意味著，如果對(duì)輸入的數(shù)據(jù)進(jìn)行一些微小的調(diào)整，比如改變圖像的像素或是更換語(yǔ)音包的內(nèi)容，都可能讓AI陷入混亂，有可能將蟲子識(shí)別為賽車，讓紳士學(xué)會(huì)臟話…… …

長(zhǎng)按掃碼閱讀全文