精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<option id="y2sea"></option>

<kbd id="y2sea"></kbd>

直播
榜單
7x24h快訊

極客網(wǎng) > 智能硬件 >

監(jiān)督強(qiáng)化學(xué)習(xí)兩不誤：Facebook讓聊天機(jī)器人學(xué)會(huì)談判

人閱讀
2017-06-16 10:55:33
來(lái)源：雷鋒網(wǎng)
作者：雷鋒網(wǎng)
相關(guān)關(guān)鍵詞

監(jiān)督強(qiáng)化學(xué)習(xí)兩不誤：Facebook讓聊天機(jī)器人學(xué)會(huì)談判雷鋒網(wǎng)(公眾號(hào)：雷鋒網(wǎng))AI 科技評(píng)論按：目前人們對(duì)聊天機(jī)器人的認(rèn)識(shí)還在調(diào)戲微軟小冰的階段，可以明顯感覺(jué)到小冰不是很關(guān)心上下文之間的關(guān)聯(lián)。而且在我們的觀念里，聊天機(jī)器人也沒(méi)辦法真的理解人類(lèi)所說(shuō)的話，沒(méi)辦法跟人類(lèi)討論事情、明確地達(dá)到什么共同目標(biāo)。

不過(guò)，F(xiàn)acebook的人工智能研究機(jī)構(gòu)FAIR剛剛開(kāi)源并公開(kāi)發(fā)表的聊天機(jī)器人就開(kāi)始擁有了跟人類(lèi)進(jìn)行協(xié)商談判、進(jìn)行討價(jià)還價(jià)的能力。通過(guò)監(jiān)督學(xué)習(xí)+強(qiáng)化學(xué)習(xí)，這個(gè)聊天機(jī)器人不僅能理解字詞和語(yǔ)義的對(duì)應(yīng)關(guān)系，還能針對(duì)自己的目標(biāo)制定策略，跟別人進(jìn)行協(xié)商討論達(dá)成一致。

以下為雷鋒網(wǎng) AI 科技評(píng)論根據(jù)FAIR文章進(jìn)行的詳細(xì)介紹。

監(jiān)督學(xué)習(xí)×強(qiáng)化學(xué)習(xí)，F(xiàn)acebook讓聊天機(jī)器人學(xué)會(huì)談判

生活的每一天里，我們一睜眼就要不停地跟別人協(xié)商事情。要么是討論看哪個(gè)電視臺(tái)，要么是說(shuō)服家里小孩吃蔬菜，或者買(mǎi)東西的時(shí)候討價(jià)還價(jià)。這幾件事的共同點(diǎn)是，都需要復(fù)雜的交流和講理能力，而這些能力很難在計(jì)算機(jī)里見(jiàn)到。

發(fā)展到現(xiàn)在，聊天機(jī)器人方面的研究已經(jīng)可以形成聊天系統(tǒng)，它能進(jìn)行簡(jiǎn)短對(duì)話，能完成訂餐館這樣的簡(jiǎn)單任務(wù)。但是讓機(jī)器人跟人進(jìn)行有意義的對(duì)話還是很難的，因?yàn)檫@需要機(jī)器人把它對(duì)對(duì)話的理解和它對(duì)世界的知識(shí)進(jìn)行組合，然后再生成一句能幫它達(dá)到自己的目標(biāo)的句子。

今天，F(xiàn)acebook FAIR的研究員們開(kāi)源并公開(kāi)發(fā)表的聊天機(jī)器人有了一項(xiàng)新能力，這個(gè)新能力就是協(xié)商。

有著不同目標(biāo)的人類(lèi)之間會(huì)產(chǎn)生沖突，然后通過(guò)協(xié)商達(dá)成一種大家共同認(rèn)可的妥協(xié)，現(xiàn)在研究員們證明了聊天機(jī)器人也可以做到這些。具有不同目標(biāo)的聊天機(jī)器人（具體實(shí)現(xiàn)是端到端訓(xùn)練的神經(jīng)網(wǎng)絡(luò)）在一段從頭到尾的協(xié)商中，可以跟其它聊天機(jī)器人或者人類(lèi)一起做出共同的決定或者達(dá)到共同的目標(biāo)。

任務(wù)：多種類(lèi)討價(jià)還價(jià)

FAIR的研究員們研究了一種多種類(lèi)討價(jià)還價(jià)任務(wù)下的協(xié)商任務(wù)。給兩個(gè)智能體展示同一組物體（比如2本書(shū)，1個(gè)帽子，3個(gè)籃球），為了能把東西分給它們，就需要教它們協(xié)商自己分到的數(shù)目。

監(jiān)督學(xué)習(xí)×強(qiáng)化學(xué)習(xí)，F(xiàn)acebook讓聊天機(jī)器人學(xué)會(huì)談判

每個(gè)智能體都有自己的價(jià)值函數(shù)，它代表了智能體對(duì)每種物體的關(guān)心程度如何（比如在智能體1看來(lái)每個(gè)籃球值3分）。然后，就像生活中一樣，每個(gè)智能體都沒(méi)法確切知道別的智能體的價(jià)值函數(shù)，只能從對(duì)話中進(jìn)行推測(cè)（如果對(duì)方說(shuō)他想要籃球，那在他看來(lái)籃球的分值肯定比較高）。

FAIR的研究員們?cè)O(shè)計(jì)了很多類(lèi)似這樣需要協(xié)商的情境，而且始終不會(huì)讓兩個(gè)智能體同時(shí)達(dá)成自己最滿意的分法。以及，如果拒絕協(xié)商（或者如果10輪對(duì)話以后還沒(méi)達(dá)成一致），那么兩個(gè)智能體都會(huì)得0分。簡(jiǎn)單說(shuō)，進(jìn)行協(xié)商是關(guān)鍵，如果還協(xié)商到了一個(gè)好的結(jié)果那就得分更高。

對(duì)話推演（Dialog Rollouts）

協(xié)商是一個(gè)語(yǔ)言性和講理性的綜合問(wèn)題，其中的參與者要先形成自己的意圖，還要能用語(yǔ)言表達(dá)出來(lái)。合作和對(duì)抗的元素都會(huì)出現(xiàn)在這些對(duì)話中，這就需要智能體們理解并形成長(zhǎng)期計(jì)劃，然后據(jù)此進(jìn)行表達(dá)以便達(dá)到自己的目標(biāo)。

為了建立這種有長(zhǎng)期計(jì)劃能力的對(duì)話智能體，F(xiàn)AIR研究員們有一個(gè)核心的技術(shù)創(chuàng)新，他們把這個(gè)點(diǎn)子叫做“對(duì)話推演”（dialog rollouts）。

如果聊天機(jī)器人可以建立對(duì)談?wù)叩奶摂M模型然后“提前考慮”，或者預(yù)感到未來(lái)對(duì)話的可能方向，它們就可以選擇避開(kāi)沒(méi)有信息量的、引發(fā)困惑的或者糟糕的來(lái)回討論，轉(zhuǎn)而向著成功一些的方向去。

具體來(lái)說(shuō)，F(xiàn)AIR開(kāi)發(fā)出了對(duì)話推演這樣的新穎技術(shù)，一個(gè)使用這種技術(shù)的智能體可以一直模擬未來(lái)的對(duì)話到結(jié)尾，這樣它就可以選出可以在未來(lái)帶來(lái)最高收益的話語(yǔ)。

監(jiān)督學(xué)習(xí)×強(qiáng)化學(xué)習(xí)，F(xiàn)acebook讓聊天機(jī)器人學(xué)會(huì)談判

類(lèi)似的方法已經(jīng)在游戲環(huán)境中得到過(guò)應(yīng)用，但是用來(lái)解決語(yǔ)言問(wèn)題還是第一次，因?yàn)榭蛇x擇的行動(dòng)數(shù)目要多多了。為了提高效率，研究員們首先生成了一組數(shù)量不多的話語(yǔ)可供選擇，然后為了估計(jì)這些話語(yǔ)是否成功，他們對(duì)其中的每一條都反復(fù)模擬完整的后續(xù)對(duì)話。這個(gè)模型的預(yù)測(cè)準(zhǔn)確率足夠高，也要?dú)w功于這項(xiàng)技術(shù)從以下幾個(gè)方面顯著提升了協(xié)商水平：

協(xié)商時(shí)候更努力：這些新的智能體能跟人類(lèi)進(jìn)行更長(zhǎng)的對(duì)話，代價(jià)是對(duì)價(jià)碼的接受會(huì)慢一點(diǎn)。相比人類(lèi)有時(shí)候不達(dá)成一致就走掉了，這個(gè)實(shí)驗(yàn)中的模型會(huì)一直協(xié)商到取得成功的結(jié)果為止。
智能化的應(yīng)對(duì)：有時(shí)候會(huì)出現(xiàn)這樣的狀況，智能體一開(kāi)始會(huì)假裝對(duì)沒(méi)什么價(jià)值的東西感興趣，就為了后來(lái)可以放棄它們來(lái)表現(xiàn)出自己在“妥協(xié)”，這確實(shí)是一個(gè)人類(lèi)經(jīng)常使用的談判技巧。這種行為可不是研究員們?cè)O(shè)計(jì)給它們的，而是智能體在想辦法達(dá)成目標(biāo)的過(guò)程中自己發(fā)現(xiàn)的談判方法。
產(chǎn)生新穎的句子：盡管神經(jīng)網(wǎng)絡(luò)模型可以很輕松地從訓(xùn)練數(shù)據(jù)中重復(fù)一些句子，這項(xiàng)研究也展示出在有必要的時(shí)候模型也能自己生成一些句子。

建立及評(píng)價(jià)一個(gè)協(xié)商數(shù)據(jù)集

為了能夠訓(xùn)練協(xié)商智能體以及做大規(guī)模量化評(píng)估，F(xiàn)AIR團(tuán)隊(duì)用眾包的方法建立了一個(gè)人和人之間協(xié)商對(duì)話的數(shù)據(jù)集。其中參與的人看到了一組東西和每個(gè)東西的價(jià)值，然后要商量他們之間怎么分這些東西。然后研究員們就用這些對(duì)話訓(xùn)練出了一個(gè)能模仿人類(lèi)行為進(jìn)行協(xié)商的循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）。在對(duì)話中的任何時(shí)刻，這個(gè)模型都會(huì)猜測(cè)人類(lèi)在這種狀況下會(huì)說(shuō)什么。

在以前目標(biāo)導(dǎo)向的對(duì)話研究中，模型都是完全由人類(lèi)的語(yǔ)言和決定進(jìn)行“端到端”訓(xùn)練得到的，這意味著這種方法可以方便地用在其它任務(wù)中。

為了讓模型不僅僅停留在對(duì)人類(lèi)的模仿，F(xiàn)AIR的研究員們接下來(lái)讓模型轉(zhuǎn)而向完成協(xié)商的目標(biāo)發(fā)展。為了讓模型達(dá)到目標(biāo)，研究員們讓模型自己跟自己進(jìn)行了上千輪協(xié)商，并且用到了強(qiáng)化學(xué)習(xí)在得到好的結(jié)果的時(shí)候獎(jiǎng)勵(lì)模型。為了避免讓算法生成自己的一套語(yǔ)言，模型同時(shí)也要訓(xùn)練生成類(lèi)人的語(yǔ)言。

為了評(píng)價(jià)這些協(xié)商智能體，F(xiàn)AIR讓它們上網(wǎng)跟人類(lèi)聊天。之前的大多數(shù)研究都在避免跟真人聊天，或者研究的是難度更低的領(lǐng)域，這都是因?yàn)閷?duì)各種各種的人類(lèi)語(yǔ)言進(jìn)行回答需要訓(xùn)練復(fù)雜的模型。

有意思的是，在FAIR的實(shí)驗(yàn)中，多數(shù)人都沒(méi)發(fā)現(xiàn)跟他們聊天的不是真人，而是機(jī)器人，說(shuō)明機(jī)器人已經(jīng)學(xué)會(huì)如何在這個(gè)領(lǐng)域流暢地用英文進(jìn)行對(duì)話了。FAIR最優(yōu)秀的協(xié)商機(jī)器人就運(yùn)用了強(qiáng)化學(xué)習(xí)和對(duì)話推演，它的表現(xiàn)已經(jīng)可以跟人類(lèi)談判員相提并論。它達(dá)成的交易里，較好一些的和糟糕一些的差不多多，這也說(shuō)明了FAIR的聊天機(jī)器人不僅會(huì)說(shuō)英語(yǔ)，而且還能智能地考慮應(yīng)該說(shuō)什么。

用于聊天機(jī)器人的強(qiáng)化學(xué)習(xí)

監(jiān)督學(xué)習(xí)可以模仿人類(lèi)用戶的動(dòng)作，但是它沒(méi)法具體表現(xiàn)出達(dá)成目標(biāo)的意志。FAIR團(tuán)隊(duì)選了另一種方法，他們先用監(jiān)督學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練，然后用強(qiáng)化學(xué)習(xí)的方法結(jié)合評(píng)價(jià)指標(biāo)對(duì)模型進(jìn)行微調(diào)。以結(jié)果來(lái)說(shuō)，他們用監(jiān)督學(xué)習(xí)學(xué)到了如何把語(yǔ)言文字和意思相對(duì)應(yīng)，然后用強(qiáng)化學(xué)習(xí)幫助判斷說(shuō)什么語(yǔ)句。

在增強(qiáng)學(xué)習(xí)中，智能體會(huì)試著根據(jù)自己與另一個(gè)智能體之間的對(duì)話優(yōu)化自己的參數(shù)。不過(guò)同時(shí)這另一個(gè)智能體也可以是一個(gè)人，所以FAIR就用了一個(gè)訓(xùn)練過(guò)的監(jiān)督學(xué)習(xí)模型來(lái)模仿人類(lèi)。這個(gè)模仿人類(lèi)的模型是固定不變的，因?yàn)檠芯空邆儼l(fā)現(xiàn)如果兩個(gè)模型的參數(shù)都可以優(yōu)化的話，它們之間的對(duì)話就會(huì)偏離人類(lèi)的語(yǔ)言，演化出一種它們自己的談判語(yǔ)言。在每一場(chǎng)對(duì)話結(jié)束以后，智能體都會(huì)根據(jù)自己談成的結(jié)果得到獎(jiǎng)勵(lì)。這種獎(jiǎng)勵(lì)是用智能體整個(gè)過(guò)程里的所有語(yǔ)言輸出運(yùn)用策略梯度進(jìn)行反向傳播得到的，目的是為了讓智能體有更高的可能性選擇會(huì)有更高獎(jiǎng)勵(lì)的動(dòng)作。

期待更高發(fā)展

對(duì)Facebook來(lái)說(shuō)這是一項(xiàng)突破性的研究，對(duì)整個(gè)研究領(lǐng)域和機(jī)器人開(kāi)發(fā)者來(lái)說(shuō)，這是建立能講道理、交談、協(xié)商的機(jī)器人的重大進(jìn)展，而這幾項(xiàng)都是建立個(gè)性化數(shù)字助理的重要組成部分。

對(duì)FAIR的研究人員而言，他們也希望與其它的研究人員繼續(xù)共同討論研究成果、共同分析想要解決的問(wèn)題。他們也期待更多有才干的人投入想法和精力，推動(dòng)這個(gè)領(lǐng)域進(jìn)一步發(fā)展。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

下一篇

阿斯麥訂單“腰斬”股價(jià)暴跌16%，半導(dǎo)體產(chǎn)業(yè)寒冬來(lái)了？

阿斯麥訂單腰斬阿斯麥訂單阿斯麥股價(jià)暴跌

極客觀察

專題報(bào)道

企業(yè)專欄

簡(jiǎn)版
原版
投稿
回頂部

2017-06-16

監(jiān)督強(qiáng)化學(xué)習(xí)兩不誤：Facebook讓聊天機(jī)器人學(xué)會(huì)談判

目前人們對(duì)聊天機(jī)器人的認(rèn)識(shí)還在調(diào)戲微軟小冰的階段，可以明顯感覺(jué)到小冰不是很關(guān)心上下文之間的關(guān)聯(lián)。而且在我們的觀念里，聊天機(jī)器人也沒(méi)辦法真的理解人類(lèi)所說(shuō)的話，沒(méi)辦

長(zhǎng)按掃碼閱讀全文

<delect id="yaow6"><blockquote id="yaow6"></blockquote></delect>