精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<option id="g8iww"></option>

直播
榜單
7x24h快訊

極客網(wǎng) > 智能硬件 >

OpenAI最新成果：能預(yù)測亞馬遜評論中的下一個字符

人閱讀
2017-04-10 09:08:48
來源：雷鋒網(wǎng)
相關(guān)關(guān)鍵詞

雷鋒網(wǎng)4月7日消息，OpenAI在官網(wǎng)公布了一項最新的研究成果，介紹了一個可以高效學(xué)習(xí)情感表征的無監(jiān)督系統(tǒng)，目前能夠預(yù)測亞馬遜評論中的下一個字符。

研究人員采用了線性模型，在一個小型但是被廣泛采用的數(shù)據(jù)集（Standford Sentiment Treebank）上取得了非常高的情感分析準(zhǔn)確度：OpenAI得到的準(zhǔn)確度為91.8%，而之前最好的是90.2%。這一表現(xiàn)可以匹敵之前的監(jiān)督系統(tǒng)，而且少用了30~100倍的標(biāo)記樣本。

此外OpenAI表示，其模型的表征還包含了一個獨立的“情感神經(jīng)元（sentiment neuron）”，這個“情感神經(jīng)元”包含了幾乎所有的情感信號。

OpenAI稱，“我們的系統(tǒng)在使用極少訓(xùn)練數(shù)據(jù)的情況下，比起其它同樣用Stanford Sentiment Treebank測試的系統(tǒng)有著更好的結(jié)果。”

OpenAI

為了達到完全監(jiān)督學(xué)習(xí)的效果，OpenAI的模型選取了兩個變量來代表標(biāo)記的樣本（綠色和藍色的線條），每一個變量訓(xùn)練6920個樣本（灰色虛線）。OpenAI的L1正則化模型（利用亞馬遜的用戶評論以無監(jiān)督的方式進行預(yù)先訓(xùn)練）只用了11個標(biāo)記的樣本，其表現(xiàn)就能夠與多通道的CNN（卷積神經(jīng)網(wǎng)絡(luò)）相匹敵，而使用了232個訓(xùn)練樣本之后，其性能甚至達到了非常先進的CT-LSTM Ensembles的水平。

OpenAI稱，他們非常驚訝，因為模型學(xué)會了一個可以判斷的特征，除了預(yù)測亞馬遜用戶評論的下一個字符外，實際上還能引出情感的概念。OpenAI相信，這種現(xiàn)象不是這一模型所特有的，而是一些大型神經(jīng)網(wǎng)絡(luò)的一般性質(zhì)（共性），這些大型神經(jīng)網(wǎng)絡(luò)通常被訓(xùn)練用來預(yù)測輸入中的下一步驟或者下一維度。

訓(xùn)練方法

雷鋒網(wǎng)了解到，OpenAI首先利用亞馬遜上的8200萬條用戶評論，訓(xùn)練了一個有4096個單元的乘性LSTM（multiplicative LSTM，簡稱mLSTM），來預(yù)測一小段文本中的下一個字符。團隊采用了4塊英偉達的Pascal GPU，每小時能夠處理12500個字符，訓(xùn)練總共花了一個月的時間。

這4096個單元（其實是浮點數(shù)組成的向量）可以看成是模型讀取的字符串的特征向量。在訓(xùn)練mLSTM之后，OpenAI將這些單元進行線性組合，通過現(xiàn)有的監(jiān)督數(shù)據(jù)學(xué)習(xí)組合的權(quán)重，將原本的模型變成了情感分類器。

情感神經(jīng)元

在用L1正則化訓(xùn)練線性模型的同時，令人驚訝的是，OpenAI注意到它使用的學(xué)習(xí)單元其實非常少。進一步挖掘后，研究人員意識到模型中實際上存在著一種可以精準(zhǔn)預(yù)測情緒值的“情感神經(jīng)元”。

OpenAI

盡管這一模型僅被訓(xùn)練用來預(yù)測文本中的下一個字符，但是模型中的情感神經(jīng)元卻可以將評論歸為負面或者正面兩類。

和其他類似的模型一樣，OpenAI的模型可以用來生成文本；但不同的地方在于，OpenAI可以通過重寫神經(jīng)元的值來控制合成文字的情感。

OpenAI

上圖是訓(xùn)練模型生成的合成文本的示例。研究人員先確定情感神經(jīng)元的值，然后從模型中隨機選擇樣本，以確定評論中的情感。如下圖所示，研究人員還通過模型傳遞前綴“I couldn’t figure out（我搞不清楚）”，然后只選擇高度相似的樣本。

OpenAI

示例

下圖表示情感神經(jīng)元代表的每個字符的值，紅色的為負，綠色為正。其中“best（最好）”或者“horrendous（可怕的）”這樣有強烈指示性的詞語則會用更深的顏色重點標(biāo)記。

OpenAI

值得注意的是，在完成句子和短語之后，系統(tǒng)會進行大量更新。例如，在“And about 99.8 percent of that got lost in the film”中，即使“in the film”本身沒有任何情緒內(nèi)容，但是在“lost”之后模型會進行一次負面更新，而在句子結(jié)束后還會有一次大的更新。

無監(jiān)督學(xué)習(xí)

有標(biāo)記的數(shù)據(jù)是機器學(xué)習(xí)的燃料。收集數(shù)據(jù)很容易，但是想要大規(guī)模地標(biāo)記數(shù)據(jù)則很困難。只有在機器翻譯、語音識別或者自動駕駛等具有切實效果和回報的領(lǐng)域，大規(guī)模地標(biāo)記數(shù)據(jù)才是切實可行的。

長久以來，機器學(xué)習(xí)領(lǐng)域的研究人員一直夢想著開發(fā)出能夠?qū)W習(xí)數(shù)據(jù)集的準(zhǔn)確表征的無監(jiān)督學(xué)習(xí)算法，希望用很少的標(biāo)記數(shù)據(jù)就能夠解決問題。OpenAI的研究意味著，在創(chuàng)建具有優(yōu)秀表征學(xué)習(xí)能力的系統(tǒng)時，簡單地利用大量數(shù)據(jù)訓(xùn)練大型無監(jiān)督下一步預(yù)測模型（next-step-prediction model）很可能是一種不錯的方法。

下一步

OpenAI的研究成果代表通用無監(jiān)督表征學(xué)習(xí)又向前邁進了一步。研究人員在探索是否可以通過語言建模來學(xué)習(xí)高質(zhì)量的表征時意外發(fā)現(xiàn)了這一結(jié)果，并在經(jīng)過仔細選擇的數(shù)據(jù)集上擴大了這個現(xiàn)有模型。然而，目前研究人員還不清楚這個潛在的現(xiàn)象的具體成因。

這些結(jié)果在長文檔的數(shù)據(jù)上的表現(xiàn)并不是很好。OpenAI猜測，他們的模型難以記住數(shù)百乃至數(shù)千個時間步長的信息。他們認為，下一步可以嘗試采用層次模型（hierarchical model），因為層次模型可以自適應(yīng)相應(yīng)的時間尺度。進一步擴展這些模型，還可能進一步提高表征保真度（ representation fidelity ），以及在情感分析和類似任務(wù)方面的表現(xiàn)。

當(dāng)輸入文本和評論數(shù)據(jù)的差別越大時，該模型的表現(xiàn)就越差。值得驗證的是，擴展文本樣本的語料庫能否獲得適用于更廣泛領(lǐng)域的同等信息量的表征？

OpenAI的研究結(jié)果表明，大型的下一步預(yù)測模型能夠?qū)W會出色的無監(jiān)督表征。利用大規(guī)模的視頻集訓(xùn)練一個大型的神經(jīng)網(wǎng)絡(luò)來預(yù)測下一幀畫面，可能會得到對目標(biāo)、場景、動作分類器的無監(jiān)督表征。

總的來說，理解模型、訓(xùn)練方式、以及數(shù)據(jù)集的屬性是很重要的，因為它很可能會得到同樣出色的表征。

極客網(wǎng)企業(yè)會員

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

下一篇

阿斯麥訂單“腰斬”股價暴跌16%，半導(dǎo)體產(chǎn)業(yè)寒冬來了？

阿斯麥訂單腰斬阿斯麥訂單阿斯麥股價暴跌

極客觀察

專題報道

企業(yè)專欄

簡版
原版
投稿
回頂部

2017-04-10

OpenAI最新成果：能預(yù)測亞馬遜評論中的下一個字符

雷鋒網(wǎng)4月7日消息，OpenAI在官網(wǎng)公布了一項最新的研究成果，介紹了一個可以高效學(xué)習(xí)情感表征的無監(jiān)督系統(tǒng)，目前能夠預(yù)測亞馬遜評論中的下一個字符。

長按掃碼閱讀全文

<center id="asawk"><th id="asawk"></th></center>

<blockquote id="asawk"></blockquote>

<input id="asawk"></input>

<dl id="asawk"></dl>

<table id="asawk"><source id="asawk"></source></table>