原標(biāo)題:低資源神經(jīng)機(jī)器翻譯MetaNMT :來(lái)自MAML與NLP的溫柔救贖
過(guò)去十年,隨著Attention模型、LSTM、記憶Memory等等方法的出現(xiàn),尤其是在神經(jīng)網(wǎng)絡(luò)的加持下,機(jī)器翻譯的水平取得了長(zhǎng)足的進(jìn)步。
在英法、中英這樣的大語(yǔ)種(Rich Language)翻譯任務(wù)上,機(jī)器的表現(xiàn)幾乎可以媲美人類的水平,甚至已經(jīng)開始登堂入室,承接了不少國(guó)際大會(huì)的翻譯業(yè)務(wù),讓人類翻譯感受到了深深的失業(yè)焦慮。
然而,神經(jīng)機(jī)器翻譯(NMT)的成功往往依賴于大量高質(zhì)量的雙語(yǔ)語(yǔ)料作為訓(xùn)練數(shù)據(jù)。如果是蒙古語(yǔ)、印度語(yǔ)這些小語(yǔ)種,無(wú)法提供足夠多的雙語(yǔ)數(shù)據(jù),更極端的現(xiàn)實(shí)情況是,有些語(yǔ)言幾乎沒(méi)有任何雙語(yǔ)預(yù)料,這種情況下NMT就無(wú)能為力了。
標(biāo)注數(shù)據(jù)資源的貧乏問(wèn)題,一直沒(méi)有什么好的解決辦法。因此,來(lái)自香港大學(xué)、紐約大學(xué)的研究人員Jiatao Gu、Yong Wang等人所提出的新神經(jīng)機(jī)器翻譯方法MetaNMT,論文一經(jīng)發(fā)表,就憑借在低資源神經(jīng)機(jī)器翻譯(NMT)上的優(yōu)異性能表現(xiàn)驚艷了學(xué)界,成為2018年最具影響力的NLP創(chuàng)新之一。
論文不僅被NLP領(lǐng)域領(lǐng)先的會(huì)議EMNLP收錄,還拿下了Facebook的低資源神經(jīng)機(jī)器翻譯獎(jiǎng)。今天,我們就來(lái)看看MetaNMT方法究竟有何過(guò)人之處?
什么是MetaNMT算法?
簡(jiǎn)單來(lái)說(shuō),MetaNMT算法就是將元學(xué)習(xí)算法(MAML),用于低資源神經(jīng)機(jī)器翻譯(NMT)中,將翻譯問(wèn)題建構(gòu)為元學(xué)習(xí)問(wèn)題,從而解決低資源語(yǔ)言語(yǔ)料匱乏的難題。
研究人員先使用許多高資源語(yǔ)言(比如英語(yǔ)和法語(yǔ)),訓(xùn)練出了一個(gè)表現(xiàn)極佳的初始參數(shù),然后使構(gòu)建一個(gè)所有語(yǔ)言的詞匯表。再以初始參數(shù)/模型為基礎(chǔ),訓(xùn)練低資源語(yǔ)言的翻譯(比如英語(yǔ)VS希伯來(lái)語(yǔ),法語(yǔ)VS希伯來(lái)語(yǔ))。在此基礎(chǔ)上進(jìn)行進(jìn)一步優(yōu)化初始模型,最終得到的模型就可以很好地提升小語(yǔ)種翻譯模型的性能。
具體到實(shí)驗(yàn)中,研究人員使用十八種歐洲語(yǔ)言所訓(xùn)練的元學(xué)習(xí)策略,被應(yīng)用在以五種小語(yǔ)種語(yǔ)言(Ro,Lv,F(xiàn)i,Tr和Ko)為目標(biāo)的任務(wù)中。結(jié)果證明,通過(guò)16000個(gè)翻譯單詞(約600個(gè)并行句子),羅馬尼亞語(yǔ)-英語(yǔ)WMT'16上實(shí)現(xiàn)高達(dá)22.04 BLEU。
數(shù)據(jù)顯示,MetaNMT訓(xùn)練出的系統(tǒng),表現(xiàn)要明顯優(yōu)于基于多語(yǔ)言遷移學(xué)習(xí)。這意味著只需要一小部分的訓(xùn)練樣例,我們就能訓(xùn)練出效果更好的NMT系統(tǒng),很多語(yǔ)料庫(kù)非常小的語(yǔ)言,機(jī)器翻譯時(shí)也不會(huì)再一籌莫展或者胡言亂語(yǔ)了。
NLP的神助攻:元學(xué)習(xí)強(qiáng)在何處?
MetaNMT之所以取得如此良好的效果,核心就在于引入的MAML(Model Agnostic Meta Learning),即與模型無(wú)關(guān)的元學(xué)習(xí)方法。
簡(jiǎn)單來(lái)說(shuō),元學(xué)習(xí)就是要讓智能體利用以往的知識(shí)經(jīng)驗(yàn)“學(xué)會(huì)如何學(xué)習(xí)”(Learning to learn),然后更高效地完成新任務(wù)。
傳統(tǒng)NLP任務(wù)中常用的遷移學(xué)習(xí)(transfer leaning)或多任務(wù)學(xué)習(xí)(Multi-Task Learning),輸入端訓(xùn)練得到的編碼器(Encoder)會(huì)直接轉(zhuǎn)化為對(duì)應(yīng)的向量表示序列,直指目標(biāo)任務(wù)。而MetaNMT則是通過(guò)高資源語(yǔ)言系統(tǒng)的訓(xùn)練得到一個(gè)獨(dú)立于原任務(wù)的通用策略方法,再讓極低資源的語(yǔ)言系統(tǒng)根據(jù)這種學(xué)習(xí)方法,并反復(fù)地模擬訓(xùn)練。
過(guò)去,元學(xué)習(xí)一直被用來(lái)進(jìn)行小樣本學(xué)習(xí)、通用機(jī)器人等訓(xùn)練中,MetaNMT的提出,也是MAML第一次在NLP領(lǐng)域成功應(yīng)用。那么,未來(lái)隨著元學(xué)習(xí)的加入,NLP領(lǐng)域會(huì)產(chǎn)生哪些可能的變化呢?
首先,降低NLP任務(wù)的研究門檻。
深度增強(qiáng)學(xué)習(xí)需要的訓(xùn)練數(shù)據(jù)量規(guī)模越來(lái)越大,游戲等動(dòng)態(tài)任務(wù)環(huán)境所涉及的獎(jiǎng)勵(lì)機(jī)制也日趨復(fù)雜。在StyleGAN、BERT等“巨無(wú)霸”模型的爭(zhēng)奪下,GPU/TPU計(jì)算時(shí)長(zhǎng)變得極其昂貴,NLP儼然快要成為土豪大公司才有資格玩的游戲了。
與之相比,通過(guò)少量樣本資源就能學(xué)會(huì)新概念的元學(xué)習(xí)方法,可以只使用少量的梯度迭代步來(lái)解決新的學(xué)習(xí)任務(wù),就顯得平易近人很多。
其次,提升NLP任務(wù)的學(xué)習(xí)效率。
傳統(tǒng)的數(shù)據(jù)集更新周期長(zhǎng),往往需要根據(jù)新任務(wù)進(jìn)行改造和再編輯。而元學(xué)習(xí)就改變了這一現(xiàn)狀。先讓系統(tǒng)接觸大量的任務(wù)進(jìn)行訓(xùn)練,再?gòu)闹袑W(xué)會(huì)完成新任務(wù)的方法,可以快速(只需少量步驟)高效(只使用幾個(gè)例子)地應(yīng)用于廣泛的NLP任務(wù)中。
尤其是在特定領(lǐng)域?qū)υ捪到y(tǒng)、客服系統(tǒng)、多輪問(wèn)答系統(tǒng)等任務(wù)中,在用戶的使用過(guò)程中就可以收集豐富的信息,讓系統(tǒng)在動(dòng)態(tài)學(xué)習(xí)中構(gòu)建越來(lái)越強(qiáng)大的性能。
除此之外,元學(xué)習(xí)還能幫助NLP實(shí)現(xiàn)個(gè)性化、智能化進(jìn)階。
特定用戶可以根據(jù)已有的知識(shí)經(jīng)驗(yàn)和認(rèn)知結(jié)構(gòu)與元學(xué)習(xí)系統(tǒng)之間建立聯(lián)系,通過(guò)不同個(gè)體的動(dòng)態(tài)交互與信息反饋等,元學(xué)習(xí)系統(tǒng)可以不斷豐富和修正自身的知識(shí)網(wǎng)絡(luò)和輸出效果,最終使得構(gòu)建個(gè)性化產(chǎn)品變得更加方便快捷,高智能交互也因此成為可能。
總而言之,F(xiàn)ew-Shot(低資源)、Fast Adaptation(高適應(yīng)性)、Reusability(重用性)等特點(diǎn),使得元學(xué)習(xí)的價(jià)值前所未有地清晰起來(lái),某種程度上也代表了NLP接下來(lái)的研究方向。
道阻且長(zhǎng):NLP的進(jìn)化之路
既然元學(xué)習(xí)之于NLP領(lǐng)域意義重大,為什么直到現(xiàn)在才出現(xiàn)了一個(gè)成功案例呢?這恐怕還要從低資源型語(yǔ)言的研究現(xiàn)狀說(shuō)起。
前面提到,驗(yàn)證元學(xué)習(xí)系統(tǒng)性能最好的方式,就是將其放到低資源任務(wù)中,看看是否和大規(guī)模任務(wù)一樣出色。但這么做有個(gè)前提,就是能夠建立起對(duì)應(yīng)的數(shù)據(jù)集。然而這對(duì)稀缺資源的小語(yǔ)種來(lái)說(shuō),也不是件容易的事。
以MetaNMT為例,就為各個(gè)語(yǔ)言建立了詞匯表。其中的低資源型目標(biāo)任務(wù),土耳其語(yǔ)、拉脫維亞語(yǔ)、羅馬尼亞語(yǔ)、芬蘭語(yǔ)等等,就是通過(guò)16000個(gè)翻譯單詞(約600個(gè)并行句子)完成的,這已經(jīng)是目前神經(jīng)機(jī)器翻譯的極限了。
然而全世界6000多種語(yǔ)言中,80%人口講的都是主要的83種語(yǔ)言,剩下的有30%都處在語(yǔ)料資源極度匱乏的狀態(tài),而且絕大多數(shù)沒(méi)有任何文字記載,有的甚至使用者不足十人。缺乏相關(guān)的數(shù)據(jù)集,往往只有少量文本可供使用,成為阻礙小語(yǔ)種機(jī)器翻譯最大的攔路虎。即使有元學(xué)習(xí)這樣的神兵利器,也沒(méi)有用武之地。
而近年來(lái),情況正在發(fā)生一些積極的變化。
一方面越來(lái)越多的人開始重視瀕危語(yǔ)言保護(hù)問(wèn)題,出現(xiàn)了公益化的語(yǔ)料收集項(xiàng)目和相關(guān)數(shù)據(jù)庫(kù),大大降低了小語(yǔ)種的研究難度。比如南非數(shù)字語(yǔ)言資源中心(SADiLaR),已經(jīng)能夠提供許多南非的語(yǔ)言資源;
另外,NLP研究的發(fā)展,也激發(fā)了更多的人創(chuàng)建并開放出極低資源語(yǔ)料數(shù)據(jù)集,為跨語(yǔ)言模型開發(fā)、低資源語(yǔ)言訓(xùn)練等提供了可能性。
比如FAIR 和紐約大學(xué)的研究者合作開發(fā)的一個(gè)自然語(yǔ)言推斷語(yǔ)料庫(kù) XNLI,將 MultiNLI 的測(cè)試集和開發(fā)集擴(kuò)展到 15 種語(yǔ)言,里面就包含了斯瓦西里語(yǔ)和烏爾都語(yǔ)等低資源語(yǔ)言。
目前看來(lái),MetaNMT之所以備受褒獎(jiǎng),并不是因?yàn)樗怀鍪志腿〉昧耸裁凑阎翗O的效果。它的價(jià)值,更多的是作為一種靈感和理念,去傳達(dá)技術(shù)的本質(zhì),引領(lǐng)更具價(jià)值的理想化的創(chuàng)造。
NLP的進(jìn)步,不應(yīng)來(lái)自于堆砌資源和規(guī)模,不應(yīng)只停留在本就飽和的領(lǐng)域,而是構(gòu)建出真正無(wú)障礙的語(yǔ)言系統(tǒng)。讓說(shuō)著匱乏型語(yǔ)言的人們,也能夠閱讀非母語(yǔ)的新聞,或者在遇到問(wèn)題時(shí)求助于可靠的專家系統(tǒng)。
如果技術(shù)不去往那些真正的荒蕪之地,又有什么意義?
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購(gòu)和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營(yíng)
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過(guò)熱挑戰(zhàn),交付延期引發(fā)市場(chǎng)關(guān)注
- 馬斯克能否成為 AI 部部長(zhǎng)?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無(wú)人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測(cè)量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車整車股盤初強(qiáng)勢(shì)拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。