精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    谷歌神經(jīng)機(jī)器翻譯 沒見過的語言也能翻譯

    谷歌剛剛在博客中宣布,谷歌神經(jīng)機(jī)器翻譯系統(tǒng)進(jìn)行了重大更新,實(shí)現(xiàn)了用單一模型對(duì)多語種通用表征。系統(tǒng)還實(shí)現(xiàn)“零數(shù)據(jù)翻譯”,也即能夠在從來沒有見過的語言之間進(jìn)行翻譯。這意味著傳說中的“巴別塔”有望成真。而國內(nèi)的那些百度、科大訊飛們又不小心被甩出了10萬公里遠(yuǎn)。至少從公開的信息中是這樣子的。

    過去10年中,谷歌翻譯已從僅支持幾種語言發(fā)展到了支持103種,每天翻譯超過了1400億字。為了實(shí)現(xiàn)這一點(diǎn),我們需要構(gòu)建和維護(hù)許多不同的系統(tǒng),以便在任何兩種語言之間進(jìn)行轉(zhuǎn)換,由此產(chǎn)生了巨大的計(jì)算成本。

    神經(jīng)網(wǎng)絡(luò)改革了許多領(lǐng)域,我們確信可以進(jìn)一步提高翻譯質(zhì)量,但這樣做意味著重新思考谷歌翻譯背后的技術(shù)。

    今年 9 月,谷歌翻譯改為啟用谷歌神經(jīng)機(jī)器翻譯(GNMT)的新系統(tǒng),這是一個(gè)端到端的學(xué)習(xí)框架,可以從數(shù)百萬個(gè)示例中學(xué)習(xí),并在翻譯質(zhì)量方面有顯著提升。

    不過,雖然啟用GNMT的幾種語言翻譯質(zhì)量得到了提升,但將其擴(kuò)展到所有 103 種谷歌翻譯支持的語種,卻是一個(gè)重大的挑戰(zhàn)。

    實(shí)現(xiàn)零數(shù)據(jù)翻譯(Zero-Shot Translation)

    在論文《谷歌多語言神經(jīng)機(jī)器翻譯系統(tǒng):實(shí)現(xiàn)零數(shù)據(jù)翻譯》(Google s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation)中,我們通過擴(kuò)展以前的 GNMT系統(tǒng)解決這一挑戰(zhàn),使單個(gè)系統(tǒng)能夠在多種語言之間進(jìn)行翻譯。

    我們提出的架構(gòu)不需要改變基本的 GNMT 系統(tǒng),而是在輸入句子的開頭使用附加的“token”,指定系統(tǒng)將要翻譯的目標(biāo)語言。 除了提高翻譯質(zhì)量,我們的方法還實(shí)現(xiàn)了“Zero-Shot Translation”,也即在沒有先驗(yàn)數(shù)據(jù)的情況下,讓系統(tǒng)對(duì)從未見過的語言進(jìn)行翻譯。

    下圖展示了最新 GNMT 的工作原理。假設(shè)我們使用日語和英語以及韓語和英語之間相互翻譯為例,訓(xùn)練一個(gè)多語言系統(tǒng),如動(dòng)畫中藍(lán)色實(shí)線所示。

      這個(gè)新的多語言系統(tǒng)與單個(gè) GNMT 系統(tǒng)大小一樣,參數(shù)也一樣,能夠在日英和韓英這兩組語言對(duì)中進(jìn)行雙語翻譯。參數(shù)共享使系統(tǒng)能夠?qū)ⅰ胺g知識(shí)”(translation knowledge)從一個(gè)語言對(duì)遷移到其他語言對(duì)。這種遷移學(xué)習(xí)和在多種語言之間進(jìn)行翻譯的需要,迫使系統(tǒng)更好地利用其建模能力。

    由此,我們想到:能夠讓系統(tǒng)在從未見過的語言對(duì)之間進(jìn)行翻譯嗎?例如韓語和日語之間的翻譯,系統(tǒng)并沒有接受過日韓之間翻譯的訓(xùn)練。

    但答案是肯定的——雖然從來沒有教過它但,新的系統(tǒng)確實(shí)能夠生成日韓兩種語言之間合理的翻譯。我們將其稱為“零數(shù)據(jù)”(zero-shot)翻譯,如動(dòng)畫中的黃色虛線所示。據(jù)我們所知,這還是首次將這種類型的遷移學(xué)習(xí)應(yīng)用機(jī)器翻譯中。

    零數(shù)據(jù)翻譯的成功帶來了另一個(gè)重要的問題:系統(tǒng)是否學(xué)會(huì)了一種通用的表征,其中不同語言中具有相同意義的句子都以類似的方式表示,也即所謂的“國際通用語”(interlingua)?

    使用內(nèi)部網(wǎng)絡(luò)數(shù)據(jù)的三維表征,我們能夠看見系統(tǒng)在翻譯日語、韓語和英語這幾種語言時(shí),在各種可能的語言對(duì)之間進(jìn)行轉(zhuǎn)換(比如日語到韓語、韓語到英語、英語到日語等等)時(shí),內(nèi)部發(fā)生的情況。

      上圖中的(a)部分顯示了這些翻譯的總體幾何構(gòu)成。圖中不同顏色的點(diǎn)代表不同的意思;意思相同的一句話,從英語翻譯為韓語,與從日語翻譯為英語的顏色相同。我們可以從上圖中看到不同顏色的點(diǎn)各自形成的集合(group)。

    (b)部分是這些點(diǎn)集的其中一個(gè)放大后的結(jié)果,(c)部分則由原語言的顏色所示。在單個(gè)點(diǎn)集中,我們能夠看到日韓英三種語言中,擁有相同含義的句子聚在一起。

    這意味著網(wǎng)絡(luò)必定是對(duì)句子的語義進(jìn)行編碼,而不是簡單地記住短語到短語之間的翻譯。由此,我們認(rèn)為這代表了網(wǎng)絡(luò)中存在了一種國際通用語(interlingua)。

    我們?cè)谡撐闹羞€寫下了更多的結(jié)果和分析,希望這些的發(fā)現(xiàn)不僅能夠幫助從事機(jī)器學(xué)習(xí)或機(jī)器翻譯的研究人員,還能對(duì)于語言學(xué)家和對(duì)使用單一系統(tǒng)處理多語言感興趣的人有用。

    最后,上述多語言谷歌神經(jīng)機(jī)器翻譯系統(tǒng)(Multilingual Google Neural Machine Translation)從今天開始將陸續(xù)為所有谷歌翻譯用戶提供服務(wù)。當(dāng)前的多語言系統(tǒng)能夠在最近推出的16個(gè)語言對(duì)中的 10 對(duì)中進(jìn)行轉(zhuǎn)化,提高了翻譯質(zhì)量,并且簡化了生產(chǎn)架構(gòu)。

    商業(yè)部署后,實(shí)現(xiàn)技術(shù)上的突破

    正如前文所說,今年 9 月,谷歌宣布對(duì)部分語種啟用谷歌神經(jīng)機(jī)器翻譯(GNMT)的新系統(tǒng),并在幾種率先使用的測(cè)試語種(包括漢語)翻譯質(zhì)量方面得到了顯著提升。

    下面的動(dòng)圖展示了 GNMT 進(jìn)行漢英翻譯的過程。首先,網(wǎng)絡(luò)將漢字(輸入)編碼成一串向量,每個(gè)向量代表了當(dāng)前讀到它那里的意思(即 e3 代表“知識(shí)就是”,e5 代表“知識(shí)就是力量”)。整句話讀完之后開始解碼,每次生成一個(gè)作為輸出的英語單詞(解碼器)。

    要每一步生成一個(gè)翻譯好的英語單詞,解碼器需要注意被編碼中文向量的加權(quán)分布中,與生成英語單詞關(guān)系最為密切的那個(gè)(上圖中解碼器 d 上面多條透明藍(lán)線中顏色最深的那條),解碼器關(guān)注越多,藍(lán)色越深。

    使用人類對(duì)比評(píng)分指標(biāo),GNMT 系統(tǒng)生成的翻譯相比此前有了大幅提高。在幾種重要語言中,GNMT 將翻譯錯(cuò)誤降低了 55%-58%。

    不過, 當(dāng)時(shí)也有很多研究人員認(rèn)為,當(dāng)時(shí)谷歌翻譯取得的“里程碑”,與其說是技術(shù)突破,不如說是工程上的勝利——大規(guī)模部署本身確實(shí)需要軟硬件方面超強(qiáng)的實(shí)力,尤其是想谷歌翻譯這樣支持 1 萬多種語言的商業(yè)應(yīng)用,對(duì)速度和質(zhì)量的要求都非常的高。但是,神經(jīng)機(jī)器翻譯的技術(shù)早已存在,借鑒了語言和圖像處理方面的靈感,是多種技術(shù)的整合。

    現(xiàn)在,只用了大約 2 個(gè)月的時(shí)間(論文首次上傳到 arXiv 是 11 月 14 日),谷歌翻譯和谷歌大腦團(tuán)隊(duì)就實(shí)現(xiàn)了技術(shù)上的突破——讓系統(tǒng)在從未見過的語言對(duì)之間進(jìn)行翻譯,也即所謂的“zero-shot translation”。

    不僅如此,谷歌研究人員還在論文最后做了分析,新的模型代表了實(shí)現(xiàn)一種“國際通用語”模型的可能。有評(píng)論稱, 這可以說是實(shí)現(xiàn)“巴別塔”的第一步。

    谷歌神經(jīng)機(jī)器翻譯系統(tǒng)架構(gòu)

    就在幾天前,國外研究員 Smerity 在他的博客上發(fā)布了一篇分析谷歌神經(jīng)機(jī)器翻譯(GNMT)架構(gòu)的文章,在 HackerNews、Reddit 等網(wǎng)站都引發(fā)了很多討論。

    Smerity 在博文中指出,GNMT 的架構(gòu)并不標(biāo)準(zhǔn),而且在很多情況下偏離主流學(xué)術(shù)論文中提出的架構(gòu)。但是,根據(jù)谷歌特定的需求,谷歌修改了系統(tǒng),重點(diǎn)保證系統(tǒng)的實(shí)用性而并非追求頂尖結(jié)果。

    【論文】谷歌的多語言神經(jīng)機(jī)器翻譯系統(tǒng):實(shí)現(xiàn) zero-shot 翻譯

    摘要如下:

    我們提出了一種使用單一神經(jīng)機(jī)器翻譯(NMT)模型,在多語種之間進(jìn)行翻譯簡潔而優(yōu)雅的解決方案。不需要修改谷歌現(xiàn)有的基礎(chǔ)系統(tǒng)模型架構(gòu),而是在輸入句子的前面加入人工 標(biāo)記(token)明確其要翻譯成的目標(biāo)語言。

    模型的其他部分(包括編碼器、解碼器和注意模型)保持不變,而且可以在所有語言上共享。使用一個(gè)共享的 wordpiece vocabulary,這種方法能夠使用單一模型實(shí)現(xiàn)多語種神經(jīng)機(jī)器翻譯,而不需要增加參數(shù),相比此前提出的方法更為簡單。

    實(shí)驗(yàn)表明,這種新的方法大部分時(shí)候能提升所有相關(guān)語言對(duì)的翻譯質(zhì)量,同時(shí)保持總的模型參數(shù)恒定。

    在 WMT' 14 基準(zhǔn)上,單一多語言模型在英法雙語翻譯上實(shí)現(xiàn)了與當(dāng)前最好技術(shù)相同的結(jié)果,并在英德雙語翻譯上超越當(dāng)前最佳的結(jié)果。

    同時(shí),單一多語言模型分別在 WMT'14 和 WMT'15 基準(zhǔn)上,超越了當(dāng)前最佳的法英和德英翻譯結(jié)果。 在用于生產(chǎn)的語料庫上,多達(dá) 12 個(gè)語言對(duì)的多語言模型能夠?qū)崿F(xiàn)比許多單獨(dú)的語言對(duì)更好的表現(xiàn)。

    除了提升該模型訓(xùn)練所用的語言對(duì)的翻譯質(zhì)量之外,新的模型還能在訓(xùn)練過程中將沒有見過的語言對(duì)相互聯(lián)系起來(bridging),表明用于神經(jīng)翻譯的遷移學(xué)習(xí)和零數(shù)據(jù)翻譯是可能的。

    最后,我們分析了最新模型對(duì)通用語言間表征的跡象,還展示了一些混合語言時(shí)會(huì)出現(xiàn)的有趣案例。

    極客網(wǎng)企業(yè)會(huì)員

    免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

    2016-11-24
    谷歌神經(jīng)機(jī)器翻譯 沒見過的語言也能翻譯
    谷歌剛剛在博客中宣布,谷歌神經(jīng)機(jī)器翻譯系統(tǒng)進(jìn)行了重大更新,實(shí)現(xiàn)了用單一模型對(duì)多語種通用表征。系統(tǒng)還實(shí)現(xiàn)“零數(shù)據(jù)翻譯”,也即能夠在從來沒有見過的語言之間進(jìn)行翻譯。這意味著傳說中的“巴別塔”有望成真。而國內(nèi)的那些百度、科大訊飛們又不小心被甩出了10萬公里遠(yuǎn)。至少從公開的信息中是這樣子的。

    長按掃碼 閱讀全文