在機(jī)器翻譯領(lǐng)域深耕了近十年的網(wǎng)易有道,再次給人們帶來了驚喜。
近日,網(wǎng)易有道在GMIC(全球移動(dòng)互聯(lián)網(wǎng)大會(huì))未來創(chuàng)新峰會(huì)上公布:由網(wǎng)易公司自主研發(fā)的神經(jīng)網(wǎng)絡(luò)翻譯( Neural Machine Translation,以下簡稱NMT)技術(shù)正式上線。作為受到丁磊親自“過問”、網(wǎng)易最重要技術(shù)創(chuàng)新之一,此次在有道上線的NMT技術(shù),由網(wǎng)易有道與網(wǎng)易杭州研究院歷時(shí)兩年合力研發(fā),將服務(wù)于有道詞典、有道翻譯官、有道翻譯網(wǎng)頁版、有道e讀等產(chǎn)品;這不但意味著借力于NMT技術(shù),有道產(chǎn)品在語言翻譯質(zhì)量方面將有巨大的提升——超過7億用戶將享受到NMT帶來的高效與便利,更意味著低調(diào)務(wù)實(shí)的網(wǎng)易,早已在人工智能的領(lǐng)域未雨綢繆,并早于業(yè)界實(shí)現(xiàn)人工智能技術(shù)在更廣泛網(wǎng)民中的深度使用。
人工智能改變翻譯讓翻譯更“聰明”
深度學(xué)習(xí)是推動(dòng)當(dāng)前人工智能熱潮最關(guān)鍵的技術(shù),它首先在圖像、音頻等感知領(lǐng)域獲得了巨大成功,目前在語言方面的應(yīng)用也獲得了長足的進(jìn)展。
而神經(jīng)網(wǎng)絡(luò)翻譯就是深度學(xué)習(xí)在機(jī)器翻譯領(lǐng)域的具體應(yīng)用。
作為目前機(jī)器翻譯領(lǐng)域最前沿的技術(shù),神經(jīng)網(wǎng)絡(luò)翻譯采用獨(dú)到的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),能夠?qū)Ψg的全過程整體建模;與統(tǒng)計(jì)翻譯模型(SMT)相比,神經(jīng)網(wǎng)絡(luò)翻譯模型更像一個(gè)有機(jī)體。
NMT對(duì)整個(gè)句子進(jìn)行編碼,能夠更充分地利用上下文信息,判定多義詞的詞義,生成更高質(zhì)量的譯文。最直觀的一點(diǎn)就是,NMT譯文的句子結(jié)構(gòu)完整,語序更接近人類語言使用習(xí)慣,翻譯結(jié)果更加通順;而SMT則像由多個(gè)組件構(gòu)成的機(jī)器,每個(gè)組件完成各自的目標(biāo),但“拼接”出來的翻譯結(jié)果,常常不盡人意。
NMT翻譯原理
如果從具體的例子來看,此次在有道上線的NMT的翻譯結(jié)果更準(zhǔn)確,斷句和語法比起傳統(tǒng)機(jī)器翻譯(SMT)有了直觀可感知的提升,更接近人們心中“會(huì)說話”的人工智能。
NMT與SMT英譯中結(jié)果對(duì)比
據(jù)悉,與傳統(tǒng)的基于短語的統(tǒng)計(jì)翻譯模型相比,此次在有道上線的NMT翻譯質(zhì)量的提升是SMT過去十年累計(jì)提升的總和。
新聞和口語翻譯出色質(zhì)量可媲美英語八級(jí)
從翻譯界通用的BLEU值評(píng)價(jià)指標(biāo)來看,此次在有道上線的NMT在新聞文章、英語學(xué)習(xí)及口語等場景下的英文翻譯,做得比同類國際產(chǎn)品更加出色。而丁磊也曾在內(nèi)部表示,新聞和口語是中國人接觸英語最常見的兩個(gè)領(lǐng)域,應(yīng)在這兩方面加大研究。
事實(shí)上,詞典本就是有道的傳統(tǒng)優(yōu)勢(shì),其詞條數(shù)據(jù)龐大、解釋準(zhǔn)確,已經(jīng)成為國內(nèi)用戶學(xué)習(xí)英語的首選。憑借這一優(yōu)勢(shì),再加上有針對(duì)性的優(yōu)化,此次在有道上線的NMT對(duì)英語學(xué)習(xí)場景下的翻譯結(jié)果更加精準(zhǔn)。這類翻譯需求的特點(diǎn)是,原文規(guī)整、語法及句式較為規(guī)范,因此用戶對(duì)其準(zhǔn)確性要求更高。在該類數(shù)據(jù)上的盲測(cè)結(jié)果顯示,此次在有道上線的NMT,其英譯中和中譯英的BLEU值均領(lǐng)先同行7個(gè)多百分點(diǎn)。
英譯中對(duì)比
新聞文章翻譯是另外一個(gè)常見的需求,它的特點(diǎn)是,長句較多、句子結(jié)構(gòu)復(fù)雜且有大量人名地名。在這類數(shù)據(jù)上,此次在有道上線的NMT同樣表現(xiàn)不俗,英譯中BLEU值超同行6個(gè)百分點(diǎn),而中譯英也超其8個(gè)百分點(diǎn)。
中譯英對(duì)比
而從以上的例子可以看出,有道上線的神經(jīng)網(wǎng)絡(luò)翻譯的結(jié)果十分通順和準(zhǔn)確,幾乎沒有任何語法錯(cuò)誤。這樣的結(jié)果,即使是普通人中等英文水平都很難達(dá)到,而據(jù)翻譯專業(yè)人士表示,要達(dá)到這樣翻譯水平,至少英語水平在專業(yè)八級(jí)。
集網(wǎng)易公司之力攻堅(jiān)技術(shù)難題
此次在有道上線的NMT,其翻譯質(zhì)量的大幅提升,源于有道及網(wǎng)易杭州研究院的通力合作。
作為國內(nèi)最早開發(fā)統(tǒng)計(jì)機(jī)器翻譯(SMT)的公司,有道早在兩年前也開始涉足神經(jīng)網(wǎng)絡(luò)翻譯領(lǐng)域的探索,并為此投入了巨大的研發(fā)力量。為了加快項(xiàng)目進(jìn)度,網(wǎng)易杭州研究院于一年前也參與進(jìn)來。
網(wǎng)易有道首席科學(xué)家段亦濤表示,“有道在用戶翻譯場景上近十年的積累,使得我們擁有豐富的數(shù)據(jù)資源,同時(shí)我們研究深度學(xué)習(xí)和機(jī)器翻譯技術(shù)多年,攻克了數(shù)據(jù)處理、大規(guī)模框架、模型優(yōu)化、領(lǐng)域適配等技術(shù)難題,并開發(fā)出一些我們特有的技術(shù),比如領(lǐng)域適配技術(shù),使我們的模型能夠自動(dòng)適應(yīng)不同的場景,目前有道的NMT已經(jīng)在新聞、學(xué)習(xí)、口語和一些科技領(lǐng)域等場景下做到了最優(yōu)。”
網(wǎng)易杭州研究院感知與智能中心總經(jīng)理李曉燕則表示,“此次在有道中上線NMT技術(shù),可以說是機(jī)器翻譯領(lǐng)域的標(biāo)桿,作為擁有十余年技術(shù)沉淀的互聯(lián)網(wǎng)實(shí)力研發(fā)團(tuán)隊(duì),杭研院從深度學(xué)習(xí)理論出發(fā),解決了大規(guī)模框架、模型優(yōu)化等技術(shù)難題,高效完成了翻譯場景對(duì)接和NMT技術(shù)應(yīng)用工程化。”
機(jī)器翻譯的未來 讓語言不再是障礙
此次在有道上線的NMT把人工智能接入機(jī)器翻譯,并結(jié)合自身優(yōu)勢(shì)以及對(duì)技術(shù)的優(yōu)化從而大幅提升翻譯質(zhì)量,對(duì)有道乃至整個(gè)翻譯行業(yè)來說,都是一次重要突破。
過去由于技術(shù)的限制,機(jī)器翻譯僅能翻譯一些簡單詞組,對(duì)復(fù)雜內(nèi)容翻譯效果并不佳。而神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)的發(fā)展,給翻譯質(zhì)量帶來了極大提升,高質(zhì)量的機(jī)器翻譯將更廣泛更便捷地被人們使用,那么語言對(duì)于人類來說,還將是一個(gè)障礙么?
段亦濤坦言,神經(jīng)網(wǎng)絡(luò)翻譯在全球范圍內(nèi)都屬于前沿技術(shù),雖然業(yè)內(nèi)已有一定成果,但可挖掘的空間還很大。目前我們的技術(shù)突破,的確讓業(yè)內(nèi)感到振奮, 但機(jī)器翻譯作為人工智能領(lǐng)域的核心難題之一,未來還有很多的努力要做。
李曉燕也談到,今天我們?cè)谟械喇a(chǎn)品中上線的NMT,只是人工智能在機(jī)器翻譯領(lǐng)域探索的起點(diǎn)。得益于有道在翻譯數(shù)據(jù)的強(qiáng)大積累,我們的NMT技術(shù)將快速迭代更新,未來將不斷帶來更優(yōu)質(zhì)的翻譯體驗(yàn)。
據(jù)悉,此次推出的NMT技術(shù)未來兩周將陸續(xù)在有道詞典、有道翻譯官、有道翻譯網(wǎng)頁版、有道e讀等產(chǎn)品中正式應(yīng)用。
有道翻譯官拍照翻譯中應(yīng)用
在機(jī)器翻譯領(lǐng)域深耕了近十年的網(wǎng)易有道,再次給人們帶來了驚喜。
近日,網(wǎng)易有道在GMIC(全球移動(dòng)互聯(lián)網(wǎng)大會(huì))未來創(chuàng)新峰會(huì)上公布:由網(wǎng)易公司自主研發(fā)的神經(jīng)網(wǎng)絡(luò)翻譯( Neural Machine Translation,以下簡稱NMT)技術(shù)正式上線。作為受到丁磊親自“過問”、網(wǎng)易最重要技術(shù)創(chuàng)新之一,此次在有道上線的NMT技術(shù),由網(wǎng)易有道與網(wǎng)易杭州研究院歷時(shí)兩年合力研發(fā),將服務(wù)于有道詞典、有道翻譯官、有道翻譯網(wǎng)頁版、有道e讀等產(chǎn)品;這不但意味著借力于NMT技術(shù),有道產(chǎn)品在語言翻譯質(zhì)量方面將有巨大的提升——超過7億用戶將享受到NMT帶來的高效與便利,更意味著低調(diào)務(wù)實(shí)的網(wǎng)易,早已在人工智能的領(lǐng)域未雨綢繆,并早于業(yè)界實(shí)現(xiàn)人工智能技術(shù)在更廣泛網(wǎng)民中的深度使用。
人工智能改變翻譯讓翻譯更“聰明”
深度學(xué)習(xí)是推動(dòng)當(dāng)前人工智能熱潮最關(guān)鍵的技術(shù),它首先在圖像、音頻等感知領(lǐng)域獲得了巨大成功,目前在語言方面的應(yīng)用也獲得了長足的進(jìn)展。
而神經(jīng)網(wǎng)絡(luò)翻譯就是深度學(xué)習(xí)在機(jī)器翻譯領(lǐng)域的具體應(yīng)用。
作為目前機(jī)器翻譯領(lǐng)域最前沿的技術(shù),神經(jīng)網(wǎng)絡(luò)翻譯采用獨(dú)到的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),能夠?qū)Ψg的全過程整體建模;與統(tǒng)計(jì)翻譯模型(SMT)相比,神經(jīng)網(wǎng)絡(luò)翻譯模型更像一個(gè)有機(jī)體。
NMT對(duì)整個(gè)句子進(jìn)行編碼,能夠更充分地利用上下文信息,判定多義詞的詞義,生成更高質(zhì)量的譯文。最直觀的一點(diǎn)就是,NMT譯文的句子結(jié)構(gòu)完整,語序更接近人類語言使用習(xí)慣,翻譯結(jié)果更加通順;而SMT則像由多個(gè)組件構(gòu)成的機(jī)器,每個(gè)組件完成各自的目標(biāo),但“拼接”出來的翻譯結(jié)果,常常不盡人意。
NMT翻譯原理
如果從具體的例子來看,此次在有道上線的NMT的翻譯結(jié)果更準(zhǔn)確,斷句和語法比起傳統(tǒng)機(jī)器翻譯(SMT)有了直觀可感知的提升,更接近人們心中“會(huì)說話”的人工智能。
NMT與SMT英譯中結(jié)果對(duì)比
據(jù)悉,與傳統(tǒng)的基于短語的統(tǒng)計(jì)翻譯模型相比,此次在有道上線的NMT翻譯質(zhì)量的提升是SMT過去十年累計(jì)提升的總和。
新聞和口語翻譯出色質(zhì)量可媲美英語八級(jí)
從翻譯界通用的BLEU值評(píng)價(jià)指標(biāo)來看,此次在有道上線的NMT在新聞文章、英語學(xué)習(xí)及口語等場景下的英文翻譯,做得比同類國際產(chǎn)品更加出色。而丁磊也曾在內(nèi)部表示,新聞和口語是中國人接觸英語最常見的兩個(gè)領(lǐng)域,應(yīng)在這兩方面加大研究。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 預(yù)計(jì)2024年中國折疊屏手機(jī)出貨量將達(dá)910萬部,華為占據(jù)半數(shù)份額
- Counterpoint:59%的受訪者計(jì)劃在一年內(nèi)升級(jí)到Gen AI智能手機(jī)
- 美國ITC裁定聯(lián)想智能手機(jī)侵犯愛立信專利
- 英特爾高通隔空叫陣:兩大巨頭在較什么勁?
- IDC最新預(yù)測(cè):2024年P(guān)C和平板電腦市場將增長3.8%至4.035億臺(tái)
- 蘋果Vision Pro頭顯即將登陸中國臺(tái)灣,12月17日正式發(fā)售
- 全球折疊屏手機(jī)出貨量首次遭遇季度下滑,三星旗艦機(jī)型表現(xiàn)不佳是主因
- HUAWEI Mate X6 震撼登場,折疊引領(lǐng)者,巔峰再跨越
- 五年持續(xù)領(lǐng)跑,華為折疊屏一步領(lǐng)先,一路領(lǐng)先
- 全新HUAWEI MatePad Pro 13.2 英寸首發(fā)亮相,鴻蒙專業(yè)生產(chǎn)力體驗(yàn)再升級(jí)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。