近日,由國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)(The Association for Computational Linguistics,ACL)舉辦的WMT 2021國(guó)際機(jī)器翻譯比賽結(jié)果揭曉。首次參加該項(xiàng)大賽的傳音AI翻譯團(tuán)隊(duì)在「科薩語(yǔ)-祖魯語(yǔ)」雙向翻譯的賽道上斬獲機(jī)器自動(dòng)評(píng)測(cè)冠軍,并在「孟加拉語(yǔ)-印地語(yǔ)」、「印地語(yǔ)-孟加拉語(yǔ)」翻譯任務(wù)的機(jī)器自動(dòng)評(píng)測(cè)中分別獲得第二名、第三名的佳績(jī)。
WMT大賽(Conference on Machine Translation)是全球頂級(jí)的機(jī)器翻譯評(píng)測(cè)比賽,在全球?qū)W術(shù)界、工業(yè)界享有盛譽(yù)。自2006年起,WMT大賽已成功舉辦16屆,每年都吸引了來(lái)自世界各地的頂級(jí)企業(yè)、高校和科研機(jī)構(gòu)參賽,包括微軟、Facebook、騰訊、字節(jié)跳動(dòng)、百度、金山等。
WMT 2021大賽共有72支實(shí)力雄厚的隊(duì)伍參賽,共計(jì)提交1308次譯文數(shù)據(jù),競(jìng)爭(zhēng)異常激烈。組委會(huì)按照在國(guó)際上具有廣泛認(rèn)可度的BLEU自動(dòng)評(píng)估指標(biāo)對(duì)提交的機(jī)器譯文和標(biāo)準(zhǔn)答案進(jìn)行擬合計(jì)算,擬合程度高者排在前面。傳音AI翻譯團(tuán)隊(duì)經(jīng)過(guò)多次角逐脫穎而出,成功占據(jù)「科薩語(yǔ)-祖魯語(yǔ)」雙向翻譯機(jī)器自動(dòng)評(píng)測(cè)指標(biāo)的榜首。
深耕AI翻譯領(lǐng)域,打造前沿研究、產(chǎn)品應(yīng)用和用戶反饋閉環(huán)
傳音AI翻譯團(tuán)隊(duì)在本次WMT 2021中主要面臨低資源語(yǔ)料的挑戰(zhàn)。為了更好能利用低資源語(yǔ)料,提升低資源機(jī)器翻譯的效果,傳音AI翻譯團(tuán)隊(duì)采用自研的混合神經(jīng)統(tǒng)計(jì)機(jī)器翻譯和機(jī)器翻譯(Hybrid-SNMT)。在模型上,Hybrid-SNMT首先應(yīng)用N元語(yǔ)法得到向量,并統(tǒng)計(jì)對(duì)齊概率等方式得到各個(gè)詞庫(kù)和語(yǔ)言模型,再以此訓(xùn)練雙向互譯的對(duì)偶NMT模型。在數(shù)據(jù)上,Hybrid-SNMT通過(guò)迭代回譯等方式,不斷提煉和豐富各個(gè)詞庫(kù),并增廣數(shù)據(jù)。
在國(guó)際賽事中斬獲佳績(jī)與認(rèn)可,得益于傳音AI翻譯團(tuán)隊(duì)在人工智能領(lǐng)域持續(xù)不斷的技術(shù)研究和產(chǎn)品體驗(yàn)的打磨。傳音AI翻譯團(tuán)隊(duì)基于神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù),持續(xù)進(jìn)行迭代,引?了前沿的機(jī)器翻譯算法,不斷創(chuàng)新算法和架構(gòu),提升翻譯能力。
目前,傳音翻譯已成為一個(gè)日翻譯數(shù)億字符的多語(yǔ)種機(jī)器翻譯引擎,支持多語(yǔ)種間的雙向翻譯,質(zhì)量達(dá)到新興市場(chǎng)業(yè)界領(lǐng)先水平。在技術(shù)和數(shù)據(jù)的協(xié)同之下,傳音深度布局機(jī)器翻譯生態(tài),服務(wù)場(chǎng)景已涵蓋社交對(duì)話翻譯、閱讀翻譯、傳音掃一掃等,同時(shí)還為傳音語(yǔ)言大師、傳音智能語(yǔ)音助手、Hi Translate、菲酷等提供翻譯服務(wù)支持,后續(xù)將陸續(xù)拓展更多應(yīng)用場(chǎng)景。同時(shí),通過(guò)海量的傳音智能終端用戶使用反饋,不斷提升、改進(jìn)機(jī)器翻譯算法,打造“前沿研究-產(chǎn)品應(yīng)用-用戶反饋”的完整閉環(huán)。
以洞察為基點(diǎn),加速構(gòu)建非洲智能翻譯服務(wù)體系
長(zhǎng)期以來(lái),傳音深耕以非洲為代表的新興市場(chǎng),為消費(fèi)者提供適切需求的智能終端產(chǎn)品和移動(dòng)互聯(lián)服務(wù)。本次獲獎(jiǎng),正是傳音多維度市場(chǎng)洞察及本地化創(chuàng)新產(chǎn)品理念的最佳注腳。
在不斷提升的機(jī)器翻譯技術(shù)背后,是傳音深厚的語(yǔ)言基因。非洲大陸幅員遼闊,國(guó)家眾多,是世界上最復(fù)雜、多樣化的地區(qū)之一,也是語(yǔ)言種類最多的大陸,許多當(dāng)?shù)孛癖娏?xí)慣使用本民族語(yǔ)言。以科薩語(yǔ)(Xhosa)及祖魯語(yǔ)(isiZulu)為例,兩者分別是科薩族和祖魯族的民族語(yǔ)言,同時(shí)也是南非共和國(guó)的官方語(yǔ)言。在南非,科薩語(yǔ)的使用人口分布最廣,而祖魯語(yǔ)的使用人數(shù)最多。傳音手機(jī)產(chǎn)品不僅支持英語(yǔ)、法語(yǔ)、阿拉伯語(yǔ)、西班牙語(yǔ)、葡萄牙語(yǔ)等官方語(yǔ)言或通用語(yǔ),更支持多種非洲本地語(yǔ)言,包括阿姆哈拉語(yǔ)、奧羅莫語(yǔ)、提格雷語(yǔ)、索馬里語(yǔ)、斯瓦希里語(yǔ)、豪薩語(yǔ)等小語(yǔ)種,以滿足本地用戶的需求。
傳音AI翻譯團(tuán)隊(duì)以技術(shù)為核心,結(jié)合非洲語(yǔ)言種類和使用格局,不斷延伸服務(wù)場(chǎng)景,創(chuàng)造性地進(jìn)行非洲智能翻譯服務(wù)體系構(gòu)建,為本地用戶帶來(lái)更便捷的溝通體驗(yàn)。隨著傳音全球新興市場(chǎng)業(yè)務(wù)的不斷拓展,傳音AI翻譯團(tuán)隊(duì)也加大了針對(duì)南亞、東南亞等其他新市場(chǎng)本地小語(yǔ)種的研究探索,不斷提升相應(yīng)的翻譯能力。
未來(lái),傳音將持續(xù)加大對(duì)人工智能領(lǐng)域的學(xué)習(xí)與投?,積極將技術(shù)升級(jí)運(yùn)用在產(chǎn)品之中,并基于傳音平臺(tái)生態(tài)帶來(lái)覆蓋更廣的應(yīng)用場(chǎng)景,為新興市場(chǎng)用戶提供更優(yōu)質(zhì)的智能產(chǎn)品體驗(yàn)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )