進(jìn)入2016年,各大科技巨頭、投資公司、分析機(jī)構(gòu)等都在不斷發(fā)布、解讀著關(guān)于人工智能( Artificial Intelligence)的各種消息,作為吃瓜群眾的我們由此也逐漸知道了很多高大上的“黑科技”。
比如谷歌、百度在干著一件“人工智能+汽車(chē)”的大事,即無(wú)人駕駛;蘋(píng)果、微軟、搜狗等致力于將人工智能技術(shù)與語(yǔ)音服務(wù)場(chǎng)景結(jié)合,今年8月,搜狗推出全新語(yǔ)音交互引擎“知音”;此外,IBM花了大約250億美元來(lái)收購(gòu)和完善Watson系統(tǒng),希望靠人工智能來(lái)預(yù)測(cè)未來(lái),并應(yīng)用于金融、交通、教育等領(lǐng)域;阿里巴巴、螞蟻金服在積極探索人臉識(shí)別,希望利用人工智能讓移動(dòng)支付更加便捷和安全。
處于風(fēng)口的人工智能,甚至也出現(xiàn)在了好萊塢劇本中,迪士尼動(dòng)畫(huà)《超能陸戰(zhàn)隊(duì)》中的機(jī)器人大白就是個(gè)典型的“人工智能+醫(yī)療”的產(chǎn)物,它就像醫(yī)療伴侶,能夠快速掃描、檢測(cè)出人體的不正常情緒或受傷并對(duì)其治療;就連時(shí)下爆紅的HBO連續(xù)劇《西部世界》也在探討著擁有自主思維的機(jī)器人與人類(lèi)世界發(fā)生的種種沖突和對(duì)抗。
盡管在預(yù)言家的口中,人工智能將在未來(lái)的現(xiàn)實(shí)生活中無(wú)孔不入,無(wú)人駕駛、機(jī)器人管家、人工智能醫(yī)療方案等等,但目前對(duì)于大眾而言,我們當(dāng)下階段接觸到人工智能最主要的方式,仍是互聯(lián)網(wǎng)科技公司提供的一些基礎(chǔ)性服務(wù),比如搜索、輸入法、導(dǎo)航等產(chǎn)品中。在其背后,我們都發(fā)現(xiàn)了語(yǔ)音交互的影子。事實(shí)上,智能語(yǔ)音交互已經(jīng)成為各大互聯(lián)網(wǎng)巨頭角逐的關(guān)鍵性領(lǐng)域,因?yàn)檎f(shuō)話(huà)是人們生活最常用到的溝通方式,隨著移動(dòng)互聯(lián)網(wǎng)的深入,智能語(yǔ)音交互日益成為用戶(hù)的痛點(diǎn)。
從語(yǔ)音識(shí)別到實(shí)時(shí)翻譯,人工智能較量升級(jí)
智能語(yǔ)音識(shí)別是包括谷歌、搜狗、訊飛等科技公司深耕的重要語(yǔ)音技術(shù),從概念上來(lái)看,語(yǔ)音識(shí)別是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù),其應(yīng)用于智能終端則可以帶來(lái)更便捷的服務(wù),比如語(yǔ)音輸入、語(yǔ)音撥號(hào)、語(yǔ)音導(dǎo)航、語(yǔ)音拍照等。麻省理工科技評(píng)論認(rèn)為,“語(yǔ)音識(shí)別將成為人機(jī)交互的重要方式?!?/p>
在人們印象里,智能語(yǔ)音識(shí)別的代表性產(chǎn)物莫過(guò)于微軟Cortana 、蘋(píng)果Siri等語(yǔ)音秘書(shū)類(lèi)產(chǎn)品,它們盡管使用便捷,但在應(yīng)用場(chǎng)景和實(shí)用性上卻有不少的限制。因此,語(yǔ)音識(shí)別作為一項(xiàng)重要且基礎(chǔ)性的人機(jī)交互技術(shù),如何更好的滿(mǎn)足更多的應(yīng)用場(chǎng)景,同時(shí)具備很好的實(shí)用性,也成為語(yǔ)音巨頭們競(jìng)相突破的關(guān)口。
在剛剛結(jié)束的烏鎮(zhèn)世界互聯(lián)網(wǎng)大會(huì)上,搜狗公司CEO王小川就展示了在智能語(yǔ)音交互領(lǐng)域的最新成果——語(yǔ)音實(shí)時(shí)翻譯。通過(guò)該技術(shù),搜狗 CEO 王小川的中文講話(huà)內(nèi)容被實(shí)時(shí)識(shí)別為文字并翻譯為英文在屏幕上顯示,將王小川關(guān)于人工智能專(zhuān)業(yè)領(lǐng)域的報(bào)告進(jìn)行機(jī)器同傳。
例如,當(dāng)王小川說(shuō)到「搜索的未來(lái)就是人工智能時(shí)代的皇冠」時(shí),屏幕上實(shí)時(shí)顯示出了「In the future, search will be the Crown of the AI Era」,機(jī)器還能隨著語(yǔ)句的逐漸完整,根據(jù)語(yǔ)義自動(dòng)修改調(diào)整之前識(shí)別的內(nèi)容。這也是全球首次基于神經(jīng)網(wǎng)絡(luò)的實(shí)時(shí)機(jī)器翻譯技術(shù)在大型活動(dòng)上的展示,可謂是“技驚四座”。
王小川透露,這次推出的語(yǔ)音實(shí)時(shí)翻譯,融合了業(yè)界領(lǐng)先的端到端神經(jīng)機(jī)器翻譯技術(shù)以及基于實(shí)例的翻譯技術(shù),基于大數(shù)據(jù)和深度學(xué)習(xí),涵蓋了搜狗自主研發(fā)的語(yǔ)音識(shí)別、機(jī)器翻譯兩項(xiàng)重要技術(shù),翻譯的結(jié)果比傳統(tǒng)機(jī)器翻譯更加流暢,效果更好。
無(wú)獨(dú)有偶,在搜狗實(shí)時(shí)翻譯發(fā)布僅過(guò)了兩天,國(guó)內(nèi)另一家語(yǔ)音巨頭科大訊飛也在其發(fā)布會(huì)上展示了包括語(yǔ)音聽(tīng)寫(xiě)、實(shí)時(shí)互譯、車(chē)載語(yǔ)音交互系統(tǒng)等語(yǔ)音交互成果。
在筆者看來(lái),搜狗和訊飛在語(yǔ)音實(shí)時(shí)翻譯技術(shù)的成果,反映了國(guó)內(nèi)語(yǔ)音巨頭在人工智能領(lǐng)域的較量正在升級(jí),且都在用戶(hù)場(chǎng)景和實(shí)用性上做更大的突破,可以認(rèn)為是代表了國(guó)內(nèi)該領(lǐng)域的最高水平。兩家公司在技術(shù)上孰高孰低,目前尚無(wú)定論。
從目前看來(lái),搜狗對(duì)于語(yǔ)音技術(shù)的應(yīng)用,更加to C(用戶(hù)),訊飛語(yǔ)音則to B(企業(yè))多一些。搜狗的優(yōu)勢(shì)在于不僅擁有大量的數(shù)據(jù)資源、龐大的用戶(hù)量,也擁有完善的搜索、輸入法、地圖導(dǎo)航等產(chǎn)品布局,因此搜狗語(yǔ)音技術(shù)更能直面用戶(hù)的實(shí)用性需求;訊飛則擁有更廣泛的開(kāi)發(fā)者、廠(chǎng)商合作關(guān)系,其語(yǔ)音解決方案將主要通過(guò)廠(chǎng)商合作或銷(xiāo)售方式應(yīng)用于車(chē)載系統(tǒng)、教育、家居、機(jī)器人等領(lǐng)域。
基于深度神經(jīng)網(wǎng)絡(luò)實(shí)時(shí)翻譯如何實(shí)現(xiàn)
在搜狗、訊飛相繼展示語(yǔ)音實(shí)時(shí)翻譯成果后,外界紛紛驚呼這種技術(shù)甚至將會(huì)顛覆專(zhuān)業(yè)同聲傳譯從業(yè)者的飯碗,同時(shí)對(duì)于其背后的技術(shù)原理尤為感興趣。目前在互聯(lián)網(wǎng)上,關(guān)于訊飛實(shí)時(shí)互譯技術(shù)背后的原理解讀仍然較少,搜狗則在近期一場(chǎng)媒體溝通會(huì)上,主動(dòng)揭開(kāi)了搜狗實(shí)時(shí)翻譯技術(shù)的神秘面紗。
搜狗語(yǔ)音交互中心技術(shù)負(fù)責(zé)人陳偉介紹,傳統(tǒng)機(jī)器翻譯所采用的主流方式叫“統(tǒng)計(jì)翻譯”,從語(yǔ)料庫(kù)大量的翻譯實(shí)例中自動(dòng)學(xué)習(xí)翻譯知識(shí),然后利用這些翻譯知識(shí)自動(dòng)翻譯其他句子。這就需要把整個(gè)建模流程分成對(duì)齊模型、分層模型等多個(gè)模型,每個(gè)模型完成特定的很小的功能,最后串起來(lái)完成復(fù)雜的機(jī)器翻譯系統(tǒng)。在這個(gè)過(guò)程中,每個(gè)模型的錯(cuò)誤也會(huì)不斷疊加。
搜狗語(yǔ)音實(shí)時(shí)翻譯,在實(shí)現(xiàn)路徑上不同于傳統(tǒng)機(jī)器翻譯,它使用的端到端神經(jīng)網(wǎng)絡(luò)翻譯模型通過(guò)編碼端獲取源端句子的分布式表示,利用注意力模型聚焦源端,使用循環(huán)神經(jīng)網(wǎng)絡(luò)生成翻譯結(jié)果,準(zhǔn)確率可以提升30%-40%。從系統(tǒng)框架來(lái)看,主要包括“發(fā)音”、“語(yǔ)音斷句”、“語(yǔ)音識(shí)別”、“文本斷句”、“機(jī)器翻譯”、“輸出判斷”等若干部分。
從實(shí)用效果來(lái)看,在近期人工評(píng)測(cè)中,搜狗機(jī)器翻譯在演講、旅游、閑聊、日??谡Z(yǔ)等領(lǐng)域,采用五分制人工評(píng)分能達(dá)到 4.4 分,逐步走向?qū)嵱没j悅ネ嘎叮壳八压氛Z(yǔ)音識(shí)別準(zhǔn)確率已超過(guò)97%,識(shí)別速度達(dá)到了400字每分鐘,語(yǔ)音輸入日頻次高達(dá) 1.9 億次。
搜狗將該實(shí)時(shí)翻譯技術(shù)命名為SNMT(Sogou NeuralMachineTranslation),這不免讓人將其與谷歌的GNMT(GoogleNeuralMachineTranslation)聯(lián)系一起。今年9月,谷歌宣布,網(wǎng)絡(luò)和移動(dòng)版的谷歌翻譯將使用新的神經(jīng)機(jī)器翻譯系統(tǒng),并以GNMT命名,它能讓翻譯系統(tǒng)不再像以前一樣逐字逐句的翻譯,而是根據(jù)整篇文章的大意來(lái)對(duì)句子進(jìn)行分析。在新技術(shù)使用后,翻譯錯(cuò)誤可減少 60%及以上。
陳偉介紹,兩者的基本構(gòu)架有類(lèi)似的,但還是有著相當(dāng)大的差異。谷歌神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯使用了一個(gè)深度的長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)含有8層的編碼器和解碼器,而搜狗目前最多只有 5 層。
在我看來(lái),這就意味著谷歌需要投入更多的資源和人力來(lái)攻克更為復(fù)雜的架構(gòu)(當(dāng)然潛力也更為巨大),而搜狗在反應(yīng)速度上將更具有優(yōu)勢(shì),目前它的延遲只有 2 秒,而在準(zhǔn)確性上,搜狗由于已經(jīng)通過(guò)搜狗語(yǔ)音積累了大量中國(guó)人的口語(yǔ)語(yǔ)音數(shù)據(jù),也可以一定程度上彌補(bǔ)由層數(shù)所造成的劣勢(shì)。
結(jié)語(yǔ)
從全球人工智能的發(fā)展和趨勢(shì)看,圍繞智能語(yǔ)音交互誕生的成果無(wú)論從數(shù)量和實(shí)用性上看,仍然是其他人工智能領(lǐng)域所不能比擬的。隨著語(yǔ)音實(shí)時(shí)翻譯技術(shù)的成熟,它將可能應(yīng)用于更多的生活和工作領(lǐng)域,但它也只是人工智能真正改變世界的一個(gè)節(jié)點(diǎn)而已。未來(lái)暢想的無(wú)人駕駛、遠(yuǎn)程醫(yī)療、機(jī)器人管家也許終將有一天會(huì)變成現(xiàn)實(shí),他們也都離不開(kāi)語(yǔ)音交互這個(gè)重要關(guān)口。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋(píng)果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢(qián)通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱(chēng)塔塔集團(tuán)將收購(gòu)和碩印度iPhone代工廠(chǎng)60%股份 并接管日常運(yùn)營(yíng)
- 蘋(píng)果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過(guò)熱挑戰(zhàn),交付延期引發(fā)市場(chǎng)關(guān)注
- 馬斯克能否成為 AI 部部長(zhǎng)?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無(wú)人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測(cè)量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開(kāi)展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車(chē)整車(chē)股盤(pán)初強(qiáng)勢(shì)拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。