近日,全球語(yǔ)音頂會(huì)INTERSPEECH 2020 公布了論文接收結(jié)果,云知聲聯(lián)合上海師范大學(xué)、安徽大學(xué)等高校發(fā)表多篇論文成功入選。分別在中英文混合語(yǔ)音識(shí)別、大詞匯量連續(xù)語(yǔ)音識(shí)別和多模態(tài)虛擬形象生成等領(lǐng)域取得突破,代表著云知聲在語(yǔ)音及多模態(tài)交互領(lǐng)域持續(xù)的底層技術(shù)創(chuàng)新。同時(shí),云知聲也是今年會(huì)議的金牌贊助商,致力于加強(qiáng)工業(yè)界和學(xué)術(shù)界的技術(shù)協(xié)作,支持會(huì)議順利舉行。
INTERSPEECH 是世界上規(guī)模最大、最全面的頂級(jí)語(yǔ)音領(lǐng)域會(huì)議,由國(guó)際語(yǔ)音通信協(xié)會(huì) ISCA(International Speech Communication Association)組織。該會(huì)議每年舉辦一次,今年大會(huì)是第 21 屆 INTERSPEECH 會(huì)議,也是第二次在中國(guó)舉辦。本屆會(huì)議以“Cognitive Intelligence for Speech Processing”為主題,內(nèi)容涵蓋信號(hào)處理、語(yǔ)音識(shí)別、自然語(yǔ)言處理、神經(jīng)機(jī)器翻譯等領(lǐng)域,收到超過(guò) 2100 篇投稿論文。會(huì)議研究成果代表著語(yǔ)音相關(guān)領(lǐng)域的最新研究水平和未來(lái)的技術(shù)發(fā)展趨勢(shì)。
作為 INTERSPEECH 會(huì)議的一部分,國(guó)際語(yǔ)音合成比賽 Blizzard Challenge 2020 研討會(huì)將于 10 月 30 日舉行。Blizzard Challenge 是當(dāng)今全球規(guī)模最大、最具影響力的語(yǔ)音合成領(lǐng)域頂尖賽事,在今年的 Blizzard Challenge 比賽中,由云知聲-上海師范大學(xué)自然人機(jī)交互聯(lián)合實(shí)驗(yàn)室申報(bào)的系統(tǒng)在強(qiáng)敵環(huán)伺的賽場(chǎng)中突出重圍,首次參賽即斬獲中文普通話、上海話多項(xiàng)關(guān)鍵指標(biāo)第一。在 10 月 30 日的研討會(huì)上,研究團(tuán)隊(duì)會(huì)通過(guò) live online oral presentation 的形式對(duì)參賽系統(tǒng)進(jìn)行詳細(xì)解讀,歡迎參與和討論。
中英文混合語(yǔ)音識(shí)別
在中英文混合語(yǔ)音識(shí)別方向,針對(duì)混合語(yǔ)言語(yǔ)音 (code-switching) 場(chǎng)景,研究團(tuán)隊(duì)提出了一個(gè)基于Transformer模型的多編碼器-解碼器結(jié)構(gòu)的語(yǔ)碼轉(zhuǎn)換混合語(yǔ)音識(shí)別方案(Multi-Encoder-Decoder Transformer for Code-Switching Speech Recognition),該結(jié)構(gòu)具有兩個(gè)對(duì)稱的與特定語(yǔ)言相關(guān)的編碼器,以捕獲各種語(yǔ)言的特有屬性,從而改善每種語(yǔ)言的深度聲學(xué)表示。這些深度表示被進(jìn)一步在解碼器模塊中使用特定于語(yǔ)言的多頭注意力機(jī)制進(jìn)行有效整合,以最終提升整個(gè)端到端識(shí)別系統(tǒng)的性能。同時(shí),團(tuán)隊(duì)還使用了大規(guī)模單語(yǔ)言語(yǔ)料庫(kù)對(duì)每個(gè)編碼器及其相應(yīng)的注意力模塊進(jìn)行了預(yù)訓(xùn)練,旨在減輕語(yǔ)碼轉(zhuǎn)換訓(xùn)練數(shù)據(jù)不足的影響。借助預(yù)訓(xùn)練方式,研究團(tuán)隊(duì)的模型分別在 SEAME 中以中文和英文為主的評(píng)估集上達(dá)到 16.7% 和 23.1% 的詞錯(cuò)誤率,刷新了在此數(shù)據(jù)集上的最好成績(jī),相對(duì)之前論文的最佳成績(jī)提升了12.5%的性能。
語(yǔ)碼轉(zhuǎn)換語(yǔ)音實(shí)例及多編碼器的輸出
大詞匯量連續(xù)語(yǔ)音識(shí)別
研究團(tuán)隊(duì)提出了一種新穎的帶深度聲學(xué)結(jié)構(gòu)和 Self-and-Mixed 注意力解碼器結(jié)構(gòu)(Self-and-Mixed Attention Decoder with Deep Acoustic Structure for Transformer-based LVCSR),其利用具有深度聲學(xué)結(jié)構(gòu)的 Self-and-Mixed 注意力解碼器,以改善基于 Transformer 的大詞匯量連續(xù)語(yǔ)音識(shí)別的聲學(xué)表示。具體來(lái)說(shuō),研究團(tuán)隊(duì)引入一種自注意力機(jī)制,以獲取深層的聲學(xué)表征。研究團(tuán)隊(duì)還設(shè)計(jì)了一種混合注意力機(jī)制,該機(jī)制可以在共享的特征空間中同時(shí)學(xué)習(xí)不同層次的聲學(xué)表征及其對(duì)應(yīng)的語(yǔ)言信息之間的對(duì)齊關(guān)系。本項(xiàng)研究工作在 AIShell-1 數(shù)據(jù)集上曾刷新最佳成績(jī),字符錯(cuò)誤率降低至 5.1%,相對(duì)之前的最佳成績(jī)提升了 24% 的性能,顯著提升了識(shí)別效果。
多模態(tài)虛擬形象生成
如何在提高虛擬人面部動(dòng)作的豐富和自然度,是目前虛擬人生成的熱點(diǎn)問(wèn)題。研究團(tuán)隊(duì)提出了一種基于面部關(guān)鍵點(diǎn)和改進(jìn)的 GAN 模型的兩級(jí)模型生成方案,實(shí)現(xiàn)從語(yǔ)音到虛擬人形象的生成,在本方案中,利用面部關(guān)鍵點(diǎn)作為語(yǔ)音特征到視頻生成之間的信息表達(dá)中介,同時(shí)引入 attention 機(jī)制,解決在虛擬人生成過(guò)程中不同區(qū)域因子對(duì)視頻效果質(zhì)量的影響。實(shí)驗(yàn)生成的視頻結(jié)果表明本方法保持了豐富的面部細(xì)節(jié)、精確的嘴部動(dòng)作和自然的頭動(dòng)效果。在娛樂(lè)應(yīng)用、擬人化交互等領(lǐng)域有廣泛的應(yīng)用和落地場(chǎng)景。
人工智能成功的關(guān)鍵在應(yīng)用,而所有應(yīng)用皆源自底層技術(shù)。為不斷拓寬自身基礎(chǔ)能力邊界,云知聲深入布局了語(yǔ)音、語(yǔ)言、視覺(jué)圖像、機(jī)器翻譯、AI芯片等諸多方向,形成豐富的具備全球領(lǐng)先的原創(chuàng)技術(shù)積累,相關(guān)研究成果多次在 NIPS、NIST、WMT、ACL 等全球頂會(huì)與賽事中得以印證。
本次在 INTERSPEECH 2020 大會(huì)上這些原創(chuàng)技術(shù)的提出,也將進(jìn)一步夯實(shí)云知聲全棧+硬核的人工智能技術(shù)“底座”,提高云知聲在智能語(yǔ)音和多模態(tài)人機(jī)交互領(lǐng)域的技術(shù)領(lǐng)先性,推動(dòng)人工智能系統(tǒng)以更人性化、高效的方式服務(wù)于千行百業(yè),為用戶帶來(lái)更好的交互體驗(yàn)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )