近日由IEEE主辦、被譽(yù)為世界范圍內(nèi)最大規(guī)模、也是最全面的信號(hào)處理及其應(yīng)用方面的頂級(jí)學(xué)術(shù)會(huì)議ICASSP2023于希臘召開(kāi),該會(huì)議具有權(quán)威、廣泛的學(xué)界以及工業(yè)界影響力,備受AI領(lǐng)域多方關(guān)注。會(huì)上火山語(yǔ)音多篇論文被接收并發(fā)表,內(nèi)容涵蓋眾多前沿領(lǐng)域的技術(shù)創(chuàng)新,并有效解決了字音轉(zhuǎn)換、語(yǔ)種混淆等實(shí)踐問(wèn)題。
LiteG2P:一種快速、輕量級(jí)、高精度的字音轉(zhuǎn)換模型(LiteG2P: A Fast, Light and High Accuracy Model for Grapheme-to-Phoneme Conversion )
研究背景:眾所周知,字音轉(zhuǎn)換(G2P)旨在將單詞轉(zhuǎn)換為其對(duì)應(yīng)的發(fā)音表示,通常被廣泛應(yīng)用于語(yǔ)音識(shí)別(ASR)及語(yǔ)音合成(TTS)等語(yǔ)音任務(wù)中,但現(xiàn)有方法中基于規(guī)則的方法預(yù)測(cè)精度往往較差,還需要大量專(zhuān)家經(jīng)驗(yàn)的輔助;其中基于數(shù)據(jù)驅(qū)動(dòng)的深度模型方案雖然精度高,但模型尺寸往往較大且計(jì)算效率偏低。對(duì)此,火山語(yǔ)音團(tuán)隊(duì)提出了一種高效快速、輕量級(jí)、高精度的字音轉(zhuǎn)換模型,可進(jìn)一步適用于多類(lèi)端側(cè)設(shè)備。
方法分析:LiteG2P結(jié)合數(shù)據(jù)驅(qū)動(dòng)和知識(shí)驅(qū)動(dòng)的優(yōu)勢(shì),得以在控制模型尺寸較小的同時(shí)取得較高精度,模型層面上不同于傳統(tǒng)的基于注意力機(jī)制的序列到序列預(yù)測(cè)模型,而是采用CTC損失進(jìn)行字音的對(duì)齊,同時(shí)使得模型具備了并行預(yù)測(cè)音素序列的優(yōu)勢(shì);除此之外,火山語(yǔ)音團(tuán)隊(duì)還額外引入了語(yǔ)言知識(shí)詞典,用以指導(dǎo)字母擴(kuò)展長(zhǎng)度以及縮小目標(biāo)預(yù)測(cè)音素集合。
The architecture of LiteG2P
效果呈現(xiàn):最終LiteG2P模型相較于主流基線(xiàn)模型具有高精度、并行化、輕量級(jí)、快速等優(yōu)勢(shì),與主流基線(xiàn)模型在準(zhǔn)確率相當(dāng)?shù)耐瑫r(shí)速度提升30倍以上,參數(shù)量小10倍以上;可一套模型架構(gòu)同時(shí)部署在端云多種類(lèi)型設(shè)備上,在端側(cè)設(shè)備上單個(gè)單詞的推理速度預(yù)測(cè)為5ms以?xún)?nèi),云端設(shè)備2ms以?xún)?nèi)。
基于雙向注意力機(jī)制的語(yǔ)音文本的多模態(tài)訓(xùn)練提升語(yǔ)音識(shí)別性能(SPEECH-TEXT BASED MULTI-MODAL TRAINING WITH BIDIRECTIONAL ATTENTION FOR IMPROVED SPEECH RECOGNITION)
研究背景:如今,盡管端對(duì)端模型簡(jiǎn)化了訓(xùn)練流程,將聲學(xué)模型、詞典、語(yǔ)言模型合并在一個(gè)統(tǒng)一的模型中,但卻非常依賴(lài)大量的帶標(biāo)簽訓(xùn)練數(shù)據(jù)。相比于帶標(biāo)簽數(shù)據(jù),不成對(duì)的數(shù)據(jù),例如純音頻或者純文本數(shù)據(jù)更容易獲取。為了緩解數(shù)據(jù)的稀疏性問(wèn)題,往往會(huì)嘗試將不成對(duì)的數(shù)據(jù)參與到訓(xùn)練中,有利于在低資源場(chǎng)景下訓(xùn)練出性能良好的端到端語(yǔ)音識(shí)別模型。本篇論文正是使用純文本數(shù)據(jù)參與端到端模型解碼器的訓(xùn)練,使解碼器學(xué)習(xí)到更多的語(yǔ)義信息,從而改善模型性能。此過(guò)程需要使用文本編碼器去擬合音頻編碼器的輸出,從而解決解碼器訓(xùn)練依賴(lài)于編碼器的問(wèn)題。由于音頻和文本長(zhǎng)度不一致,論文提出使用基于雙向注意力機(jī)制的語(yǔ)音文本的多模態(tài)訓(xùn)練方式,自動(dòng)學(xué)習(xí)語(yǔ)音和文本之間的對(duì)齊關(guān)系。
方法分析:具體方式,語(yǔ)音編碼器輸出與文本編碼器輸出經(jīng)過(guò)雙向注意力計(jì)算后,語(yǔ)音編碼器輸出長(zhǎng)度會(huì)縮短到文本長(zhǎng)度,文本編碼器輸出會(huì)拓展到音頻長(zhǎng)度。雙向注意力機(jī)制的輸出會(huì)使用Cosine distance loss、MLM loss、Grapheme CTC loss來(lái)進(jìn)行訓(xùn)練,在訓(xùn)練過(guò)程中模型會(huì)學(xué)習(xí)到語(yǔ)音和文本之間的對(duì)齊,并且語(yǔ)音編碼器和文本編碼器能學(xué)習(xí)具備一致性的特征。
基于語(yǔ)音文本的雙向注意機(jī)制多模態(tài)學(xué)習(xí)框架
如圖所示,虛線(xiàn)框內(nèi)是訓(xùn)練中增加的模塊和損失函數(shù),在解碼時(shí)不會(huì)參與計(jì)算,所以不影響解碼時(shí)期速度。Grapheme CTC loss 的作用是對(duì)經(jīng)過(guò)重采樣的語(yǔ)音嵌入和文本嵌入進(jìn)行 Grapheme 的分類(lèi),MLM Loss 作用則是使文本編碼器能夠?qū)W習(xí)語(yǔ)義信息,Cosine Embedding loss 是為了拉近語(yǔ)音嵌入與文本嵌入之間的距離。這三個(gè)損失函數(shù)都是建立在雙向注意力機(jī)制計(jì)算出來(lái)的、經(jīng)過(guò)對(duì)齊的語(yǔ)音嵌入和文本嵌入上,從而隱性讓嵌入之間獲得對(duì)齊。經(jīng)過(guò)語(yǔ)音和文本多模態(tài)訓(xùn)練后,文本編碼器可以生成接近語(yǔ)音編碼器輸出的特征,火山語(yǔ)音團(tuán)隊(duì)使用純文本數(shù)據(jù)送進(jìn)Text encoder隨后重復(fù)兩次,減小語(yǔ)音和文本之間長(zhǎng)度差異,用于解碼器的訓(xùn)練,使其學(xué)習(xí)更多的語(yǔ)義信息。
效果呈現(xiàn):經(jīng)過(guò)本論文提出的語(yǔ)音和文本多模態(tài)訓(xùn)練方式,在Librispeech公共數(shù)據(jù)集上獲得性能提升,得出僅使用帶標(biāo)簽數(shù)據(jù)訓(xùn)練時(shí),可以實(shí)現(xiàn)達(dá)6.15%的相對(duì)詞錯(cuò)誤率提升;當(dāng)使用更多的非配對(duì)文本數(shù)據(jù)時(shí),相對(duì)詞錯(cuò)誤率提升可以達(dá)到9.23%。
利用字符級(jí)別語(yǔ)種分割減少跨語(yǔ)種語(yǔ)音識(shí)別中的語(yǔ)種混淆(Reducing Language Confusion for Code-switching Speech Recognition with Token-level Language Diarization)
研究背景:通常,語(yǔ)種轉(zhuǎn)換發(fā)生在語(yǔ)音信號(hào)的語(yǔ)種變換時(shí)會(huì)導(dǎo)致跨語(yǔ)種語(yǔ)音識(shí)別的語(yǔ)種混淆問(wèn)題。對(duì)此,火山語(yǔ)音團(tuán)隊(duì)從融合和解耦語(yǔ)種信息兩個(gè)角度解決語(yǔ)種混淆問(wèn)題,從而提升跨語(yǔ)種語(yǔ)音識(shí)別的性能。
方法分析:具體來(lái)說(shuō)對(duì)于融合語(yǔ)種信息的過(guò)程,團(tuán)隊(duì)通過(guò)使用一個(gè)基于序列對(duì)序列的語(yǔ)種分割的副任務(wù)來(lái)生成字符級(jí)別的語(yǔ)種后驗(yàn)概率,并使用語(yǔ)種后驗(yàn)概率來(lái)動(dòng)態(tài)調(diào)整跨語(yǔ)種語(yǔ)音識(shí)別模型;相反解耦的過(guò)程則是通過(guò)對(duì)抗減少不同語(yǔ)種間的差別,從而將不同語(yǔ)種歸一化。兩種不同方法實(shí)現(xiàn)構(gòu)架如下圖所示:
The hybrid CTC/attention model (a) incorporating language information using language posterior bias, and (b) disentangling language via adversarial learning
效果呈現(xiàn):我們將提出的方法在SEAME數(shù)據(jù)集上進(jìn)行了驗(yàn)證。和基線(xiàn)模型相比,結(jié)合了語(yǔ)種分割任務(wù)的多任務(wù)訓(xùn)練和團(tuán)隊(duì)提出的語(yǔ)種后驗(yàn)概率偏置方法均取得了性能提升。“與此同時(shí),將融合和解耦語(yǔ)種信息的兩種方法進(jìn)行了比較,我們發(fā)現(xiàn)比較結(jié)果表面融合語(yǔ)種信息,可以更有效地提升跨語(yǔ)種的語(yǔ)音識(shí)別性能。”團(tuán)隊(duì)強(qiáng)調(diào)。
一種無(wú)需ASR的基于自監(jiān)督學(xué)習(xí)的流利度評(píng)分方法 (An ASR-free Fluency Scoring Approach with Self-supervised Learning )
研究背景:口語(yǔ)流利度,即發(fā)音語(yǔ)速快慢以及是否出現(xiàn)異常停頓,是反映對(duì)應(yīng)習(xí)得語(yǔ)言熟練程度的重要指標(biāo)之一。此前的大多數(shù)判斷方法往往需要借助ASR系統(tǒng)獲得語(yǔ)音單元(例如單詞、音節(jié)、音素等)的時(shí)間對(duì)齊信息,基于此來(lái)進(jìn)一步計(jì)算或表示語(yǔ)音流利度的特征,但目標(biāo)語(yǔ)言的ASR系統(tǒng)并非總能輕易獲得以上信息,此外在過(guò)程中還會(huì)產(chǎn)生不可避免的識(shí)別錯(cuò)誤。對(duì)此火山語(yǔ)音團(tuán)隊(duì)提出了一種嶄新且無(wú)需ASR系統(tǒng)的、基于自監(jiān)督學(xué)習(xí)的流利度評(píng)分方法,也就是利用自監(jiān)督預(yù)訓(xùn)練語(yǔ)音模型Wav2vec 2.0 產(chǎn)生的幀級(jí)語(yǔ)音表征,以及經(jīng)過(guò)聚類(lèi)算法生成的幀級(jí)偽標(biāo)簽,作為后續(xù)序列模型的輸入,最終完成流利度分?jǐn)?shù)的預(yù)測(cè)。
The proposed ASR-free fluency scoring framework
效果呈現(xiàn):后續(xù)實(shí)踐結(jié)果表示,該方案在機(jī)器預(yù)測(cè)結(jié)果和人類(lèi)專(zhuān)家打分之間的相關(guān)性達(dá)到了0.797, 明顯好于之前依賴(lài)ASR系統(tǒng)的方法所達(dá)到的0.759。方案利用了自監(jiān)督語(yǔ)音特征強(qiáng)大的音素鑒別能力,使用幀級(jí)聚類(lèi)偽標(biāo)簽序列來(lái)模擬基于ASR的音素時(shí)間對(duì)齊,不僅移除了對(duì)ASR的依賴(lài)而且展現(xiàn)了更可靠的評(píng)分性能。
利用音素級(jí)別的語(yǔ)言-聲學(xué)相似度進(jìn)行句子級(jí)別的發(fā)音評(píng)分 (Leveraging Phone-level Linguistic-Acoustic Similarity for Utterance-level Pronunciation Scoring)
研究背景:所謂自動(dòng)發(fā)音評(píng)分系統(tǒng)往往需要度量學(xué)習(xí)者實(shí)際發(fā)音和參考發(fā)音的偏離程度來(lái)估計(jì)整體的發(fā)音準(zhǔn)確度,但以往方法大多數(shù)是通過(guò)加和或者連接聲學(xué)嵌入和音素嵌入等這些隱式方式來(lái)實(shí)現(xiàn)的。對(duì)此,火山語(yǔ)音團(tuán)隊(duì)提出了利用音素級(jí)別的語(yǔ)言-聲學(xué)相似度進(jìn)行句子級(jí)別的發(fā)音評(píng)分方法, 相比于隱式的度量方式,通過(guò)聲學(xué)嵌入和音素嵌入的余弦相似度去顯式描述實(shí)際發(fā)音和參考發(fā)音的偏離程度的方法效果更好,并將此作為額外特征與原有的兩種嵌入序列一起融入后續(xù)的序列模型,來(lái)完成最終發(fā)音準(zhǔn)確度的評(píng)分。
The hierarchical architecture of the pronunciation scoring network, where phone-level features can be calculated by using add_phone, concat_phone or our proposed method
效果呈現(xiàn):這種顯式的度量方法在內(nèi)部與公開(kāi)數(shù)據(jù)集上被證實(shí)明顯優(yōu)于以往的加和與連接的隱式度量方法,也就是說(shuō)基于音素級(jí)別GOP的預(yù)訓(xùn)練在所有的度量方式上均取得了較大提升;結(jié)合語(yǔ)言-聲學(xué)相似度的顯示度量和GOP預(yù)訓(xùn)練的打分系統(tǒng)取得了最佳評(píng)分性能,其機(jī)器預(yù)測(cè)結(jié)果和人類(lèi)專(zhuān)家打分之間的相關(guān)性達(dá)到了0.858,顯著高于論文報(bào)告的多個(gè)基線(xiàn)系統(tǒng)。
基于內(nèi)部語(yǔ)言模型估計(jì)的跨域自適應(yīng)的語(yǔ)言模型融合(Internal Language Model Estimation based Adaptive Language Model Fusion for Domain Adaptation)
研究背景:只要在通用領(lǐng)域或特定目標(biāo)領(lǐng)域有足夠多的文本,內(nèi)部語(yǔ)言模型融合就能顯著改善端到端語(yǔ)音識(shí)別性能。但當(dāng)一個(gè)通用領(lǐng)域商業(yè)語(yǔ)音識(shí)別系統(tǒng)部署后,由于數(shù)據(jù)訪(fǎng)問(wèn)受到限制,用戶(hù)往往只具有與自己相關(guān)的特定目標(biāo)領(lǐng)域文本數(shù)據(jù),也就是說(shuō)由于數(shù)據(jù)保密等原因,用戶(hù)不能獲取原通用領(lǐng)域文本數(shù)據(jù),因此通過(guò)內(nèi)部語(yǔ)言融合的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)只能在用戶(hù)特定的領(lǐng)域獲取性能改善,而在通用領(lǐng)域性能上則會(huì)造成損傷、顯著降低。基于上述原因,論文提出一種在用戶(hù)只具有特定目標(biāo)領(lǐng)域文本數(shù)據(jù)前提下,相對(duì)傳統(tǒng)的內(nèi)部語(yǔ)言模型估計(jì)融合方法,實(shí)現(xiàn)在特定領(lǐng)域獲取性能顯著改善,而在通用領(lǐng)域仍然能取得較好性能的自適應(yīng)性語(yǔ)言模型融合方法。
方法分析:該方法基于內(nèi)部語(yǔ)言模型估計(jì),前提是當(dāng)一個(gè)語(yǔ)音識(shí)別系統(tǒng)交付上線(xiàn)后,提供用戶(hù)訪(fǎng)問(wèn)的子系統(tǒng)有端到端語(yǔ)音識(shí)別系統(tǒng)以及內(nèi)部語(yǔ)言模型。用戶(hù)只需關(guān)注自己特定領(lǐng)域的語(yǔ)言模型,就能獲取在特定領(lǐng)域性能明顯改善,并且在通用領(lǐng)域性能達(dá)到很小損失的結(jié)果。具體做法,識(shí)別系統(tǒng)在做語(yǔ)言模型融合的時(shí)候,比較基于每個(gè)子詞在內(nèi)部語(yǔ)言模型和用戶(hù)特定語(yǔ)言模型的得分,根據(jù)大小來(lái)決定是否做內(nèi)部語(yǔ)言模型融合,實(shí)現(xiàn)所謂的自適應(yīng)融合功能。
效果呈現(xiàn):為驗(yàn)證該方法的有效性,火山語(yǔ)音團(tuán)隊(duì)以10萬(wàn)小時(shí)訓(xùn)練得到的中文語(yǔ)音識(shí)別系統(tǒng)為通用領(lǐng)域識(shí)別系統(tǒng),另外將醫(yī)療和小說(shuō)搜索定義為特定領(lǐng)域,結(jié)果證明可以在特定領(lǐng)域取得18.6% 相對(duì)字錯(cuò)誤率降低,而在通用領(lǐng)域只有2.4%的相對(duì)字錯(cuò)誤率的升高。
一直以來(lái),火山語(yǔ)音團(tuán)隊(duì)面向字節(jié)跳動(dòng)內(nèi)部各業(yè)務(wù)線(xiàn),提供優(yōu)質(zhì)的語(yǔ)音AI技術(shù)能力以及全棧語(yǔ)音產(chǎn)品解決方案,并通過(guò)火山引擎對(duì)外提供服務(wù)。自 2017 年成立以來(lái),團(tuán)隊(duì)專(zhuān)注研發(fā)行業(yè)領(lǐng)先的 AI 智能語(yǔ)音技術(shù),不斷探索AI 與業(yè)務(wù)場(chǎng)景的高效結(jié)合,以實(shí)現(xiàn)更大的用戶(hù)價(jià)值。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )