精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<button id="i8s88"></button>

<table id="i8s88"><strong id="i8s88"></strong></table>

<table id="i8s88"><tbody id="i8s88"></tbody></table><li id="i8s88"><delect id="i8s88"></delect></li>

<nav id="i8s88"></nav>

直播
榜單
7x24h快訊

極客網(wǎng) > 7x24h快訊 > 極客快訊 >

多篇論文入選ICASSP 2023，火山語(yǔ)音有效解決多類(lèi)實(shí)踐問(wèn)題

人閱讀
2023-06-06 15:56:13
來(lái)源：網(wǎng)易新聞
相關(guān)關(guān)鍵詞
- 火山語(yǔ)音

近日由IEEE主辦、被譽(yù)為世界范圍內(nèi)最大規(guī)模、也是最全面的信號(hào)處理及其應(yīng)用方面的頂級(jí)學(xué)術(shù)會(huì)議ICASSP2023于希臘召開(kāi)，該會(huì)議具有權(quán)威、廣泛的學(xué)界以及工業(yè)界影響力，備受AI領(lǐng)域多方關(guān)注。會(huì)上火山語(yǔ)音多篇論文被接收并發(fā)表，內(nèi)容涵蓋眾多前沿領(lǐng)域的技術(shù)創(chuàng)新，并有效解決了字音轉(zhuǎn)換、語(yǔ)種混淆等實(shí)踐問(wèn)題。

LiteG2P：一種快速、輕量級(jí)、高精度的字音轉(zhuǎn)換模型(LiteG2P: A Fast, Light and High Accuracy Model for Grapheme-to-Phoneme Conversion )

研究背景：眾所周知，字音轉(zhuǎn)換(G2P)旨在將單詞轉(zhuǎn)換為其對(duì)應(yīng)的發(fā)音表示，通常被廣泛應(yīng)用于語(yǔ)音識(shí)別(ASR)及語(yǔ)音合成(TTS)等語(yǔ)音任務(wù)中，但現(xiàn)有方法中基于規(guī)則的方法預(yù)測(cè)精度往往較差，還需要大量專(zhuān)家經(jīng)驗(yàn)的輔助;其中基于數(shù)據(jù)驅(qū)動(dòng)的深度模型方案雖然精度高，但模型尺寸往往較大且計(jì)算效率偏低。對(duì)此，火山語(yǔ)音團(tuán)隊(duì)提出了一種高效快速、輕量級(jí)、高精度的字音轉(zhuǎn)換模型，可進(jìn)一步適用于多類(lèi)端側(cè)設(shè)備。

方法分析：LiteG2P結(jié)合數(shù)據(jù)驅(qū)動(dòng)和知識(shí)驅(qū)動(dòng)的優(yōu)勢(shì)，得以在控制模型尺寸較小的同時(shí)取得較高精度，模型層面上不同于傳統(tǒng)的基于注意力機(jī)制的序列到序列預(yù)測(cè)模型，而是采用CTC損失進(jìn)行字音的對(duì)齊，同時(shí)使得模型具備了并行預(yù)測(cè)音素序列的優(yōu)勢(shì);除此之外，火山語(yǔ)音團(tuán)隊(duì)還額外引入了語(yǔ)言知識(shí)詞典，用以指導(dǎo)字母擴(kuò)展長(zhǎng)度以及縮小目標(biāo)預(yù)測(cè)音素集合。

The architecture of LiteG2P

效果呈現(xiàn)：最終LiteG2P模型相較于主流基線(xiàn)模型具有高精度、并行化、輕量級(jí)、快速等優(yōu)勢(shì)，與主流基線(xiàn)模型在準(zhǔn)確率相當(dāng)?shù)耐瑫r(shí)速度提升30倍以上，參數(shù)量小10倍以上;可一套模型架構(gòu)同時(shí)部署在端云多種類(lèi)型設(shè)備上，在端側(cè)設(shè)備上單個(gè)單詞的推理速度預(yù)測(cè)為5ms以?xún)?nèi)，云端設(shè)備2ms以?xún)?nèi)。

基于雙向注意力機(jī)制的語(yǔ)音文本的多模態(tài)訓(xùn)練提升語(yǔ)音識(shí)別性能(SPEECH-TEXT BASED MULTI-MODAL TRAINING WITH BIDIRECTIONAL ATTENTION FOR IMPROVED SPEECH RECOGNITION)

研究背景：如今，盡管端對(duì)端模型簡(jiǎn)化了訓(xùn)練流程，將聲學(xué)模型、詞典、語(yǔ)言模型合并在一個(gè)統(tǒng)一的模型中，但卻非常依賴(lài)大量的帶標(biāo)簽訓(xùn)練數(shù)據(jù)。相比于帶標(biāo)簽數(shù)據(jù)，不成對(duì)的數(shù)據(jù)，例如純音頻或者純文本數(shù)據(jù)更容易獲取。為了緩解數(shù)據(jù)的稀疏性問(wèn)題，往往會(huì)嘗試將不成對(duì)的數(shù)據(jù)參與到訓(xùn)練中，有利于在低資源場(chǎng)景下訓(xùn)練出性能良好的端到端語(yǔ)音識(shí)別模型。本篇論文正是使用純文本數(shù)據(jù)參與端到端模型解碼器的訓(xùn)練，使解碼器學(xué)習(xí)到更多的語(yǔ)義信息，從而改善模型性能。此過(guò)程需要使用文本編碼器去擬合音頻編碼器的輸出，從而解決解碼器訓(xùn)練依賴(lài)于編碼器的問(wèn)題。由于音頻和文本長(zhǎng)度不一致，論文提出使用基于雙向注意力機(jī)制的語(yǔ)音文本的多模態(tài)訓(xùn)練方式，自動(dòng)學(xué)習(xí)語(yǔ)音和文本之間的對(duì)齊關(guān)系。

方法分析：具體方式，語(yǔ)音編碼器輸出與文本編碼器輸出經(jīng)過(guò)雙向注意力計(jì)算后，語(yǔ)音編碼器輸出長(zhǎng)度會(huì)縮短到文本長(zhǎng)度，文本編碼器輸出會(huì)拓展到音頻長(zhǎng)度。雙向注意力機(jī)制的輸出會(huì)使用Cosine distance loss、MLM loss、Grapheme CTC loss來(lái)進(jìn)行訓(xùn)練，在訓(xùn)練過(guò)程中模型會(huì)學(xué)習(xí)到語(yǔ)音和文本之間的對(duì)齊，并且語(yǔ)音編碼器和文本編碼器能學(xué)習(xí)具備一致性的特征。

基于語(yǔ)音文本的雙向注意機(jī)制多模態(tài)學(xué)習(xí)框架

如圖所示，虛線(xiàn)框內(nèi)是訓(xùn)練中增加的模塊和損失函數(shù)，在解碼時(shí)不會(huì)參與計(jì)算，所以不影響解碼時(shí)期速度。Grapheme CTC loss 的作用是對(duì)經(jīng)過(guò)重采樣的語(yǔ)音嵌入和文本嵌入進(jìn)行 Grapheme 的分類(lèi)，MLM Loss 作用則是使文本編碼器能夠?qū)W習(xí)語(yǔ)義信息，Cosine Embedding loss 是為了拉近語(yǔ)音嵌入與文本嵌入之間的距離。這三個(gè)損失函數(shù)都是建立在雙向注意力機(jī)制計(jì)算出來(lái)的、經(jīng)過(guò)對(duì)齊的語(yǔ)音嵌入和文本嵌入上，從而隱性讓嵌入之間獲得對(duì)齊。經(jīng)過(guò)語(yǔ)音和文本多模態(tài)訓(xùn)練后，文本編碼器可以生成接近語(yǔ)音編碼器輸出的特征，火山語(yǔ)音團(tuán)隊(duì)使用純文本數(shù)據(jù)送進(jìn)Text encoder隨后重復(fù)兩次，減小語(yǔ)音和文本之間長(zhǎng)度差異，用于解碼器的訓(xùn)練，使其學(xué)習(xí)更多的語(yǔ)義信息。

效果呈現(xiàn)：經(jīng)過(guò)本論文提出的語(yǔ)音和文本多模態(tài)訓(xùn)練方式，在Librispeech公共數(shù)據(jù)集上獲得性能提升，得出僅使用帶標(biāo)簽數(shù)據(jù)訓(xùn)練時(shí)，可以實(shí)現(xiàn)達(dá)6.15%的相對(duì)詞錯(cuò)誤率提升;當(dāng)使用更多的非配對(duì)文本數(shù)據(jù)時(shí)，相對(duì)詞錯(cuò)誤率提升可以達(dá)到9.23%。

利用字符級(jí)別語(yǔ)種分割減少跨語(yǔ)種語(yǔ)音識(shí)別中的語(yǔ)種混淆(Reducing Language Confusion for Code-switching Speech Recognition with Token-level Language Diarization)

研究背景：通常，語(yǔ)種轉(zhuǎn)換發(fā)生在語(yǔ)音信號(hào)的語(yǔ)種變換時(shí)會(huì)導(dǎo)致跨語(yǔ)種語(yǔ)音識(shí)別的語(yǔ)種混淆問(wèn)題。對(duì)此，火山語(yǔ)音團(tuán)隊(duì)從融合和解耦語(yǔ)種信息兩個(gè)角度解決語(yǔ)種混淆問(wèn)題，從而提升跨語(yǔ)種語(yǔ)音識(shí)別的性能。

方法分析：具體來(lái)說(shuō)對(duì)于融合語(yǔ)種信息的過(guò)程，團(tuán)隊(duì)通過(guò)使用一個(gè)基于序列對(duì)序列的語(yǔ)種分割的副任務(wù)來(lái)生成字符級(jí)別的語(yǔ)種后驗(yàn)概率，并使用語(yǔ)種后驗(yàn)概率來(lái)動(dòng)態(tài)調(diào)整跨語(yǔ)種語(yǔ)音識(shí)別模型;相反解耦的過(guò)程則是通過(guò)對(duì)抗減少不同語(yǔ)種間的差別，從而將不同語(yǔ)種歸一化。兩種不同方法實(shí)現(xiàn)構(gòu)架如下圖所示：

The hybrid CTC/attention model (a) incorporating language information using language posterior bias, and (b) disentangling language via adversarial learning

效果呈現(xiàn)：我們將提出的方法在SEAME數(shù)據(jù)集上進(jìn)行了驗(yàn)證。和基線(xiàn)模型相比，結(jié)合了語(yǔ)種分割任務(wù)的多任務(wù)訓(xùn)練和團(tuán)隊(duì)提出的語(yǔ)種后驗(yàn)概率偏置方法均取得了性能提升。“與此同時(shí)，將融合和解耦語(yǔ)種信息的兩種方法進(jìn)行了比較，我們發(fā)現(xiàn)比較結(jié)果表面融合語(yǔ)種信息，可以更有效地提升跨語(yǔ)種的語(yǔ)音識(shí)別性能。”團(tuán)隊(duì)強(qiáng)調(diào)。

一種無(wú)需ASR的基于自監(jiān)督學(xué)習(xí)的流利度評(píng)分方法 (An ASR-free Fluency Scoring Approach with Self-supervised Learning )

研究背景：口語(yǔ)流利度，即發(fā)音語(yǔ)速快慢以及是否出現(xiàn)異常停頓，是反映對(duì)應(yīng)習(xí)得語(yǔ)言熟練程度的重要指標(biāo)之一。此前的大多數(shù)判斷方法往往需要借助ASR系統(tǒng)獲得語(yǔ)音單元(例如單詞、音節(jié)、音素等)的時(shí)間對(duì)齊信息，基于此來(lái)進(jìn)一步計(jì)算或表示語(yǔ)音流利度的特征，但目標(biāo)語(yǔ)言的ASR系統(tǒng)并非總能輕易獲得以上信息，此外在過(guò)程中還會(huì)產(chǎn)生不可避免的識(shí)別錯(cuò)誤。對(duì)此火山語(yǔ)音團(tuán)隊(duì)提出了一種嶄新且無(wú)需ASR系統(tǒng)的、基于自監(jiān)督學(xué)習(xí)的流利度評(píng)分方法，也就是利用自監(jiān)督預(yù)訓(xùn)練語(yǔ)音模型Wav2vec 2.0 產(chǎn)生的幀級(jí)語(yǔ)音表征，以及經(jīng)過(guò)聚類(lèi)算法生成的幀級(jí)偽標(biāo)簽，作為后續(xù)序列模型的輸入，最終完成流利度分?jǐn)?shù)的預(yù)測(cè)。

The proposed ASR-free fluency scoring framework

效果呈現(xiàn)：后續(xù)實(shí)踐結(jié)果表示，該方案在機(jī)器預(yù)測(cè)結(jié)果和人類(lèi)專(zhuān)家打分之間的相關(guān)性達(dá)到了0.797，明顯好于之前依賴(lài)ASR系統(tǒng)的方法所達(dá)到的0.759。方案利用了自監(jiān)督語(yǔ)音特征強(qiáng)大的音素鑒別能力，使用幀級(jí)聚類(lèi)偽標(biāo)簽序列來(lái)模擬基于ASR的音素時(shí)間對(duì)齊，不僅移除了對(duì)ASR的依賴(lài)而且展現(xiàn)了更可靠的評(píng)分性能。

利用音素級(jí)別的語(yǔ)言-聲學(xué)相似度進(jìn)行句子級(jí)別的發(fā)音評(píng)分 (Leveraging Phone-level Linguistic-Acoustic Similarity for Utterance-level Pronunciation Scoring)

研究背景：所謂自動(dòng)發(fā)音評(píng)分系統(tǒng)往往需要度量學(xué)習(xí)者實(shí)際發(fā)音和參考發(fā)音的偏離程度來(lái)估計(jì)整體的發(fā)音準(zhǔn)確度，但以往方法大多數(shù)是通過(guò)加和或者連接聲學(xué)嵌入和音素嵌入等這些隱式方式來(lái)實(shí)現(xiàn)的。對(duì)此，火山語(yǔ)音團(tuán)隊(duì)提出了利用音素級(jí)別的語(yǔ)言-聲學(xué)相似度進(jìn)行句子級(jí)別的發(fā)音評(píng)分方法，相比于隱式的度量方式，通過(guò)聲學(xué)嵌入和音素嵌入的余弦相似度去顯式描述實(shí)際發(fā)音和參考發(fā)音的偏離程度的方法效果更好，并將此作為額外特征與原有的兩種嵌入序列一起融入后續(xù)的序列模型，來(lái)完成最終發(fā)音準(zhǔn)確度的評(píng)分。

The hierarchical architecture of the pronunciation scoring network, where phone-level features can be calculated by using add_phone, concat_phone or our proposed method

效果呈現(xiàn)：這種顯式的度量方法在內(nèi)部與公開(kāi)數(shù)據(jù)集上被證實(shí)明顯優(yōu)于以往的加和與連接的隱式度量方法，也就是說(shuō)基于音素級(jí)別GOP的預(yù)訓(xùn)練在所有的度量方式上均取得了較大提升;結(jié)合語(yǔ)言-聲學(xué)相似度的顯示度量和GOP預(yù)訓(xùn)練的打分系統(tǒng)取得了最佳評(píng)分性能，其機(jī)器預(yù)測(cè)結(jié)果和人類(lèi)專(zhuān)家打分之間的相關(guān)性達(dá)到了0.858，顯著高于論文報(bào)告的多個(gè)基線(xiàn)系統(tǒng)。

基于內(nèi)部語(yǔ)言模型估計(jì)的跨域自適應(yīng)的語(yǔ)言模型融合(Internal Language Model Estimation based Adaptive Language Model Fusion for Domain Adaptation)

研究背景：只要在通用領(lǐng)域或特定目標(biāo)領(lǐng)域有足夠多的文本，內(nèi)部語(yǔ)言模型融合就能顯著改善端到端語(yǔ)音識(shí)別性能。但當(dāng)一個(gè)通用領(lǐng)域商業(yè)語(yǔ)音識(shí)別系統(tǒng)部署后，由于數(shù)據(jù)訪(fǎng)問(wèn)受到限制，用戶(hù)往往只具有與自己相關(guān)的特定目標(biāo)領(lǐng)域文本數(shù)據(jù)，也就是說(shuō)由于數(shù)據(jù)保密等原因，用戶(hù)不能獲取原通用領(lǐng)域文本數(shù)據(jù)，因此通過(guò)內(nèi)部語(yǔ)言融合的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)只能在用戶(hù)特定的領(lǐng)域獲取性能改善，而在通用領(lǐng)域性能上則會(huì)造成損傷、顯著降低。基于上述原因，論文提出一種在用戶(hù)只具有特定目標(biāo)領(lǐng)域文本數(shù)據(jù)前提下，相對(duì)傳統(tǒng)的內(nèi)部語(yǔ)言模型估計(jì)融合方法，實(shí)現(xiàn)在特定領(lǐng)域獲取性能顯著改善，而在通用領(lǐng)域仍然能取得較好性能的自適應(yīng)性語(yǔ)言模型融合方法。

方法分析：該方法基于內(nèi)部語(yǔ)言模型估計(jì)，前提是當(dāng)一個(gè)語(yǔ)音識(shí)別系統(tǒng)交付上線(xiàn)后，提供用戶(hù)訪(fǎng)問(wèn)的子系統(tǒng)有端到端語(yǔ)音識(shí)別系統(tǒng)以及內(nèi)部語(yǔ)言模型。用戶(hù)只需關(guān)注自己特定領(lǐng)域的語(yǔ)言模型，就能獲取在特定領(lǐng)域性能明顯改善，并且在通用領(lǐng)域性能達(dá)到很小損失的結(jié)果。具體做法，識(shí)別系統(tǒng)在做語(yǔ)言模型融合的時(shí)候，比較基于每個(gè)子詞在內(nèi)部語(yǔ)言模型和用戶(hù)特定語(yǔ)言模型的得分，根據(jù)大小來(lái)決定是否做內(nèi)部語(yǔ)言模型融合，實(shí)現(xiàn)所謂的自適應(yīng)融合功能。

效果呈現(xiàn)：為驗(yàn)證該方法的有效性，火山語(yǔ)音團(tuán)隊(duì)以10萬(wàn)小時(shí)訓(xùn)練得到的中文語(yǔ)音識(shí)別系統(tǒng)為通用領(lǐng)域識(shí)別系統(tǒng)，另外將醫(yī)療和小說(shuō)搜索定義為特定領(lǐng)域，結(jié)果證明可以在特定領(lǐng)域取得18.6% 相對(duì)字錯(cuò)誤率降低，而在通用領(lǐng)域只有2.4%的相對(duì)字錯(cuò)誤率的升高。

一直以來(lái)，火山語(yǔ)音團(tuán)隊(duì)面向字節(jié)跳動(dòng)內(nèi)部各業(yè)務(wù)線(xiàn)，提供優(yōu)質(zhì)的語(yǔ)音AI技術(shù)能力以及全棧語(yǔ)音產(chǎn)品解決方案，并通過(guò)火山引擎對(duì)外提供服務(wù)。自 2017 年成立以來(lái)，團(tuán)隊(duì)專(zhuān)注研發(fā)行業(yè)領(lǐng)先的 AI 智能語(yǔ)音技術(shù)，不斷探索AI 與業(yè)務(wù)場(chǎng)景的高效結(jié)合，以實(shí)現(xiàn)更大的用戶(hù)價(jià)值。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。）

極客觀察

贊助商

簡(jiǎn)版
原版
投稿
回頂部

<center id="0tft4"><input id="0tft4"><div id="0tft4"></div></input></center>