日前 ACL 2023的論文錄用結(jié)果公布,火山語(yǔ)音團(tuán)隊(duì)多篇論文成功入選,內(nèi)容涵蓋音頻合成、歌聲合成以及語(yǔ)音翻譯等多個(gè)前沿技術(shù)領(lǐng)域的創(chuàng)新突破。ACL(Annual Meeting of the Association for Computational Linguistics)每年由國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)舉辦,是自然語(yǔ)言處理與計(jì)算語(yǔ)言學(xué)領(lǐng)域最高級(jí)別的學(xué)術(shù)會(huì)議,也是中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)A類推薦會(huì)議,在世界范圍內(nèi)享有極高聲譽(yù),并受到全球各地語(yǔ)言領(lǐng)域人士的廣泛關(guān)注。
結(jié)合視覺(jué)信息的端到端語(yǔ)音翻譯( AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation)
研究背景:眾所周知,語(yǔ)音到語(yǔ)音翻譯(S2ST)對(duì)于打破語(yǔ)言壁壘與溝通障礙非常有益。近年來(lái)業(yè)內(nèi)利用自監(jiān)督模型獲得的離散單元,構(gòu)建無(wú)文本且端到端的 S2ST 系統(tǒng)逐漸成為主流,但當(dāng)前的S2ST模型在帶噪的環(huán)境中仍然存在明顯退化,并且無(wú)法翻譯視覺(jué)語(yǔ)音(即唇動(dòng))。在這項(xiàng)工作提升中,火山語(yǔ)音團(tuán)隊(duì)聯(lián)合浙江大學(xué)提出了AV-TranSpeech,業(yè)內(nèi)首個(gè)借助視頻信息的無(wú)文本語(yǔ)音到語(yǔ)音翻譯(AV-S2ST)模型,通過(guò)視覺(jué)信息補(bǔ)充音頻流,以提高系統(tǒng)的穩(wěn)健性,并開(kāi)辟了一系列應(yīng)用前景,例如口述、為檔案電影配音等。
方法介紹:為了緩解AV-S2ST數(shù)據(jù)稀缺,團(tuán)隊(duì)率先探索使用無(wú)標(biāo)記音視頻數(shù)據(jù)進(jìn)行自監(jiān)督預(yù)訓(xùn)練,以學(xué)習(xí)上下文表示;此外使用在純音頻語(yǔ)料庫(kù)上訓(xùn)練的S2ST模型引入跨模態(tài)蒸餾,進(jìn)一步降低對(duì)視覺(jué)數(shù)據(jù)的要求。在兩種語(yǔ)言對(duì)的實(shí)驗(yàn)結(jié)果表明,無(wú)論噪聲類型如何,AV-TranSpeech在所有設(shè)置下都優(yōu)于純音頻模型,尤其是在低資源數(shù)據(jù)(10小時(shí)、30小時(shí))下,跨模態(tài)蒸餾可提高7.6 個(gè)BLEU點(diǎn)。“如圖所示,我們使用自監(jiān)督HuBERT來(lái)獲得目標(biāo)語(yǔ)音的離散單元;建立視聽(tīng)語(yǔ)音到單元轉(zhuǎn)換(AV-S2UT)和應(yīng)用單獨(dú)訓(xùn)練的基于單元的聲碼器以將轉(zhuǎn)換的單元轉(zhuǎn)換成波形。”火山語(yǔ)音團(tuán)隊(duì)表示。
為了緩解音頻和視頻表示之間的長(zhǎng)度不匹配,團(tuán)隊(duì)還添加了一個(gè)隨機(jī)初始化的模態(tài)適配器層,該層由音頻和視頻流之間的步長(zhǎng)為2的單個(gè)一維卷積層組成。“為了防止模型在聯(lián)合模型中過(guò)度依賴音頻流,我們?cè)谌诤弦纛l和視覺(jué)輸入之前,包括一個(gè)概率為p=50%的模態(tài)Dropout,迫使視覺(jué)編碼器學(xué)習(xí)上下文表示。”
圖1:AV-TranSpeech模型架構(gòu)圖
呈現(xiàn)效果:總結(jié)翻譯準(zhǔn)確性和語(yǔ)音自然度,火山語(yǔ)音發(fā)現(xiàn):大規(guī)模多模式預(yù)訓(xùn)練在很大程度上提高了性能,這主要是因?yàn)長(zhǎng)RS3-T是一個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集,有很大一部分視頻是從TED演講中收集的,顯示了在不依賴中間文本或輔助多任務(wù)訓(xùn)練下S2ST的難度。此外,視覺(jué)模態(tài)的引入能夠帶來(lái)平均2.0個(gè) BLEU點(diǎn)的增益,即用視覺(jué)信息補(bǔ)充音頻流,開(kāi)辟了一系列實(shí)際應(yīng)用,比方說(shuō)實(shí)現(xiàn)無(wú)聲聽(tīng)寫(xiě)或?yàn)闄n案無(wú)聲電影配音。對(duì)于語(yǔ)音質(zhì)量,由于團(tuán)隊(duì)?wèi)?yīng)用了公開(kāi)可用的預(yù)訓(xùn)練單元聲碼器,該聲碼器主要控制輸出語(yǔ)音的自然度并保持不變,AV-TranSpeech表現(xiàn)出高質(zhì)量的語(yǔ)音生成。
利用文本-語(yǔ)音對(duì)比學(xué)習(xí)提出針對(duì)語(yǔ)音合成的韻律文本表征 (CLAPSpeech: Learning Prosody from Text Context with Contrastive Language-Audio Pre-Training)
研究背景:提高文本表征是實(shí)現(xiàn)富有韻律的語(yǔ)音合成系統(tǒng)的重要途徑,然而現(xiàn)有的工作通常采用基于語(yǔ)言模型 (BERT) 的文本表征來(lái)提升合成語(yǔ)音的韻律的方法,這就帶來(lái)了使用預(yù)測(cè)掩碼標(biāo)記(masked token prediction)任務(wù)進(jìn)行預(yù)訓(xùn)練,更關(guān)注的卻是文本的語(yǔ)義信息而非語(yǔ)音的韻律,從而導(dǎo)致訓(xùn)練效率低以及韻律建模困難等問(wèn)題。
方法介紹:基于上述觀察,火山語(yǔ)音團(tuán)隊(duì)聯(lián)合浙江大學(xué)提出了CLAPSpeech,這是一個(gè)跨文本-語(yǔ)音模態(tài)的對(duì)比預(yù)訓(xùn)練方法。與現(xiàn)有工作不同,它從相同文本標(biāo)記在不同語(yǔ)境下的韻律變化中學(xué)習(xí),因而能夠顯式高效地從文本中提取韻律相關(guān)的信息。具體而言,首先我們巧妙設(shè)計(jì)一個(gè)文本編碼器和韻律編碼器,鼓勵(lì)模型在聯(lián)合跨模態(tài)空間中將文本上下文與其對(duì)應(yīng)的韻律模式連接起來(lái);第二團(tuán)隊(duì)引入了多尺度預(yù)訓(xùn)練方案,以在音素、詞匯等不同層次上捕獲韻律模式;最后展示了如何將CLAPSpeech整合到現(xiàn)有的TTS模型中以獲得更好的韻律。
圖2: CLAPSpeech的文本-語(yǔ)音跨模態(tài)對(duì)比學(xué)習(xí)訓(xùn)練流程
呈現(xiàn)效果:在兩個(gè)1000小時(shí)級(jí)別的中英文語(yǔ)音合成數(shù)據(jù)集完成的實(shí)驗(yàn)均表明,采用CLAPSpeech提供的文本表征可以顯著提升現(xiàn)有TTS方法的韻律建模;實(shí)驗(yàn)同時(shí)還證明了CLAPSpeech的泛化能力,可以適應(yīng)多語(yǔ)言和多說(shuō)話人的復(fù)雜語(yǔ)音合成任務(wù)?,F(xiàn)有的語(yǔ)音合成、歌聲合成等系統(tǒng)都可以很方便地使用CLAPSpeech預(yù)訓(xùn)練模型的文本表征以提升合成音頻的韻律自然程度。
基于跨模態(tài)對(duì)齊的從語(yǔ)音到歌聲轉(zhuǎn)換( AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment)
研究背景:從語(yǔ)音到歌聲轉(zhuǎn)換(Speech-to-Singing,STS)任務(wù)的目標(biāo)是將語(yǔ)音樣本轉(zhuǎn)換為內(nèi)容(歌詞)一致的歌聲樣本,同時(shí)保證說(shuō)話人的音色不變。在轉(zhuǎn)換的過(guò)程中,需要提供目標(biāo)音高作為轉(zhuǎn)換的參考,相關(guān)的研究與技術(shù)不僅有助于探索人類聲音的合成規(guī)律,也對(duì)計(jì)算機(jī)輔助音樂(lè)制作等領(lǐng)域有幫助。通常STS任務(wù)與傳統(tǒng)人聲轉(zhuǎn)換任務(wù)(Voice Conversion,VC)不同的一點(diǎn)是其需要轉(zhuǎn)換兩個(gè)獨(dú)立特征:第一個(gè)是節(jié)奏,即時(shí)間模態(tài),是音素在時(shí)域上的排列方式;第二個(gè)是音高,即頻率模態(tài)。以往的STS方法側(cè)重于音高的轉(zhuǎn)換,忽略了音素位置在語(yǔ)音和歌聲兩者之間的差距,這會(huì)導(dǎo)致合成的音素含混不清、順序混亂,同時(shí)由于歌曲制作中常見(jiàn)的一字多音等情況,字符序列在給定的音高序列中的位置分配情也是是一個(gè)復(fù)雜的概率分布。
圖3:AlignSTS模型架構(gòu)圖
方法介紹:對(duì)此,本方法提出了跨模態(tài)對(duì)齊的解決方案。重要的一點(diǎn),團(tuán)隊(duì)提出了一個(gè)更簡(jiǎn)潔高效的時(shí)間模態(tài)表示,即節(jié)奏特征。該特征被用于縮小語(yǔ)音內(nèi)容和目標(biāo)音高之間的模態(tài)差異,可被視為一種軟化的時(shí)長(zhǎng)標(biāo)注。根據(jù)經(jīng)驗(yàn)觀察,人類總能在給定歌詞序列和音高序列的前提下創(chuàng)作出聽(tīng)感合理的歌詞節(jié)奏,說(shuō)明連接這兩者的節(jié)奏特征的概率分布可被良好定義。本方法先對(duì)輸入語(yǔ)音信息進(jìn)行破壞和解耦,接著使用交叉注意力機(jī)制建模目標(biāo)節(jié)奏特征,并使用節(jié)奏特征對(duì)語(yǔ)音特征進(jìn)行重排列和重對(duì)齊,最后再使用擴(kuò)散模型作為聲學(xué)特征解碼器以提高音質(zhì)。
呈現(xiàn)效果:在多輪實(shí)驗(yàn)中,本方法在總質(zhì)量MOS評(píng)分和韻律MOS評(píng)分中獲得了平均0.39和0.36的提升;同時(shí)在零樣本測(cè)試中,只在純歌聲數(shù)據(jù)集上訓(xùn)練的模型能夠在未見(jiàn)語(yǔ)音數(shù)據(jù)上獲得0.11的提升,展現(xiàn)了良好的泛化性能。
針對(duì)口吃語(yǔ)音提出的自動(dòng)化語(yǔ)音編輯系統(tǒng)(FluentSpeech: A Stutter-Oriented Automatic Speech Editing System)
研究背景:最近基于文本的語(yǔ)音編輯受到業(yè)界的廣泛關(guān)注,其中口吃消除作為語(yǔ)音編輯的一個(gè)關(guān)鍵子任務(wù),有著十分廣泛的應(yīng)用場(chǎng)景,如短視頻、電影、播客、YouTube視頻,講座等,能夠?yàn)槊襟w制作人提供極大的便利。然而之前的語(yǔ)音編輯工作仍然存在諸多不足之處,例如:
· 音質(zhì)較低。生成的mel聲譜圖通常是模糊的,并且缺乏高頻細(xì)節(jié),導(dǎo)致修改區(qū)域出現(xiàn)不自然的聲音;
· 沒(méi)有針對(duì)口吃語(yǔ)音進(jìn)行設(shè)計(jì)。當(dāng)需要編輯的語(yǔ)音充滿口吃時(shí),由于文本和口吃語(yǔ)音內(nèi)容之間的差異,導(dǎo)致文本到語(yǔ)音的對(duì)齊過(guò)程受到影響,使得系統(tǒng)的魯棒性降低;
· 口吃區(qū)域需要手動(dòng)定位,這對(duì)媒體制作人來(lái)說(shuō)既費(fèi)時(shí)又費(fèi)力。
對(duì)此該論文首創(chuàng)性地針對(duì)口吃語(yǔ)音提出了一個(gè)自動(dòng)化語(yǔ)音編輯系統(tǒng),也就是FluentSpeech。這是首個(gè)針對(duì)口吃消除任務(wù)進(jìn)行優(yōu)化的語(yǔ)音編輯系統(tǒng),可以自動(dòng)檢測(cè)口吃區(qū)域?qū)⑵淙コ?,并同時(shí)生成具有豐富細(xì)節(jié)的流暢語(yǔ)音。此外它也在其他語(yǔ)音編輯任務(wù)(如增、刪、改等)達(dá)到了SOTA效果,能夠完成多場(chǎng)景下的零樣本語(yǔ)音編輯,極大節(jié)省了配音人員、媒體制作者的人力投入。
圖4:FluentSpeech模型架構(gòu)圖
方法介紹:首先團(tuán)隊(duì)采用了一種上下文感知的擴(kuò)散模型,該模型可以顯式理解待編輯語(yǔ)音的上下文信息(如基頻、持續(xù)時(shí)間、口吃信息等)并利用這些信息作為條件來(lái)指導(dǎo)擴(kuò)散和反向過(guò)程,這有助于FluentSpeech生成高質(zhì)量而過(guò)渡自然的結(jié)果。“為了提高對(duì)口吃語(yǔ)音的魯棒性,我們?cè)谟?xùn)練過(guò)程中引入了一種條件口吃預(yù)測(cè)器,該預(yù)測(cè)器定位口吃區(qū)域,并將口吃信息注入幀級(jí)隱序列,以減少文本和口吃語(yǔ)音之間的信息差異。”此外預(yù)測(cè)的口吃區(qū)域可以被用于自動(dòng)口吃去除過(guò)程。另外還提出了一個(gè)新的數(shù)據(jù)集,稱為“面向口吃的自動(dòng)語(yǔ)音編輯數(shù)據(jù)集”,該數(shù)據(jù)集包含具有時(shí)間對(duì)齊的口吃標(biāo)簽的語(yǔ)音數(shù)據(jù),可以用于相關(guān)語(yǔ)音編輯系統(tǒng)的訓(xùn)練。
呈現(xiàn)效果:該系統(tǒng)在VCTK數(shù)據(jù)集上與最新的基線系統(tǒng)進(jìn)行了對(duì)比實(shí)驗(yàn),在常規(guī)語(yǔ)音編輯任務(wù)中,音質(zhì)主觀評(píng)測(cè)MOS分?jǐn)?shù)提升了0.18,說(shuō)話人相似度主觀評(píng)測(cè)MOS分?jǐn)?shù)提升了0.15。在該論文新收集的口吃語(yǔ)音數(shù)據(jù)集的實(shí)驗(yàn)中,系統(tǒng)對(duì)口吃語(yǔ)音具有很高的魯棒性,其口吃區(qū)域預(yù)測(cè)的幀級(jí)別準(zhǔn)確度為80.5%,能夠顯著提高口吃語(yǔ)音的流暢性。
一直以來(lái),火山語(yǔ)音團(tuán)隊(duì)面向字節(jié)跳動(dòng)內(nèi)部各業(yè)務(wù)線,提供優(yōu)質(zhì)的語(yǔ)音AI技術(shù)能力以及全棧語(yǔ)音產(chǎn)品解決方案,并通過(guò)火山引擎對(duì)外提供服務(wù)。自 2017 年成立以來(lái),團(tuán)隊(duì)專注研發(fā)行業(yè)領(lǐng)先的 AI 智能語(yǔ)音技術(shù),不斷探索AI 與業(yè)務(wù)場(chǎng)景的高效結(jié)合,以實(shí)現(xiàn)更大的用戶價(jià)值。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )