精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

直播
榜單
7x24h快訊

極客網(wǎng) > 7x24h快訊 > 極客快訊 >

「ACL 2023」：火山語(yǔ)音團(tuán)隊(duì)多篇論文中選，涉多方向技術(shù)創(chuàng)新突破

人閱讀
2023-05-30 17:08:19
來(lái)源：互聯(lián)網(wǎng)
相關(guān)關(guān)鍵詞
- 火山語(yǔ)音

日前 ACL 2023的論文錄用結(jié)果公布，火山語(yǔ)音團(tuán)隊(duì)多篇論文成功入選，內(nèi)容涵蓋音頻合成、歌聲合成以及語(yǔ)音翻譯等多個(gè)前沿技術(shù)領(lǐng)域的創(chuàng)新突破。ACL(Annual Meeting of the Association for Computational Linguistics)每年由國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)舉辦，是自然語(yǔ)言處理與計(jì)算語(yǔ)言學(xué)領(lǐng)域最高級(jí)別的學(xué)術(shù)會(huì)議，也是中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)A類推薦會(huì)議，在世界范圍內(nèi)享有極高聲譽(yù)，并受到全球各地語(yǔ)言領(lǐng)域人士的廣泛關(guān)注。

結(jié)合視覺(jué)信息的端到端語(yǔ)音翻譯( AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation)

研究背景：眾所周知，語(yǔ)音到語(yǔ)音翻譯(S2ST)對(duì)于打破語(yǔ)言壁壘與溝通障礙非常有益。近年來(lái)業(yè)內(nèi)利用自監(jiān)督模型獲得的離散單元，構(gòu)建無(wú)文本且端到端的 S2ST 系統(tǒng)逐漸成為主流，但當(dāng)前的S2ST模型在帶噪的環(huán)境中仍然存在明顯退化，并且無(wú)法翻譯視覺(jué)語(yǔ)音(即唇動(dòng))。在這項(xiàng)工作提升中，火山語(yǔ)音團(tuán)隊(duì)聯(lián)合浙江大學(xué)提出了AV-TranSpeech，業(yè)內(nèi)首個(gè)借助視頻信息的無(wú)文本語(yǔ)音到語(yǔ)音翻譯(AV-S2ST)模型，通過(guò)視覺(jué)信息補(bǔ)充音頻流，以提高系統(tǒng)的穩(wěn)健性，并開(kāi)辟了一系列應(yīng)用前景，例如口述、為檔案電影配音等。

方法介紹：為了緩解AV-S2ST數(shù)據(jù)稀缺，團(tuán)隊(duì)率先探索使用無(wú)標(biāo)記音視頻數(shù)據(jù)進(jìn)行自監(jiān)督預(yù)訓(xùn)練，以學(xué)習(xí)上下文表示;此外使用在純音頻語(yǔ)料庫(kù)上訓(xùn)練的S2ST模型引入跨模態(tài)蒸餾，進(jìn)一步降低對(duì)視覺(jué)數(shù)據(jù)的要求。在兩種語(yǔ)言對(duì)的實(shí)驗(yàn)結(jié)果表明，無(wú)論噪聲類型如何，AV-TranSpeech在所有設(shè)置下都優(yōu)于純音頻模型，尤其是在低資源數(shù)據(jù)(10小時(shí)、30小時(shí))下，跨模態(tài)蒸餾可提高7.6 個(gè)BLEU點(diǎn)。“如圖所示，我們使用自監(jiān)督HuBERT來(lái)獲得目標(biāo)語(yǔ)音的離散單元;建立視聽(tīng)語(yǔ)音到單元轉(zhuǎn)換(AV-S2UT)和應(yīng)用單獨(dú)訓(xùn)練的基于單元的聲碼器以將轉(zhuǎn)換的單元轉(zhuǎn)換成波形。”火山語(yǔ)音團(tuán)隊(duì)表示。

為了緩解音頻和視頻表示之間的長(zhǎng)度不匹配，團(tuán)隊(duì)還添加了一個(gè)隨機(jī)初始化的模態(tài)適配器層，該層由音頻和視頻流之間的步長(zhǎng)為2的單個(gè)一維卷積層組成。“為了防止模型在聯(lián)合模型中過(guò)度依賴音頻流，我們?cè)谌诤弦纛l和視覺(jué)輸入之前，包括一個(gè)概率為p=50%的模態(tài)Dropout，迫使視覺(jué)編碼器學(xué)習(xí)上下文表示。”

圖1：AV-TranSpeech模型架構(gòu)圖

呈現(xiàn)效果：總結(jié)翻譯準(zhǔn)確性和語(yǔ)音自然度，火山語(yǔ)音發(fā)現(xiàn)：大規(guī)模多模式預(yù)訓(xùn)練在很大程度上提高了性能，這主要是因?yàn)長(zhǎng)RS3-T是一個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集，有很大一部分視頻是從TED演講中收集的，顯示了在不依賴中間文本或輔助多任務(wù)訓(xùn)練下S2ST的難度。此外，視覺(jué)模態(tài)的引入能夠帶來(lái)平均2.0個(gè) BLEU點(diǎn)的增益，即用視覺(jué)信息補(bǔ)充音頻流，開(kāi)辟了一系列實(shí)際應(yīng)用，比方說(shuō)實(shí)現(xiàn)無(wú)聲聽(tīng)寫(xiě)或?yàn)闄n案無(wú)聲電影配音。對(duì)于語(yǔ)音質(zhì)量，由于團(tuán)隊(duì)?wèi)?yīng)用了公開(kāi)可用的預(yù)訓(xùn)練單元聲碼器，該聲碼器主要控制輸出語(yǔ)音的自然度并保持不變，AV-TranSpeech表現(xiàn)出高質(zhì)量的語(yǔ)音生成。

利用文本-語(yǔ)音對(duì)比學(xué)習(xí)提出針對(duì)語(yǔ)音合成的韻律文本表征 (CLAPSpeech: Learning Prosody from Text Context with Contrastive Language-Audio Pre-Training)

研究背景：提高文本表征是實(shí)現(xiàn)富有韻律的語(yǔ)音合成系統(tǒng)的重要途徑，然而現(xiàn)有的工作通常采用基于語(yǔ)言模型 (BERT) 的文本表征來(lái)提升合成語(yǔ)音的韻律的方法，這就帶來(lái)了使用預(yù)測(cè)掩碼標(biāo)記(masked token prediction)任務(wù)進(jìn)行預(yù)訓(xùn)練，更關(guān)注的卻是文本的語(yǔ)義信息而非語(yǔ)音的韻律，從而導(dǎo)致訓(xùn)練效率低以及韻律建模困難等問(wèn)題。

方法介紹：基于上述觀察，火山語(yǔ)音團(tuán)隊(duì)聯(lián)合浙江大學(xué)提出了CLAPSpeech，這是一個(gè)跨文本-語(yǔ)音模態(tài)的對(duì)比預(yù)訓(xùn)練方法。與現(xiàn)有工作不同，它從相同文本標(biāo)記在不同語(yǔ)境下的韻律變化中學(xué)習(xí)，因而能夠顯式高效地從文本中提取韻律相關(guān)的信息。具體而言，首先我們巧妙設(shè)計(jì)一個(gè)文本編碼器和韻律編碼器，鼓勵(lì)模型在聯(lián)合跨模態(tài)空間中將文本上下文與其對(duì)應(yīng)的韻律模式連接起來(lái);第二團(tuán)隊(duì)引入了多尺度預(yù)訓(xùn)練方案，以在音素、詞匯等不同層次上捕獲韻律模式;最后展示了如何將CLAPSpeech整合到現(xiàn)有的TTS模型中以獲得更好的韻律。

圖2: CLAPSpeech的文本-語(yǔ)音跨模態(tài)對(duì)比學(xué)習(xí)訓(xùn)練流程

呈現(xiàn)效果：在兩個(gè)1000小時(shí)級(jí)別的中英文語(yǔ)音合成數(shù)據(jù)集完成的實(shí)驗(yàn)均表明，采用CLAPSpeech提供的文本表征可以顯著提升現(xiàn)有TTS方法的韻律建模;實(shí)驗(yàn)同時(shí)還證明了CLAPSpeech的泛化能力，可以適應(yīng)多語(yǔ)言和多說(shuō)話人的復(fù)雜語(yǔ)音合成任務(wù)?，F(xiàn)有的語(yǔ)音合成、歌聲合成等系統(tǒng)都可以很方便地使用CLAPSpeech預(yù)訓(xùn)練模型的文本表征以提升合成音頻的韻律自然程度。

基于跨模態(tài)對(duì)齊的從語(yǔ)音到歌聲轉(zhuǎn)換( AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment)

研究背景：從語(yǔ)音到歌聲轉(zhuǎn)換(Speech-to-Singing，STS)任務(wù)的目標(biāo)是將語(yǔ)音樣本轉(zhuǎn)換為內(nèi)容(歌詞)一致的歌聲樣本，同時(shí)保證說(shuō)話人的音色不變。在轉(zhuǎn)換的過(guò)程中，需要提供目標(biāo)音高作為轉(zhuǎn)換的參考，相關(guān)的研究與技術(shù)不僅有助于探索人類聲音的合成規(guī)律，也對(duì)計(jì)算機(jī)輔助音樂(lè)制作等領(lǐng)域有幫助。通常STS任務(wù)與傳統(tǒng)人聲轉(zhuǎn)換任務(wù)(Voice Conversion，VC)不同的一點(diǎn)是其需要轉(zhuǎn)換兩個(gè)獨(dú)立特征：第一個(gè)是節(jié)奏，即時(shí)間模態(tài)，是音素在時(shí)域上的排列方式;第二個(gè)是音高，即頻率模態(tài)。以往的STS方法側(cè)重于音高的轉(zhuǎn)換，忽略了音素位置在語(yǔ)音和歌聲兩者之間的差距，這會(huì)導(dǎo)致合成的音素含混不清、順序混亂，同時(shí)由于歌曲制作中常見(jiàn)的一字多音等情況，字符序列在給定的音高序列中的位置分配情也是是一個(gè)復(fù)雜的概率分布。

圖3：AlignSTS模型架構(gòu)圖

方法介紹：對(duì)此，本方法提出了跨模態(tài)對(duì)齊的解決方案。重要的一點(diǎn)，團(tuán)隊(duì)提出了一個(gè)更簡(jiǎn)潔高效的時(shí)間模態(tài)表示，即節(jié)奏特征。該特征被用于縮小語(yǔ)音內(nèi)容和目標(biāo)音高之間的模態(tài)差異，可被視為一種軟化的時(shí)長(zhǎng)標(biāo)注。根據(jù)經(jīng)驗(yàn)觀察，人類總能在給定歌詞序列和音高序列的前提下創(chuàng)作出聽(tīng)感合理的歌詞節(jié)奏，說(shuō)明連接這兩者的節(jié)奏特征的概率分布可被良好定義。本方法先對(duì)輸入語(yǔ)音信息進(jìn)行破壞和解耦，接著使用交叉注意力機(jī)制建模目標(biāo)節(jié)奏特征，并使用節(jié)奏特征對(duì)語(yǔ)音特征進(jìn)行重排列和重對(duì)齊，最后再使用擴(kuò)散模型作為聲學(xué)特征解碼器以提高音質(zhì)。

呈現(xiàn)效果：在多輪實(shí)驗(yàn)中，本方法在總質(zhì)量MOS評(píng)分和韻律MOS評(píng)分中獲得了平均0.39和0.36的提升;同時(shí)在零樣本測(cè)試中，只在純歌聲數(shù)據(jù)集上訓(xùn)練的模型能夠在未見(jiàn)語(yǔ)音數(shù)據(jù)上獲得0.11的提升，展現(xiàn)了良好的泛化性能。

針對(duì)口吃語(yǔ)音提出的自動(dòng)化語(yǔ)音編輯系統(tǒng)(FluentSpeech: A Stutter-Oriented Automatic Speech Editing System)

研究背景：最近基于文本的語(yǔ)音編輯受到業(yè)界的廣泛關(guān)注，其中口吃消除作為語(yǔ)音編輯的一個(gè)關(guān)鍵子任務(wù)，有著十分廣泛的應(yīng)用場(chǎng)景，如短視頻、電影、播客、YouTube視頻，講座等，能夠?yàn)槊襟w制作人提供極大的便利。然而之前的語(yǔ)音編輯工作仍然存在諸多不足之處，例如：

· 音質(zhì)較低。生成的mel聲譜圖通常是模糊的，并且缺乏高頻細(xì)節(jié)，導(dǎo)致修改區(qū)域出現(xiàn)不自然的聲音;

· 沒(méi)有針對(duì)口吃語(yǔ)音進(jìn)行設(shè)計(jì)。當(dāng)需要編輯的語(yǔ)音充滿口吃時(shí)，由于文本和口吃語(yǔ)音內(nèi)容之間的差異，導(dǎo)致文本到語(yǔ)音的對(duì)齊過(guò)程受到影響，使得系統(tǒng)的魯棒性降低;

· 口吃區(qū)域需要手動(dòng)定位，這對(duì)媒體制作人來(lái)說(shuō)既費(fèi)時(shí)又費(fèi)力。

對(duì)此該論文首創(chuàng)性地針對(duì)口吃語(yǔ)音提出了一個(gè)自動(dòng)化語(yǔ)音編輯系統(tǒng)，也就是FluentSpeech。這是首個(gè)針對(duì)口吃消除任務(wù)進(jìn)行優(yōu)化的語(yǔ)音編輯系統(tǒng)，可以自動(dòng)檢測(cè)口吃區(qū)域?qū)⑵淙コ?，并同時(shí)生成具有豐富細(xì)節(jié)的流暢語(yǔ)音。此外它也在其他語(yǔ)音編輯任務(wù)(如增、刪、改等)達(dá)到了SOTA效果，能夠完成多場(chǎng)景下的零樣本語(yǔ)音編輯，極大節(jié)省了配音人員、媒體制作者的人力投入。

圖4：FluentSpeech模型架構(gòu)圖

方法介紹：首先團(tuán)隊(duì)采用了一種上下文感知的擴(kuò)散模型，該模型可以顯式理解待編輯語(yǔ)音的上下文信息(如基頻、持續(xù)時(shí)間、口吃信息等)并利用這些信息作為條件來(lái)指導(dǎo)擴(kuò)散和反向過(guò)程，這有助于FluentSpeech生成高質(zhì)量而過(guò)渡自然的結(jié)果。“為了提高對(duì)口吃語(yǔ)音的魯棒性，我們?cè)谟?xùn)練過(guò)程中引入了一種條件口吃預(yù)測(cè)器，該預(yù)測(cè)器定位口吃區(qū)域，并將口吃信息注入幀級(jí)隱序列，以減少文本和口吃語(yǔ)音之間的信息差異。”此外預(yù)測(cè)的口吃區(qū)域可以被用于自動(dòng)口吃去除過(guò)程。另外還提出了一個(gè)新的數(shù)據(jù)集，稱為“面向口吃的自動(dòng)語(yǔ)音編輯數(shù)據(jù)集”，該數(shù)據(jù)集包含具有時(shí)間對(duì)齊的口吃標(biāo)簽的語(yǔ)音數(shù)據(jù)，可以用于相關(guān)語(yǔ)音編輯系統(tǒng)的訓(xùn)練。

呈現(xiàn)效果：該系統(tǒng)在VCTK數(shù)據(jù)集上與最新的基線系統(tǒng)進(jìn)行了對(duì)比實(shí)驗(yàn)，在常規(guī)語(yǔ)音編輯任務(wù)中，音質(zhì)主觀評(píng)測(cè)MOS分?jǐn)?shù)提升了0.18，說(shuō)話人相似度主觀評(píng)測(cè)MOS分?jǐn)?shù)提升了0.15。在該論文新收集的口吃語(yǔ)音數(shù)據(jù)集的實(shí)驗(yàn)中，系統(tǒng)對(duì)口吃語(yǔ)音具有很高的魯棒性，其口吃區(qū)域預(yù)測(cè)的幀級(jí)別準(zhǔn)確度為80.5%，能夠顯著提高口吃語(yǔ)音的流暢性。

一直以來(lái)，火山語(yǔ)音團(tuán)隊(duì)面向字節(jié)跳動(dòng)內(nèi)部各業(yè)務(wù)線，提供優(yōu)質(zhì)的語(yǔ)音AI技術(shù)能力以及全棧語(yǔ)音產(chǎn)品解決方案，并通過(guò)火山引擎對(duì)外提供服務(wù)。自 2017 年成立以來(lái)，團(tuán)隊(duì)專注研發(fā)行業(yè)領(lǐng)先的 AI 智能語(yǔ)音技術(shù)，不斷探索AI 與業(yè)務(wù)場(chǎng)景的高效結(jié)合，以實(shí)現(xiàn)更大的用戶價(jià)值。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。）

極客觀察

贊助商

簡(jiǎn)版
原版
投稿
回頂部