說到聲音變聲,很多人最早的記憶是《名偵探柯南》中柯南的領(lǐng)結(jié)變聲器,小時候還曾幻想擁有這樣一款神器,那一定很酷。而在互聯(lián)網(wǎng)時代,這種幻想已經(jīng)成真,隨著很多變聲軟件的應(yīng)用,我們經(jīng)??梢栽谏缃?、游戲場景中聽到玩家通過變聲軟件發(fā)出與性別、年齡相反的聲音。不過,這種變聲器往往是將一個人的聲音變換成某一種類型的聲音,例如男聲變成萌妹子的聲音,無法像柯南那樣將自己的聲音變成特定某個人的聲音,并不是真正意義上的聲紋變聲。
由聲網(wǎng)音頻技術(shù)團(tuán)隊(duì)研發(fā)的「實(shí)時聲紋變聲」將顛覆傳統(tǒng)的變聲音效軟件與AI實(shí)時變聲體驗(yàn),通過提取語音的音素特征與聲紋特征等一系列技術(shù)手段,在實(shí)時音視頻互動中可以將任意用戶的語音實(shí)時變換成指定或任意一個他人的語音,實(shí)現(xiàn)像柯南變聲器那樣對聲音的真正“克隆”,接下來我們將分別介紹傳統(tǒng)主流變聲方法與實(shí)時聲紋變聲背后的技術(shù)原理。
什么是聲紋變聲?
在介紹變聲之前,我們先回顧一下語音的產(chǎn)生與感知過程。在說話時,我們將自己思想對應(yīng)的文字,通過發(fā)音器官(如肺、喉嚨和聲道)一起協(xié)作,產(chǎn)生含有特定語義的聲波信號。由于每個人的發(fā)聲器官、語言習(xí)慣、發(fā)音大小、基頻等差異,每個人的聲紋圖譜都是獨(dú)一無二的,就像指紋一樣,因此人們可以通過聽覺系統(tǒng)辨別一個人的身份信息。事實(shí)上,在感知層面,人們可以很輕松地分離出一段語音的語言學(xué)內(nèi)容(文字)以及說話人的音色信息(聲紋)。
聲紋變聲是指對一段語音的音色做替換,讓它聽上去像是另一個人在講同樣的內(nèi)容。聲紋變聲的處理過程包含語音的感知分離以及合成兩個步驟。首先,聲紋變聲系統(tǒng)中的語音識別模塊會將接受的語音中的語言學(xué)信息以及說話人音色信息分離。然后,語音合成模塊將目標(biāo)說話人的聲紋與前面提取的語言學(xué)內(nèi)容重新合成新的語音,從而實(shí)現(xiàn)音色的變換。
介紹完聲紋變聲的基本原理,我們再來看看傳統(tǒng)的變聲方法有哪幾種,它們又是基于怎樣的技術(shù)原理實(shí)現(xiàn)的?
1、傳統(tǒng)的音效效果器:早期的變聲一般采用多個音效效果器串聯(lián)的方式來從各個維度來修改人聲。常見的變聲效果器包括變調(diào)效果器、均衡器、混響效果器、共振峰濾波器等,變調(diào)效果器通過改變聲音的音調(diào)來實(shí)現(xiàn)變聲效果,比如把男聲變成女聲就需要把音調(diào)提高,電影《小黃人大眼萌》中“小黃人”的聲音就是通過變調(diào)算法把原本男聲的音調(diào)提高來實(shí)現(xiàn)的。均衡器和共振峰濾波器通過改變?nèi)寺暶總€頻段的能量分布來改變音色,較高的值可讓聲音聽起來更洪亮或清脆,較低的值可賦予深沉、渾厚的特性?;祉懶Ч鲃t是改變?nèi)寺曀诳臻g的混響效果。
但這些效果器的方式通用性較差,每個人變成一個目標(biāo)人的音色都需要重新調(diào)整參數(shù),而且語言中每個音的發(fā)音變化趨勢也不盡相同,采用同一組參數(shù)調(diào)整的效果器可能只對某些發(fā)音是正確的,這就使得很多變聲效果十分不穩(wěn)定。我們在文章開頭提到的在社交、直播場景中很多主播
使用的軟件變聲效果器或者娛樂聲卡上自帶的變聲效果大多是這類方式,這類方式雖然可以做到“實(shí)時”,但由于采用的是傳統(tǒng)的鏈路效果器,非聲紋變聲,不僅變聲效果不穩(wěn)定,變聲的音效也非常局限,不能任意變換成某個指定人的聲音。
2、AI變聲算法:AI技術(shù)的發(fā)展為傳統(tǒng)變聲效果器需要對每個人、每個音進(jìn)行單獨(dú)調(diào)整的繁瑣流程找到了破解方式。早期AI變聲算法主要是基于統(tǒng)計模型,其核心思想是尋找一種說話人語音到目標(biāo)語音在頻譜上的映射關(guān)系,模型需要在平行語料上訓(xùn)練。所謂平行語料,就是說話人說的每一句話,變聲目標(biāo)人都要有一句同樣內(nèi)容的語料。平行語料的訓(xùn)練樣本由具有相同語言學(xué)內(nèi)容的原始語音和目標(biāo)語音組成。雖然基于這個框架的模型在變聲上取得了一定成功,但是這種配對的數(shù)據(jù)比較稀缺,而且很難有效拓展到多說話人變聲的場景。
而近幾年的主流的AI變聲算法通過非并行訓(xùn)練框架有效地解決了這些問題,并且極大地豐富了變聲的應(yīng)用場景,比如音色,情緒以及風(fēng)格的遷移等等。非并行訓(xùn)練方法的核心思想是將語音的語言學(xué)特征以及非語言學(xué)因子(例如音色、音調(diào))解除耦合關(guān)系,然后再將這些因子重新組合生成新的語音。它不依賴于配對的語音語料,極大地降低了數(shù)據(jù)獲取成本。同時,這個框架也十分有利于知識遷移,可以利用一些在海量數(shù)據(jù)上預(yù)訓(xùn)練好的語音識別以及聲紋識別模型用于語言學(xué)內(nèi)容與聲紋特征的提取。
隨著深度學(xué)習(xí)的發(fā)展,當(dāng)前基于 AI 的變聲算法種類越來越多,它們相較于傳統(tǒng)的變聲方法在目標(biāo)音色相似度以及自然度上都具有顯著的優(yōu)勢。按照單個聲紋變聲模型支持的原說話人和目標(biāo)說話人的數(shù)目,可以分為 one-to-one, many-to-many, any-to-many, any-to-any,其中,one 代表單一的音色,many 代表一個有限的集合,只能變成少數(shù)幾種指定的音色。早期的學(xué)術(shù)研究主要是基于one-to-one 與 many-to-many架構(gòu),any-to-many 是當(dāng)前很多 AI變聲軟件采用的模型,例如在某變聲軟件中,任意用戶可以從十幾個聲音音效中選擇某一個進(jìn)行變聲。
而 any 是一個開放的集合, any-to-any 意味著可以將任意一個人的語音,變換成任意一個其他人的語音,這代表著聲紋變聲技術(shù)的終極目標(biāo),每個人都可以借助它變換成指定或任意一個人的聲音,實(shí)現(xiàn)對聲音的“克隆“,這也是「聲網(wǎng)實(shí)時聲紋變聲」想要實(shí)現(xiàn)的方向。
從any-to-many 到 any-to-any,實(shí)時聲紋變聲需克服多重挑戰(zhàn)
當(dāng)前,主流的聲紋變聲借助 AI變聲算法雖然可以實(shí)現(xiàn) any-to-many 的變聲音效,但聲紋變聲的研究主要集中在離線或異步使用的場景,例如自己提前用變聲軟件錄一段聲音,生成某個指定目標(biāo)的變聲語音后再發(fā)給對方。根據(jù)調(diào)查顯示,在社交、直播以及元宇宙等場景中,越來越多的玩家希望在進(jìn)行音視頻互動時能實(shí)現(xiàn)實(shí)時變聲音效的功能,在聲網(wǎng)看來,在實(shí)時互動的過程中,聲紋變聲想要做到實(shí)時會面臨多重挑戰(zhàn):
1、語言學(xué)內(nèi)容完整性:在實(shí)時互動過程中,說話人部分詞語的丟失或者發(fā)音錯誤,不僅會讓聽者理解起來十分吃力,而且一些關(guān)鍵詞(比如"不")的丟失,還會引起全局語義改變,給互動帶來致命的影響。
2、實(shí)時率:實(shí)時率指的是模型對一段音頻的處理時間和音頻時長的比值,越低越好。例如處理一段時長為2分鐘的語音花了1分鐘,那么實(shí)時率就為(1/2=0.5),理論上,變聲引擎端到端的實(shí)時率只需要小于1即可支撐實(shí)時變聲處理??紤]到計算的抖動,需要有更低的實(shí)時率才能保障穩(wěn)定的服務(wù),這對于模型的大小以及算力有很大的限制。
3、算法延遲:當(dāng)前大部分變聲算法在處理當(dāng)前幀數(shù)據(jù)時,依賴于未來語音幀的數(shù)據(jù)輸入,這部分語音的時長即算法延遲。在實(shí)時交互場景,人們可以感知到的延遲大約在200ms,過高的延遲會極大程度降低用戶參與的積極性。例如用戶說完一句話,對方如果需要等待1秒以上才能聽到變聲后的語音,很多人可能就不會在聊天場景中使用這個功能了。
對此,聲網(wǎng)音頻技術(shù)團(tuán)隊(duì)是如何解決算法的延遲與音頻處理的實(shí)時率,并實(shí)現(xiàn) any-to-any 變聲音效的突破?
首先,「聲網(wǎng)實(shí)時聲紋變聲」先通過語音識別模型提取語音中幀級別的音素特征,聲紋識別模型提取聲紋特征,然后將兩者一起傳遞給語音合成模塊,合成變聲后的頻譜特征,最后利用 AI聲碼器合成時域波形信號,這三個模塊均支持流式的數(shù)據(jù)處理。流式處理主要是針對數(shù)據(jù)的新鮮度價值很高,需要提供更快的有價值信息,通常在觸發(fā)器開始后的幾百甚至幾十毫秒內(nèi)需要得到處理結(jié)果,在實(shí)時聲紋變聲中,流式處理表現(xiàn)為音素、聲紋數(shù)據(jù)的實(shí)時處理、低延遲,人們在使用變聲效果對話時還需要保證溝通的流暢性,不能一方說了一句話另一方過了好幾秒才聽到變聲。
在神經(jīng)網(wǎng)絡(luò)設(shè)計層面,聲網(wǎng)主要采用 CNN (卷積神經(jīng)網(wǎng)絡(luò))和 RNN (遞歸神經(jīng)網(wǎng)絡(luò)) 的網(wǎng)絡(luò)結(jié)構(gòu)分別提取語音信號中的局部以及長程時序特征。語言信號具有短時平穩(wěn)的特性,用CNN 可以很有效的提取幀級別的音素特征。RNN 對語音中隨時間變化更為緩慢的特征(字詞)建模,一般一個字的發(fā)音會持續(xù)幾百毫秒,所以聲網(wǎng)利用基于 RNN 這種具有時序記憶能力的網(wǎng)絡(luò)來構(gòu)建頻譜轉(zhuǎn)換模塊對語音的時序性特點(diǎn)進(jìn)行建模。
RNN 處理的數(shù)據(jù)是 “序列化” 數(shù)據(jù),訓(xùn)練的樣本前后是有關(guān)聯(lián)的,即一個序列的當(dāng)前的輸出與前面的輸出也有關(guān),比如一段語音是有時間序列的,說的話前后是有關(guān)系的。通過這種設(shè)計,不僅有效地節(jié)省了算力,而且也顯著減少了算法的延遲,目前「聲網(wǎng)實(shí)時聲紋變聲」的算法延遲最低可以做到 220ms,處于業(yè)內(nèi)領(lǐng)先的水平。
此外,聲網(wǎng)基于海量數(shù)據(jù)單獨(dú)訓(xùn)練了語音識別模塊,可以準(zhǔn)確地提取幀級別的音素特征,極大程度地減少了變聲后出現(xiàn)錯字或者漏字的情況,保障了語言學(xué)內(nèi)容的完整性。類似地,聲網(wǎng)也基于海量數(shù)據(jù)訓(xùn)練了聲紋識別模型,用于提取目標(biāo)說話人的音色特征,顯著地提升了變聲后語音和目標(biāo)說話人的音色相似度,最終實(shí)現(xiàn)了any-to-any的變聲能力。
(我們可以通過聲網(wǎng)微信公眾號找到這篇文章,文章中的視頻Demo可以更直觀的體驗(yàn)實(shí)時聲紋變聲帶來的變聲效果,Demo是由音頻技術(shù)團(tuán)隊(duì)在實(shí)時的過程中錄制。)
相比于傳統(tǒng)的變聲軟件,實(shí)時聲紋變聲憑借實(shí)時性以及 any-to-any 的變聲能力,將在語聊房、直播、游戲、元宇宙等場景中發(fā)揮更大的應(yīng)用價值,不僅可以增強(qiáng)應(yīng)用場景中用戶的沉浸感與娛樂性體驗(yàn),對應(yīng)用的用戶活躍度、使用時長、營收等也有望帶來進(jìn)一步的提升。
例如在傳統(tǒng)語聊房場景中,變聲軟件只能變成萌妹子或大叔的聲音,實(shí)時聲紋變聲可以將用戶的聲音改變成與某些明星類似的聲音,將原本枯燥的語聊房變成明星聊天室。而在Meta Chat等元宇宙場景中,實(shí)時聲紋變聲可以搭配3D空間音頻進(jìn)一步增強(qiáng)用戶的沉浸感,例如某社交APP與《海綿寶寶》達(dá)成合作后獲得動漫中角色I(xiàn)P的形象與聲音授權(quán),用戶在操控著專屬的動漫角色聊天時,聲音可以變成對應(yīng)的海綿寶寶、派大星、章魚博士等角色的聲音,感知層面仿佛進(jìn)入了真實(shí)的動漫世界,用戶的沉浸感得到有效提升。
基于此,實(shí)時聲紋變聲也可以進(jìn)一步擴(kuò)展影視、動漫IP的聲音價值,知名影視、動漫角色的配音都可以運(yùn)用在語聊房、直播間、游戲語音等場景的實(shí)時音視頻互動中,對于應(yīng)用本身而言,更豐富的娛樂性體驗(yàn)可以提升用戶在應(yīng)用內(nèi)的使用時長、付費(fèi)率等。
目前「聲網(wǎng)實(shí)時聲紋變聲」現(xiàn)已開啟開放測試,如您想進(jìn)一步咨詢或接入實(shí)時聲紋變聲,可通過聲網(wǎng)微信公眾號找到這篇文章,并通過文章底部的「閱讀原文」留下您的信息,我們將與您及時聯(lián)系,做進(jìn)一步的溝通。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )