聲網(wǎng)近期發(fā)布了“Metachat 元語(yǔ)聊”、“MetaKTV”解決方案,致力于提供一種全新的元宇宙互動(dòng)社交、K 歌方式,其中都提到了“3D 空間音頻”這項(xiàng)核心技術(shù),對(duì)提升玩家沉浸感與聽(tīng)覺(jué)體驗(yàn)發(fā)揮了關(guān)鍵作用。我們也收到了很多開(kāi)發(fā)者的咨詢(xún),今天將為大家?guī)?lái)聲網(wǎng) 3D 空間音頻的技術(shù)揭秘,揭曉這項(xiàng)技術(shù)的核心功能點(diǎn)以及背后的技術(shù)原理。
在現(xiàn)實(shí)生活中,由于雙耳效應(yīng)的原理,我們聽(tīng)到來(lái)自上下、左右等不同方位聲音的感覺(jué)是不同的,并且可以快速辨別對(duì)方的位置。而在元宇宙虛擬空間中,如何通過(guò)聽(tīng)覺(jué)增加沉浸感是很多廠商迫切解決的關(guān)鍵要素,想象一下,在 3D 的虛擬聊天室中,你操控著虛擬形象與網(wǎng)友們聊天,耳朵里還傳來(lái)正前方主持人的聲音以及房間各個(gè)角落的聊天聲,優(yōu)雅的 BGM 在你的上方環(huán)繞,仿佛置身在線下真實(shí)的 Party 中。這其中一些關(guān)鍵細(xì)節(jié)的擬真度是構(gòu)建臨場(chǎng)感、沉浸感的關(guān)鍵要素,關(guān)鍵細(xì)節(jié)的缺乏會(huì)造成用戶(hù)的感知度很低,而聲網(wǎng)的音頻技術(shù)團(tuán)隊(duì)通過(guò)對(duì)技術(shù)的持續(xù)鉆研,力求對(duì)每一個(gè)細(xì)節(jié)完美處理,最大程度為用戶(hù)帶來(lái)更逼真的聽(tīng)覺(jué)體驗(yàn)。
3D 空間音效、空氣衰減模擬、人聲模糊 三大黑科技完美模擬現(xiàn)實(shí)聽(tīng)覺(jué)
聲網(wǎng) 3D 空間音頻通過(guò)純軟件算法方案,模擬頭部球面區(qū)域立體聲場(chǎng),使用戶(hù)在音頻聽(tīng)感上具有空間感。當(dāng)用戶(hù)操作虛擬人物在虛擬場(chǎng)景里移動(dòng),可以實(shí)現(xiàn)根據(jù)虛擬人物的面部朝向、音源朝向、遠(yuǎn)近距離與上下高度,呈現(xiàn)不同聲音效果,完美模擬現(xiàn)實(shí)聽(tīng)覺(jué)感受,這其中“3D 空間音效”、空氣衰減模擬、人聲模糊三大黑科技發(fā)揮了關(guān)鍵作用。
1、3D 空間音效:模擬音源的位置與朝向 實(shí)現(xiàn)音色差異
文章開(kāi)頭有說(shuō)過(guò),我們?cè)诂F(xiàn)實(shí)生活可以感知到聲音是從不同的方向傳來(lái)的。我們先來(lái)大致介紹下這里的“方向感”是怎么產(chǎn)生的。
圖1:耳廓收音示意圖
我們可以通過(guò)圖1 看到人耳的耳廓在接收不同方向的音源時(shí),會(huì)讓聲波以不同的路徑傳導(dǎo)至內(nèi)耳。這樣,不同方向的聲波傳輸?shù)絻?nèi)耳的時(shí)候,音色就會(huì)由于耳廓的形狀而產(chǎn)生各向異性。除此之外,由于我們有兩個(gè)耳朵,所以音源在不同方向時(shí)聲波到達(dá)耳朵的時(shí)間也會(huì)不同,這一點(diǎn)我們可以結(jié)合圖2 來(lái)理解一下。
圖2:雙耳效應(yīng)示意圖
結(jié)合圖2 我們可以發(fā)現(xiàn),如果音源在你的右側(cè),右耳會(huì)先接收到聲波,相反如果音源在左側(cè),左耳會(huì)先收到聲音,同時(shí)由于人的頭部也會(huì)對(duì)聲音的傳播產(chǎn)生影響,如果音源在右側(cè),那么聲波需要越過(guò)頭部這個(gè)“障礙”才能傳遞到左耳,那么相對(duì)于右耳,左耳聽(tīng)到的音色和頻率會(huì)有所衰減。最終我們依靠雙耳間的音量差、時(shí)間差和音色差來(lái)判別聲音的方位。
介紹完雙耳效應(yīng)的原理,再來(lái)看聲網(wǎng)是如何在虛擬空間中模擬真實(shí)的“雙耳效應(yīng)”,在虛擬世界中,我們需要把音頻根據(jù)聲源+用戶(hù)的相對(duì)位置以及聲源+用戶(hù)的朝向來(lái)渲染一個(gè)雙聲道的音頻,這樣就可以帶上耳機(jī)來(lái)體驗(yàn)不同空間位置的聲音實(shí)現(xiàn)“聽(tīng)音辨位”,目前一些傳統(tǒng)的解決方案是通過(guò)調(diào)節(jié)左右耳音量的方法來(lái)實(shí)現(xiàn)左右方向的渲染,但這種方法只能渲染左右的方向。對(duì)更復(fù)雜的前后、上下這些方向的渲染還需要細(xì)致調(diào)節(jié)左右耳音色、延遲等細(xì)節(jié)差異才能準(zhǔn)確模擬音源的位置。
在空間聽(tīng)覺(jué)的研究和實(shí)現(xiàn)中,頭部相關(guān)聯(lián)的傳遞函數(shù)(HRTF)(Head Related Transfer Functions)與頭部相關(guān)聯(lián)的沖激響應(yīng)(HRIR)占有十分重要的地位。而聲網(wǎng)基于 HRTF 頭相關(guān)傳遞函數(shù)、心理感知聲學(xué)、聲源指向模擬等算法自研了一整套 3D 聲場(chǎng)渲染引擎。可以動(dòng)態(tài)模擬空間中任意角度、朝向的聲音在傳遞到左右耳時(shí)聲音發(fā)生的變化從而實(shí)現(xiàn)了高精度的聲音方位渲染。并且為了追求極致的聽(tīng)感與極致的可用性,渲染引擎以極小的算力要求,支持 48kHz全頻帶、多路音頻渲染,讓你在移動(dòng)端不多費(fèi)流量、不用擔(dān)心算力也能暢享多人高清音質(zhì)互動(dòng)。
在 HRIR 的采集中,聲網(wǎng)通過(guò)在全消實(shí)驗(yàn)室針對(duì)每個(gè)角度都有一對(duì)采集的 HRIR,最終形成了一個(gè)球形的數(shù)據(jù)集,以實(shí)現(xiàn)角度的精準(zhǔn)模擬。下方圖3 就是一個(gè)球形 HRIR 的坐標(biāo)示意圖。我們可以看到圖3 中央是人頭部所在的位置,周?chē)募t點(diǎn)就是 HRIR 采集時(shí)音源的方位。
圖3:HRIR 采集點(diǎn)的空間分布
音源的朝向?qū)ξ覀兊穆?tīng)覺(jué)也會(huì)有直接的影響,例如一個(gè)人背對(duì)著你說(shuō)話相比正對(duì)著你說(shuō)話聲音會(huì)顯得比較“悶”,因?yàn)楸硨?duì)著你說(shuō)話時(shí)聲音需要繞過(guò)身體這個(gè)障礙,不同頻率的聲波繞過(guò)障礙物時(shí)的能量衰減程度不同。聲網(wǎng) 3D 空間音效還提供音源朝向功能,通過(guò)聲學(xué)建模的方式可以模擬任意角度的音源方向帶來(lái)的音色差異,最終通過(guò)模擬不同音源的位置與朝向,實(shí)現(xiàn)音量、音色的差異,從而完美模擬現(xiàn)實(shí)聽(tīng)覺(jué)的感受。
此外,人在真實(shí)環(huán)境中對(duì)上下、前后這兩個(gè)方向的感知是比較模糊。這是因?yàn)槿说亩浠旧鲜菍?duì)稱(chēng)的,相比水平方向,在垂直方向上左右耳聲音的音量、延遲基本相同就不足以用來(lái)區(qū)分方向了。所以在虛擬空間中,聲網(wǎng)還對(duì)這些方向的聽(tīng)感區(qū)分做了增強(qiáng),讓用戶(hù)在“虛擬空間”中可以擁有超越現(xiàn)實(shí)的聽(tīng)音辨位能力。
2、空氣衰減模擬:模擬現(xiàn)實(shí)聲學(xué)現(xiàn)象 讓聲音更逼真
模擬不同音源位置與朝向進(jìn)行“聽(tīng)音辨位”只是聲網(wǎng) 3D 空間音頻模擬現(xiàn)實(shí)聽(tīng)覺(jué)感受的第一步,我們還實(shí)現(xiàn)了對(duì)空氣衰減的模擬。在現(xiàn)實(shí)中由于空氣的存在,聲波在空氣傳播中會(huì)產(chǎn)生衰減,其中高頻的聲音衰減快,低頻的衰減慢,那么同一個(gè)音量的聲音,如果高頻多一些,我們就會(huì)覺(jué)得它離你更近。
由于聲波在空氣傳播中會(huì)產(chǎn)生衰減。而其中高頻的聲音衰減快,如蚊子的嗡嗡聲、鳥(niǎo)叫聲,低頻的衰減慢,如男生粗獷的聲音,風(fēng)聲、水泵聲。那么同一個(gè)音量的聲音,如果高頻比較多,我們會(huì)覺(jué)得它離你更近一些??諝馑p功能就是模擬這種現(xiàn)實(shí)環(huán)境中的聲學(xué)現(xiàn)象讓聲音聽(tīng)起來(lái)更逼真。我們用2張圖來(lái)更直觀的展示,如下方圖4 頻譜圖所示,低頻的聲音可以傳播更遠(yuǎn),而 8Khz 以上的聲音如果超過(guò)1千米以上就很難聽(tīng)到。
圖4:不同頻率的聲波空氣衰減曲線
圖5 的時(shí)頻圖所示,上方為空氣衰減的模擬,下方是只有音量的衰減,對(duì)比可以看出在空氣衰減的情況下,在距離逐漸增加后,8KHz 以上的音頻聲音衰減更為迅速。
圖5:空氣衰減效果頻譜對(duì)比
在生活中很多人對(duì)“空氣衰減”的存在感知并不明顯,但在虛擬空間中,通過(guò) 3D 空間音效與空氣衰減模擬的強(qiáng)強(qiáng)結(jié)合,可以進(jìn)一步還原現(xiàn)實(shí)聽(tīng)覺(jué)感受,在元宇宙中創(chuàng)造更逼真的“聲臨其境”感。
3、人聲模糊: 熱鬧的氛圍與“安靜”的聊天也可兼得
我們?cè)卩须s的酒吧、LiveHouse 中經(jīng)常會(huì)遇到這種情況,你只想聽(tīng)到朋友的聲音,但其他人嘈雜的聲音不想完全消除,因?yàn)檫@樣就沒(méi)有了酒吧的氛圍。在線下,你可能沒(méi)法實(shí)現(xiàn),但在虛擬空間中完全可以做到。聲網(wǎng) 3D 空間音頻的人聲模糊功能就能將虛擬空間中你不想聽(tīng)到的聲音進(jìn)行模糊化處理,這樣你能聽(tīng)到空間中周?chē)娜寺?,但?tīng)不清他們?cè)谡f(shuō)什么,從而既保持了環(huán)境氛圍,又不會(huì)干擾你與朋友的互動(dòng)。
除了以上三個(gè)核心功能外,聲網(wǎng) 3D 空間音頻還支持本地音源文件播放,可以自定義場(chǎng)景中的背景音、伴奏、音效等。對(duì)于開(kāi)發(fā)者而言,也支持靈活、多模式接入使用:
API 模式:直接集成Agora SDK,調(diào)用 API 即可自定義空間音頻 (客戶(hù)(需要center
server)根據(jù)自己虛擬世界的音源、聽(tīng)音者位置,朝向信息等,輸入?yún)?shù),即可實(shí)現(xiàn))。
Server 模式:Agora Server 實(shí)現(xiàn)坐標(biāo)同步與空間音頻所需的參數(shù)計(jì)算,并在客戶(hù)端進(jìn)行音
頻渲染。
本地渲染模式:客戶(hù)端可以把上傳的音頻進(jìn)行空間音頻的渲染,從而可以實(shí)現(xiàn)背景音樂(lè)、環(huán)境音效渲染等功能。
介紹完聲網(wǎng) 3D 空間音頻的核心功能點(diǎn)與技術(shù)原理,我們?cè)賮?lái)看看它的應(yīng)用場(chǎng)景,被視為下一個(gè)互聯(lián)網(wǎng)新形態(tài)的元宇宙已經(jīng)融入各個(gè)行業(yè)的多個(gè)場(chǎng)景,如游戲、語(yǔ)聊房、在線K歌、虛擬演唱會(huì)、VR、AR等,聲網(wǎng) 3D 空間音頻同樣適用于以上各類(lèi)場(chǎng)景,但對(duì)于語(yǔ)聊房、在線會(huì)議、虛擬活動(dòng)、在線教育等場(chǎng)景而言,3D 空間音頻可以有效的增強(qiáng)用戶(hù)在線上的互動(dòng)、聽(tīng)覺(jué)體驗(yàn)。而對(duì)于 Metaverse、VR、AR、虛擬演唱會(huì)、在線游戲而言,3D 空間音頻則有望重構(gòu)用戶(hù)在虛擬世界的沉浸感與聽(tīng)覺(jué)體驗(yàn)。
圖6:3D 空間音頻部分應(yīng)用場(chǎng)景
我們將通過(guò)幾個(gè)應(yīng)用場(chǎng)景的案例來(lái)更直觀的展示 3D 空間音頻所帶來(lái)的效果。
1、語(yǔ)音聊天室:在語(yǔ)音聊天室中,通過(guò) 3D 空間音頻你可以聽(tīng)到來(lái)自房間前后、左右各處的360° 音頻,當(dāng)你感受到來(lái)自周?chē)男β晻r(shí),感覺(jué)就像在參加一場(chǎng)真實(shí)的線下聚會(huì),對(duì)于聽(tīng)眾與發(fā)言者來(lái)說(shuō)都不會(huì)感到平淡。再結(jié)合人聲模糊功能,語(yǔ)音聊天室中還能激發(fā)“雞尾酒會(huì)效應(yīng)”,在多種聲音混雜的環(huán)境中,你注意傾聽(tīng)某一種聲音,并仍然能夠聽(tīng)清他在說(shuō)什么,這就是“雞尾酒會(huì)效應(yīng)”,而用戶(hù)可以減少疲勞感,更加沉浸在聊天的環(huán)境中,并大幅提升聊天時(shí)長(zhǎng)。
2、在線游戲:游戲語(yǔ)音是很多在線游戲的標(biāo)配功能,通過(guò)在游戲內(nèi)加入實(shí)時(shí)的語(yǔ)音功能,可以方便玩家之間溝通、協(xié)作,更好的取得游戲勝利。但單純的游戲語(yǔ)音方案更多是構(gòu)建玩家之間溝通的橋梁,對(duì)于提升游戲體驗(yàn)沒(méi)有實(shí)質(zhì)的作用,而通過(guò)將實(shí)時(shí)互動(dòng)與 3D 空間音頻結(jié)合,將重構(gòu)游戲中玩家之間并肩作戰(zhàn)的全新體驗(yàn)。例如在 FPS 游戲中,當(dāng)隊(duì)友通過(guò)具備 3D 空間音頻的游戲語(yǔ)音與你實(shí)時(shí)溝通作戰(zhàn)情況時(shí),你能感覺(jué)到他就站在你的右邊向你發(fā)出進(jìn)攻指令,仿佛真的在線下一起參加真人 CS,這樣的游戲體驗(yàn)幾乎顛覆了傳統(tǒng)的游戲語(yǔ)音溝通體驗(yàn),將原本單純的游戲語(yǔ)音互動(dòng)功能變成了增強(qiáng)游戲沉浸感與協(xié)同感的核心功能。
3、虛擬演唱會(huì):虛擬演唱會(huì)/音樂(lè)會(huì)是當(dāng)下新興的一種線上演唱會(huì)形式,演唱者可通過(guò)動(dòng)作捕捉技術(shù)化身虛擬的形象投影到虛擬舞臺(tái)中,用戶(hù)也會(huì)變身虛擬人在虛擬舞臺(tái)下喝彩,在加入 3D空間音頻后,有望顛覆虛擬演唱會(huì)的聽(tīng)覺(jué)體驗(yàn)。當(dāng)觀眾化身虛擬人坐在舞臺(tái)下觀看演唱者表演,他能“聲臨其境”的聽(tīng)到來(lái)自各個(gè)角落的聲音,從舞臺(tái)的左右兩側(cè)到中央的歌唱者再到周?chē)^眾的各個(gè)位置,猶如置身在真實(shí)的演唱會(huì)環(huán)境中,對(duì)于演唱者而言同樣如此。
相比語(yǔ)音聊天室、在線會(huì)議,虛擬演唱會(huì)是否成功的關(guān)鍵在于演唱者的歌聲與聽(tīng)眾聽(tīng)到的歌聲是否好聽(tīng),3D 空間音頻則從本質(zhì)上改變了歌聲傳遞到聽(tīng)眾耳朵中的聽(tīng)覺(jué)體驗(yàn),并彌補(bǔ)了虛擬演唱會(huì)一直缺失的“現(xiàn)場(chǎng)氛圍感”,未來(lái)觀眾在虛擬演唱會(huì)的沉浸感與聽(tīng)覺(jué)體驗(yàn)有望不輸線下演唱會(huì)。
不論是當(dāng)下的各類(lèi)線上活動(dòng)還是未來(lái)的元宇宙虛擬世界,玩家之間的交流、互動(dòng)都離不開(kāi) RTE實(shí)時(shí)互動(dòng),因此 RTE 也被視為元宇宙底層基礎(chǔ)設(shè)施之一。而插入 3D 空間音頻,新的空間信息被引入到虛擬體驗(yàn)中,使觀眾能夠完全獨(dú)立于他們的眼睛感知自己身后或虛擬環(huán)境中其他地方發(fā)生的事情,在建立用戶(hù)之間實(shí)時(shí)互動(dòng)的同時(shí),RTE 也將成為幫助元宇宙場(chǎng)景增加臨場(chǎng)感與沉浸感的基礎(chǔ)設(shè)施,構(gòu)建更逼真、更前沿的音頻元宇宙。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )