“喂喂,大家能聽得清我說話嗎,我這邊有點(diǎn)吵“。在視頻會議、語聊房、游戲語音等眾多場景中,相信很多人都有過類似的經(jīng)歷,尤其在疫情發(fā)生后,在線辦公變的越來越普遍,但復(fù)雜的辦公場景卻常常伴隨吵鬧的環(huán)境噪聲影響視頻會議的效果,例如同事們的鍵盤敲擊聲、家里寵物的吵鬧聲、孩子的哭鬧聲、家人的剁菜聲等,都會通過視頻會議傳送到各個參會者的耳中,讓會議過程非常糟心。
面對這些實(shí)時互動場景里的環(huán)境噪聲,到底該怎么處理?聲網(wǎng)音頻技術(shù)團(tuán)隊自研了基于海量數(shù)據(jù)訓(xùn)練的 AI 降噪算法,可以有效抑制在音視頻通話過程中的上百種背景噪聲,并保證語音無損傷,最終有效提升在多種復(fù)雜場景下的實(shí)時互動體驗(yàn),讓通話體驗(yàn)更佳。
我們可以通過下方的兩組場景海報更直觀的了解聲網(wǎng) AI 降噪在實(shí)時互動場景的應(yīng)用。
聲網(wǎng)AI 降噪:兼顧強(qiáng)降噪與高保真,實(shí)現(xiàn)遠(yuǎn)場去混響
相比于傳統(tǒng)的一些降噪算法,聲網(wǎng) AI 降噪的效果有巨大提升,可以一次性解決上百種突發(fā)性噪聲,比如在會議場景可能經(jīng)常會遇到敲鍵盤,裝修、背景討論等噪聲;居家辦公可能會遇到小孩哭叫、廚房做飯等噪聲,這些噪聲通通可以抑制干凈。
聲網(wǎng) AI 降噪在強(qiáng)降噪的同時還能兼顧高保真,即使在多人同時說話的場景下,做到在抑制噪聲的同時不對說話人語音產(chǎn)生損傷,使每個人的聲音都聽得清晰。
我們還實(shí)現(xiàn)了在不增加額外運(yùn)算量的前提下,對遠(yuǎn)場語音具有明顯的混響抑制能力,如果你在一個房間里面離麥克風(fēng)比較遠(yuǎn),這時候?qū)Ψ铰犇愕穆曇羰悄:模褂昧寺暰W(wǎng)的 AI 降噪算法,可以使對端也能清晰地聽到你的聲音。
此外,聲網(wǎng)自研的 AI 推理引擎還可以使得 AI 降噪算法在 Android、iOS、Mac、Windows、Web 等主流平臺以低精度損傷、高性能、低功耗方式運(yùn)行,使用戶的設(shè)備不卡不燙。
我們可以通過聲網(wǎng)公眾號找到這篇文章,通過微信文章中的 AI 降噪音頻Demo 更直觀的體驗(yàn)聲網(wǎng) AI 降噪帶來的遠(yuǎn)場去混響和噪聲抑制能力,Demo中依次展示敲擊鍵盤音、辦公室噪聲等典型非穩(wěn)態(tài)噪聲以及室內(nèi)去混響的效果,因?yàn)檫@是AI降噪相對于傳統(tǒng)降噪所具有的核心價值;
行業(yè)同類降噪算法對比:聲網(wǎng)AI 降噪更優(yōu)概率超過47%
在聲網(wǎng)推出 AI降噪前,行業(yè)已存在一些降噪算法,但大多數(shù)傳統(tǒng)的語音降噪算法是基于嚴(yán)密的數(shù)學(xué)推導(dǎo)而來的,其中存在一些嚴(yán)格的假設(shè)條件,實(shí)際上很多時候這些假設(shè)條件并不都是成立的。例如傳統(tǒng)降噪算法在處理穩(wěn)態(tài)噪聲(噪聲功率起伏比較平緩)這類符合假設(shè)條件的情況效果較好,在處理非穩(wěn)態(tài)噪聲這類不符合假設(shè)條件的情況,降噪效果會有明顯回退。而隨著深度學(xué)習(xí)的發(fā)展,當(dāng)前基于數(shù)據(jù)驅(qū)動的 AI 語音降噪算法發(fā)展迅猛,它們相較于傳統(tǒng)的語音降噪算法的一大優(yōu)勢是不依賴于任何假設(shè)條件,處理非穩(wěn)態(tài)噪聲效果顯著。
此外,隨著算力持續(xù)增長,基于大數(shù)據(jù)訓(xùn)練的 AI 語音降噪算法具有強(qiáng)大的擬合能力和魯棒性(系統(tǒng)性能的健壯性),使實(shí)時 AI 語音降噪算法商業(yè)化落地成為可能。
于是,聲網(wǎng)的 AI 降噪算法融合了傳統(tǒng)語音降噪算法與AI語音降噪算法的各自優(yōu)勢,通過采用兼顧強(qiáng)降噪和高保真的損失函數(shù)、自研的 AI 推理引擎等一系列技術(shù)手段,同時實(shí)現(xiàn)了優(yōu)秀的噪聲抑制和遠(yuǎn)場去混響功能,可以很好的應(yīng)用在視頻會議、語聊房、遠(yuǎn)程問診等實(shí)時互動場景中。
此外,為了更清晰的了解聲網(wǎng) AI 降噪在用戶端的體驗(yàn)評價,我們還選取了一些行業(yè)同類的降噪算法進(jìn)行效果對比,在由真實(shí)數(shù)據(jù)組成的大規(guī)模測試集上,和行業(yè)標(biāo)桿國際友商 A 和友商 B 對比,聲網(wǎng)均取得了最高的 MOS 分?jǐn)?shù)(平均主觀意見分)。參與測試的人員,在體驗(yàn)后給出的推薦評分中,聲網(wǎng)明顯占優(yōu);聲網(wǎng)優(yōu)于友商 A 和友商 B 的概率分別是 47.4067% 和 48.1341%,聲網(wǎng)輸給友商 A 和友商 B 的概率分別是 31.4674% 和 30.7717%,聲網(wǎng)和友商 A 和友商 B 打平的概率分別是 21.1259% 和 21.0942%。
目前聲網(wǎng) WebSDK AI 降噪插件和 Native SDK AI 降噪動態(tài)庫已跟多個客戶進(jìn)行了集成,得到了客戶的高度認(rèn)可;聲網(wǎng)也將持續(xù)提升 AI 降噪算法的性能,目前基于最新 AI 降噪算法的 AI 降噪插件可以與 Web SDK v4.10.0 及以上配合使用,同時也推出了基于最新 AI 降噪算法的 AI 降噪動態(tài)庫可以與 Native SDK v3.7.0 及以上配合使用,如您想進(jìn)一步體驗(yàn)或者接入聲網(wǎng) AI 降噪,可以通過聲網(wǎng)微信公眾號找到這篇文章, 點(diǎn)擊文章最下方閱讀原文,與我們進(jìn)行聯(lián)系。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )