原標題:AI降噪軟件的出現(xiàn),不僅僅要終結(jié)手機雙麥克風時代
從諾基亞到iPhone X,手機在這些年產(chǎn)生了天翻地覆的變化。按鍵消失了、邊框消失了、連耳機孔都消失了,屏幕越來越大、攝像頭也越來越清晰……
不過人們很難感知到的一點變化是,通話中的噪聲變得越來越小了。在機場、火車站一類地方嘈雜的背景音中,清晰地聽到彼此的聲音并不是一件容易的事,麥克風會把環(huán)境音一起收集起來,接聽時會受到巨大的干擾。
為了解決這個問題,手機廠商做出了很大努力。目前主流的解決方案是雙麥克風,一個放在靠近嘴巴的地方收集人聲,一個放在頂端或背部收集環(huán)境音,再通過算法將人聲從背景音中剝離出來,傳送到手機的另一端。
但雙麥克風+算法真的是主動降噪最好的選擇嗎?
兩個麥克風,仍然解決不了一個老問題
顯然不是這樣的。
首先雙麥克風降噪本身就有一定的局限性,因為算法要在手機終端運行,所以規(guī)模不能太大,實現(xiàn)效果也相對有限。具體表現(xiàn)為,有時用戶不再說話時,靠近嘴部的麥克風收集的其實還是環(huán)境噪音,對于人聲剝離的計算會產(chǎn)生一種斷斷續(xù)續(xù)的狀況。而且當用戶使用藍牙耳機或有線耳機通話時,手機端的雙麥克風降噪算法往往又會失效。
同時雙麥克風在工業(yè)設(shè)計上也會造成很多阻礙。兩個麥克風會讓聲學音頻路徑的設(shè)計更加復雜,在ODM和OEM角度都會增加生產(chǎn)設(shè)計成本。尤其在如今手機越來越追求屏占比和輕巧的今天,元件自然是越少越好。
而且在一些使用場合中,用來收集人聲的麥克風不一定會被放在人們的嘴邊。例如在錄音,或者應(yīng)用一些App上的對講機功能時,人習慣將手機放置在桌子上,或者拿在舉例嘴略遠地方。這時兩個麥克風很難接收到不同的聲音,讓算法起不到作用。
如果腦洞開的再大一點,未來我們的手機不一定還是如今的平板形狀。也許是能卷起來的曲面屏手機,也許是眼鏡形態(tài),未來通話的交互方式,也不一定是將手機的一部分放在嘴邊收聲。
總之,這種雙麥克風降噪模式絕不是主動降噪最終的解決方案。
并不新鮮的DNN降噪,怎樣才能落實應(yīng)用?
其實早在2015年,中國科技大學語音與語言信息處理國家工程實驗室就創(chuàng)作了關(guān)于通過深度神經(jīng)網(wǎng)絡(luò)+單麥克風實現(xiàn)主動降噪的論文。具體實現(xiàn)方式是,建立含有噪聲+人聲和純凈人聲的數(shù)據(jù)集,以深度神經(jīng)網(wǎng)絡(luò)為架構(gòu)訓練出分離噪聲和人聲的“語音增強回歸”算法。
在初步試驗后,這種算法的結(jié)果還不錯。從訓練成本來看,即使用人工合成的數(shù)據(jù),算法結(jié)果仍然表現(xiàn)優(yōu)秀。也就是說算法的應(yīng)用者不需要面對到現(xiàn)實世界收集數(shù)據(jù),可能會侵犯隱私的難題。從應(yīng)用上來說,這一算法的降噪能力并不比雙麥克模式差,甚至還能克服雙麥克風克服不不了的間斷噪聲問題,有時候人們在走路或跑動時接電話會形成偶爾出現(xiàn)的間斷噪聲,以往的雙麥克風模式很難捕捉到這種噪聲,但語音增強回歸算法就能將人聲從中剝離開來。
不過這種算法在這幾年間都沒有得到很好的應(yīng)用,原因很簡單,深度神經(jīng)網(wǎng)絡(luò)模型往往體量較大,很難實現(xiàn)在終端上運行,如果在云端運行,又難免會因為延遲狀況不能在實時通話中應(yīng)用,要知道人類對于交談時延遲的忍耐最多只有200毫秒。可要是用在語音的后期處理上,好像也并沒有什么意義,只要換個收聲好一點的話筒就能解決問題,還能保證音質(zhì)還原。
不過隨著這兩年以來終端算力的增長,以及對AI算法的不斷優(yōu)化,在終端部署這類模型已經(jīng)逐漸成為可能。例如一些藍牙耳機已經(jīng)部署上了可以在本地運行的RNNoise算法,通過簡單的運算來分離單一收音來源的噪聲。
除了手機,AI降噪還有更廣闊的舞臺
這種本地AI降噪技術(shù)的應(yīng)用舞臺,不僅僅在手機一種產(chǎn)品上。除了手機通話之外,我們其實無處不受通話噪音的干擾,尤其當語音交互應(yīng)用的越來也多時,這些問題也越來越嚴重。
比如在游戲直播時,主播的聲音可能會被外放的游戲聲音干擾,必須高價購買專用聲卡和麥克風才能和粉絲暢快的溝通。又比如車載場景下的語音交互,又有可能被駕車時嘈雜的背景音和導航的聲音干擾,最后逼得一些車聯(lián)網(wǎng)方案將麥克風陣列裝置在了方向盤上。以及這幾年很流行的智能音箱,為了防止家庭環(huán)境中的噪音干擾,需要在麥克風陣列上增加很多成本,像是蘋果的HomePod就足足安裝了6個麥克風陣列……
但這一切都在被語音增強回歸算法和終端計算所改變。
就像最近,一家名為Krisp的創(chuàng)業(yè)企業(yè)集合了相關(guān)算法推出了一款應(yīng)用于PC端的軟件,利用PC端本地算力來運行模型,降低PC端收音的噪音。不需要昂貴的聲卡和外置麥克風,和Skype等等軟件也不會產(chǎn)生沖突。同時Krisp還計劃推出針對于游戲的定制版本,專門應(yīng)對游戲語音、游戲直播時被游戲背景音樂困難的問題。
目前這款軟件在英偉達的GPU、英特爾的CPU/GNA和ARM的芯片上都能運行,和高通的合作也在洽談之中。也就是說如今的PC版本只是開始,未來只要能應(yīng)用這些芯片的終端,都可以應(yīng)用上Krisp的軟件,實現(xiàn)在終端的實時主動噪音抑制。
算法路徑逐漸清晰,軟件市場會迎來下一個爆發(fā)期嗎?
因此Krisp也展示出了充分的市場前景,受到了資本的青睞,在首輪融資中就融到了150萬美元。Krisp的出現(xiàn)也帶出了一個問題:隨著終端算力的提升和小規(guī)模AI算法的發(fā)展,這種軟件替代硬件的模式是否會迎來上一個商業(yè)上的小爆發(fā)?
在終端功能的實現(xiàn)上,永遠都有算法和硬件兩條路。降噪可以用雙麥克風解決,也可以用AI算法解決;拍照效果可以用雙攝提升,也可以用單目攝像頭+算法來提升;電量不足可以增大電池容量,也可以用資源調(diào)度算法解決……
雖然以往我們都是通過硬件上的研發(fā)來解決,但這其中也存在不小的問題:硬件的頻繁更新會給廠商帶來巨大的生產(chǎn)和研發(fā)成本,這些成本轉(zhuǎn)嫁到消費者身上時,會導致高端和低端機型在硬件上差距太大,其實還會給開發(fā)者帶來負擔。而且現(xiàn)在硬件追求輕薄小巧,更加大了硬件創(chuàng)新的難度。
但今天我們有了用算法解決問題的條件,事情就會產(chǎn)生很多變化。
首先很多原本在貴價產(chǎn)品上才有的功能,會出現(xiàn)“平價替代”方案。例如此前iPhone X用3D結(jié)構(gòu)光實現(xiàn)的Animoji,如今在快手一類的產(chǎn)品上也可以用AI算法實現(xiàn)類似功能。
同時算法的更新迭代比硬件更加敏捷高效,用戶體驗可以得到極大的提升。一些創(chuàng)新功能可以更快速的來到用戶面前并得到反饋。
最后,終端產(chǎn)品在研發(fā)成本和產(chǎn)品形態(tài)上都有了更廣闊的想象空間。尤其是未來5G應(yīng)用后,算法模型也許也不再需要拘泥于終端算力,或許會徹底改變我們使用終端產(chǎn)品的方式。
如此看來,或許幾年之后軟件市場會迎來自移動應(yīng)用之后的又一次發(fā)展機會,起跑線已經(jīng)劃好,就待哨聲吹響了。
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準AI機器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。