10月31日-11月1日,LiveVideoStackCon2020音視頻技術(shù)大會在北京隆重舉辦。本次大會以“多媒體開啟新視界”為主題,聚焦在音頻、視頻、圖像等技術(shù)的最新探索與應(yīng)用實踐,覆蓋教育、娛樂、醫(yī)療、安防、旅游、電商、社交、游戲、智能設(shè)備等行業(yè)領(lǐng)域,數(shù)十位業(yè)內(nèi)知名講師與來自全國各地的音視頻工程師、多媒體工程師、圖像算法工程師、運維與物聯(lián)網(wǎng)工程師等分享了技術(shù)創(chuàng)新與最佳實踐。
本次大會中,人工智能相關(guān)話題十分火爆,AI已經(jīng)滲透到多媒體技術(shù)的各個環(huán)節(jié),無論內(nèi)容生產(chǎn)、編解碼、音視頻前后處理等,AI都有一席之地,甚至被寄予厚望。網(wǎng)易云信資深音頻算法工程師郝一亞博士受邀參會,在“音頻技術(shù):逼近人耳極限”專題會場進行了題為《RTC中AI音頻算法的產(chǎn)品化》的主題演講,并在“5G、AI,新技術(shù)與新變革”圓桌論壇中分享了AI在音視頻領(lǐng)域應(yīng)用的實踐經(jīng)驗。
主題分享中,郝一亞博士首先介紹了AI在音頻處理中日漸強大的力量。隨著AI在計算機視覺等領(lǐng)域的成功應(yīng)用,CNN、RNN等深度學習網(wǎng)絡(luò)被迅速應(yīng)用到了音頻領(lǐng)域,AI在音頻降噪、場景分類、回聲控制、盲源分離等方向著發(fā)揮著越來越重要的作用。
雖然AI在音頻領(lǐng)域的價值日漸明顯,但在目前的算法中,特別是RTC音頻中,還沒有被大范圍的應(yīng)用起來。針對音頻處理中AI的挑戰(zhàn)與局限,郝一亞博士概括為三點。一是計算復雜度。AI模型通常需要巨大的計算量,就目前我們大部分終端設(shè)備的計算能力來說壓力很大,對RTC中的實時性提出了考驗。二是泛化能力。AI算法是基于有限的數(shù)據(jù)集訓練出來的,泛化能力有限一直是問題所在。而RTC中覆蓋的業(yè)務(wù)場景非常多,AI算法要覆蓋所有場景更是難上加難。三是魯棒性。RTC豐富的應(yīng)用場景中會有很多突發(fā)情況,對于AI算法魯棒性的要求也非常高。
由于算力、數(shù)據(jù)和AI模型本身的限制,現(xiàn)在AI還達不到替換傳統(tǒng)信號處理方法的階段,但音頻AI在效果上的優(yōu)勢已經(jīng)被證實。郝一亞博士提出,在RTC領(lǐng)域,要想更好地發(fā)揮出AI的優(yōu)勢,有效規(guī)避不足,進行“模塊化”處理是一個有效的途徑。把端到端、長鏈路的處理拆分,分別找到合適的AI模塊,讓專業(yè)的“人”做專業(yè)的事。
以音頻降噪中的AI算法為例,傳統(tǒng)降噪算法中包含了很多模塊,其中“噪聲估計”模塊很適合做深度學習訓練,特別是針對一些穩(wěn)態(tài)噪聲。在這里,不用端到端地去訓練整個AI模型,而是把這一模塊訓練成單獨的噪聲估計模型。通過模塊化的處理,實現(xiàn)了輕量級模型、簡單的訓練目標以及更適合DNN模型,從而最大程度的發(fā)揮了AI的優(yōu)勢。
郝一亞博士認為,未來越來越多的AI技術(shù)將融入到RTC中,一些新的爆發(fā)點可能是更先進的神經(jīng)網(wǎng)絡(luò)模型,更高效的GPU等,但是,有一項關(guān)鍵點不會變,那就是大量的數(shù)據(jù)。目前,網(wǎng)易云信已配備了全套工具和環(huán)境采集多種來源的數(shù)據(jù)集用于訓練AI算法,已經(jīng)在音頻降噪和視頻超分等場景中實踐應(yīng)用。
2015年10月至今,網(wǎng)易云信一直專注于即時通訊和音視頻技術(shù)領(lǐng)域的前沿探索和應(yīng)用實踐,已幫助100萬企業(yè)開發(fā)者成功發(fā)送10000億條消息,日活突破3億,在百家爭鳴的PaaS市場中實現(xiàn)穩(wěn)中增長。近期,網(wǎng)易云信再度加碼技術(shù)能力,全面升級的音視頻通話2.0產(chǎn)品上線,AI等新興技術(shù)已融入產(chǎn)品開始服務(wù)客戶。未來,網(wǎng)易云信將堅持不斷創(chuàng)新,探索融合通訊領(lǐng)域的新技術(shù)、新產(chǎn)品、新應(yīng)用,與行業(yè)共創(chuàng)美好新時代。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )