近日,騰訊多媒體實(shí)驗(yàn)室設(shè)計(jì)的基于深度學(xué)習(xí)的全參考視頻質(zhì)量評(píng)估算法DVQA在Github上正式開(kāi)源,該算法模型的性能目前在公開(kāi)測(cè)試數(shù)據(jù)集上取得業(yè)界領(lǐng)先成績(jī)。
開(kāi)源地址:https://github.com/Tencent/DVQA
國(guó)內(nèi)鏡像地址:
https://git.code.tencent.com/Tencent_Open_Source/DVQA
(登錄后才能訪問(wèn)公開(kāi)項(xiàng)目)
騰訊工蜂源碼系統(tǒng)為開(kāi)源開(kāi)發(fā)者提供完整、最新的騰訊開(kāi)源項(xiàng)目國(guó)內(nèi)鏡像
視聽(tīng)時(shí)代,音視頻應(yīng)用越來(lái)越廣泛:直播、短視頻、視頻節(jié)目、音視頻通話……近期由于新冠疫情帶來(lái)的在線協(xié)同辦公、在線教育類產(chǎn)品的崛起,更帶來(lái)了線上音視頻需求的爆發(fā),用戶對(duì)音視頻質(zhì)量訴求也愈加強(qiáng)烈。
在整個(gè)視頻鏈路中,大部分模塊都可以精確度量,如采集、上傳、預(yù)處理、轉(zhuǎn)碼、分發(fā)等。然而未知的部分卻恰恰是最關(guān)鍵的部分,即用戶的視頻觀看體驗(yàn)到底怎么樣。目前行業(yè)內(nèi)的視頻質(zhì)量評(píng)估方法分為兩大類:客觀質(zhì)量評(píng)估與主觀質(zhì)量評(píng)估。前者計(jì)算視頻的質(zhì)量分?jǐn)?shù),又根據(jù)是否使用高清視頻做參考、源視頻是專業(yè)視頻還是用戶原創(chuàng)視頻等進(jìn)一步細(xì)分;后者主要依賴人眼觀看并打分,能夠直觀反映觀眾對(duì)視頻質(zhì)量的感受。然而,這些方法仍存在耗時(shí)費(fèi)力、成本較高、主觀觀感存在偏差等難題。
多媒體實(shí)驗(yàn)室提出的視頻質(zhì)量評(píng)估解決方案,首先結(jié)合業(yè)務(wù)需求,使用“在線主觀質(zhì)量評(píng)測(cè)平臺(tái)”,來(lái)構(gòu)建大規(guī)模主觀質(zhì)量數(shù)據(jù)庫(kù),同時(shí)使用所收集的主觀數(shù)據(jù)來(lái)訓(xùn)練基于深度學(xué)習(xí)的客觀質(zhì)量評(píng)估算法,最后把訓(xùn)練好的質(zhì)量評(píng)估算法部署到業(yè)務(wù)線中,閉環(huán)監(jiān)控可能存在的質(zhì)量問(wèn)題。從以上三個(gè)角度出發(fā),DVQA能夠在兼顧不同業(yè)務(wù)、場(chǎng)景的前提下,滿足效率與精度兩大需求。
DVQA包含多個(gè)質(zhì)量評(píng)估算法模型,本次開(kāi)源的是針對(duì)PGC視頻的算法C3DVQA。本項(xiàng)目使用Python開(kāi)發(fā),深度學(xué)習(xí)模塊使用PyTorch。代碼使用模塊化設(shè)計(jì),方便集成較新的深度學(xué)習(xí)技術(shù),靈活的自定義模型,訓(xùn)練和測(cè)試新的數(shù)據(jù)集。
在算法設(shè)計(jì)上,C3DVQA所使用的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。其輸入為損傷視頻和殘差視頻。網(wǎng)絡(luò)包含兩層二維卷積來(lái)逐幀提取空域特征。級(jí)聯(lián)后使用四層三維卷積層來(lái)學(xué)習(xí)時(shí)空聯(lián)合特征。三維卷積輸出描述了視頻的時(shí)空掩蓋效應(yīng),再使用它來(lái)模擬人眼對(duì)視頻殘差的感知情況:掩蓋效應(yīng)弱的地方,殘差更容易被感知;掩蓋效應(yīng)強(qiáng)的地方,復(fù)雜的背景更能掩蓋畫(huà)面失真。
網(wǎng)絡(luò)最后是池化層和全連接層。池化層的輸入為殘差幀經(jīng)掩蓋效應(yīng)處理后的結(jié)果,它代表了人眼可感知?dú)埐睢HB接層學(xué)習(xí)整體感知質(zhì)量和目標(biāo)質(zhì)量分?jǐn)?shù)區(qū)間的非線性回歸關(guān)系。
在評(píng)測(cè)結(jié)果上,騰訊多媒體實(shí)驗(yàn)室在LIVE和CSIQ兩個(gè)視頻質(zhì)量數(shù)據(jù)集上對(duì)所提出算法的性能進(jìn)行驗(yàn)證。并使用標(biāo)準(zhǔn)的PLCC和SROCC作為質(zhì)量準(zhǔn)則來(lái)比較不同算法的性能。將所提出的C3DVQA與常用的全參考質(zhì)量評(píng)估算法進(jìn)行對(duì)比,包括PSNR,MOVIE,ST-MAD,VMAF和DeepVQA,結(jié)果如下表所示。
(LIVE和CSIQ兩個(gè)數(shù)據(jù)庫(kù)上不同全參考算法性能比較)
目前該評(píng)估算法已在騰訊內(nèi)外部多款產(chǎn)品中進(jìn)行使用驗(yàn)證,如騰訊會(huì)議就借助實(shí)驗(yàn)室上百個(gè)符合ITU/3GPP/AVS等國(guó)外內(nèi)標(biāo)準(zhǔn)的指標(biāo)進(jìn)行評(píng)判,閉環(huán)監(jiān)控全網(wǎng)的用戶體驗(yàn)質(zhì)量,從用戶真實(shí)體驗(yàn)出發(fā),不斷優(yōu)化產(chǎn)品性能。
作為最早布局音視頻領(lǐng)域的公司之一,從最早的QQ平臺(tái),騰訊就試圖解決在當(dāng)年網(wǎng)絡(luò)條件下若干的音視頻通信問(wèn)題。伴隨著5G、云計(jì)算、大數(shù)據(jù)、人工智能技術(shù)的發(fā)展,騰訊多媒體實(shí)驗(yàn)室基于多年的技術(shù)沉淀和行業(yè)經(jīng)驗(yàn),逐步打磨出一條完善且高質(zhì)量的音視頻技術(shù)鏈條。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )