全真互聯(lián)時代,音視頻技術內核不斷更新迭代,LiveVideoStackCon 2022 北京站邀請到騰訊多媒體實驗室視頻技術研發(fā)負責人——夏珍,與大家分享畫質增強技術的一些前沿探索和應用研究,在經典影像中非常重要的畫質提升技術人臉修復和去壓縮失真的能力,以及在騰訊視頻和云游戲中能帶來畫質增強的技術。
來自騰訊多媒體實驗室的夏珍,一直從事視頻處理技術的相關研究與應用,希望分享的內容能給到大家一些幫助,也借此機會向各位同行學習。
本次分享的主題是《畫質增強的前沿應用》,內容包括三部分:一是畫質增強技術現(xiàn)狀,第二部分是畫質增強技術的前沿應用,第三部分是畫質增強技術的趨勢。
一、畫質增強-現(xiàn)狀
下面將從三方面介紹畫質增強技術。
當時做PPT時還是22年8月份,當時最火的概念應該是4K/8K超高清、VR、3D等是人們熱議的話題,不管是學界還是工業(yè)界都是高熱點,在這些前沿技術應用里,畫面分辨率、細節(jié)已達到非常高清的程度,制作內容也達到很高標準,甚至很多顯示屏已經超過人眼能分辨的極限。
然而實際生活中,在不同的終端、場景和應用里,相信大家都遇到過以下情況:比如為了視頻時畫面更清晰,給父母買了像素很高的相機,然而最終呈現(xiàn)的畫面依然模糊不清,或是參加線上會議時,經常出現(xiàn)畫面模糊,又或是看劇時畫質很差。大家會疑慮:內容為什么沒有預期的清晰?
導致畫面不如預期的因素有很多,包括硬件條件、網絡帶寬、編碼方式、原始素材等,在這樣受限的場景下,如何提升用戶體驗的主觀感受呢?
提升畫質是擺在很多應用場景下繞不開的命題,畫質增強包括哪些技術?又分別能解決什么問題呢?下文將從三個維度進行分析,當然從信號處理的角度有更多維度去評估,比如頻域等就不進一步展開了。
首先對于時域維度,即大家理解的時間維度上,他主要解決的視頻連續(xù)播放時在時域上干擾人眼的信號,在實際場景中會有運動不流暢、畫面抖動和時域噪聲等問題,所以在時域上會出現(xiàn)對應的解決方案,比如插幀、視頻去抖動、時域降噪等。
左側的哈士奇在轉動時會出現(xiàn)卡頓,通過幀率上采樣可以使其更流暢。右側上方是帶噪聲的影片,下方通過視頻降噪算法優(yōu)化后,畫面噪聲減少很多。
空域,即從空間的維度上,大家能遇到的大部分問題也是在這個維度上,它主要是提升人眼主觀感受的畫質,播放時比如模糊、噪聲、失真、低分辨率等常見問題,所以在空域上有種類繁多的增強算法,大家都熟知的算法,超分辨率、去壓縮失真、細節(jié)增強、去劃痕等。上方左圖存在許多塊,編碼壓縮失真的問題、右圖通過優(yōu)化后獲得了更好的畫面效果。下方左圖包括許多劃痕和噪點,右圖通過AI去劃痕算法后極大改善了畫面的畫質。
色域,即從顏色的維度上,人眼對色彩是非常敏感,色彩畸變或黑白畫面在很大程度上會影響用戶的主觀感受,在色域上增強技術分SDR域和HDR域的算法,比如SDR2HDR、色彩增強、暗場景增強、HDR增強等算法,都是對色彩進行處理的算法。
上方的圖像經過HDR轉換后,色彩及色域都更加豐富。下方的圖像通過AI自動上色,使得畫面豐富度和人眼主觀感受有明顯提升。
二、畫質增強-前沿應用
接下來會從兩方面介紹畫質增強的前沿技術,一個是不太考慮算力但對效果有極致要求的經典影像修復技術,另一個是非??简炈懔Φ慕K端超分技術。
2.1經典影像修復
這是2022年多媒體實驗室修復李苦禪老人經典影像的畫面,可以看到其中有很多影響主觀質量的因素,包括劃痕、雪花點、噪聲、失真、模糊、色彩等問題。
這一頁總結了影像修復中常見的問題,包括劃痕、霉斑、噪聲、低分辨率、模糊等,而經典影像修復包含以下幾個主要步驟:膠片物理修復、膠轉磁,數(shù)字修復和優(yōu)化,最后的上映或保存。
在經典影像修復的過程中,騰訊多媒體實驗室積累了深厚的技術和實踐經驗,形成一套較完整的基于AI的影像修復技術流程,主要分四個大的模塊,包括智能分析、畫質修復、畫質增強和智能轉碼。
智能分析:對視頻進行智能分析,提供包括幀級、場景級和視頻級不同粒度的分析,包括畫面復雜程度、運動程度、噪聲程度、失真程度、色彩豐富度等分析,用以指導后續(xù)畫質修復和畫質增強技術能力的自動化使用。
畫質修復:結合了智能分析模塊的信息,選取最佳模型對視頻進行修復,包括去壓縮失真、視頻降噪、人臉修復、去劃痕等技術能力。
畫質增強:根據(jù)智能分析模塊的信息,合理選擇最佳的算法和參數(shù),包括視頻超分辨率、色彩增強、細節(jié)增強、AI自動化上色、暗場景增強、幀率上采樣等算法,經過這樣處理后得到完整修復的視頻。比如老的影片大部分是15fps或分辨率是720*468,此時畫質增強模塊會默認開啟超分辨率和幀率上采樣,對其進行插幀,從而使得影片在大屏播放時呈現(xiàn)出更好的效果。
智能編碼:為了更好地進行傳輸和播放,結合騰訊多媒體實驗室最核心的編解碼能力,通過最佳人眼視覺的編碼方式對視頻進行轉碼壓縮,在保證視頻主觀質量情況下,對視頻進行最小質量的轉碼輸出。
這是多媒體實驗室“光影煥新”經典影像修復的主要架構,從架構上分為應用層、解析層、分析層、處理層、支持層和封裝層。架構上會將智能分析的主要能力放在這一層,然后結合解析層的結果去指導處理層算法的自動化處理,底層也會根據(jù)服務器不同采用不同的底層架構,比如GPU服務器會用TRT做統(tǒng)一的深度學習推理庫,而如果在CPU架構上則會轉換成OpenVINO和其他能力,最后在封裝層,根據(jù)用戶的需求選擇對應的碼流。
當然在近年的研究和積累過程中,也遇到了非常多的問題和難題,比如去劃痕在影像修復中很重要,但在業(yè)界研究是個很小眾的問題,我們在數(shù)據(jù)集、算法和模型上都是從零開始構建,比如超分雖然不斷有新的進展,但實際場景中適用性都不好,只能針對不同場景開發(fā)不同級別的模型。
以去失真生成模型研究為例,首先去失真生成模型解決了什么問題?在經典影像中不同于常見的視頻,比如左圖放大的畫面,因為受限于經典影像拍攝的年代、拍攝硬件、存儲等因素,導致畫面存在嚴重破壞畫質的問題,比如噪聲、編碼失真、模糊等等問題,之前的研究過程是先進行去壓縮失真、降噪等處理再通過后面的超分辨率、細節(jié)增強等算法增強細節(jié),但后面發(fā)現(xiàn)在前面進行去壓縮失真和降噪等處理已經把細節(jié)都丟失了,后面的超分、細節(jié)增強很難恢復細節(jié)恢復,基于這個問題開發(fā)了去失真生成模型,主要解決的是在去壓縮失真的同時對細節(jié)進行增強和生成,只有兩個能力在一個模型里才能在去掉失真的同時生成更豐富的細節(jié)。
作為近年對超分辨率研究工作的延伸,騰訊多媒體實驗室提出一種高效的失真生成模型。首先模型需要有處理復雜失真的能力,因此在數(shù)據(jù)集制作中參考現(xiàn)有SR模型的降質過程結合經典影像數(shù)據(jù)集的特點,盡可能還原經典影像中失真的類型和生成方式,數(shù)據(jù)集上會采用多種視頻編碼方式、多種上下采樣方法,多種模糊和噪聲方式進行數(shù)據(jù)生成。
模型分為三個模塊,對齊模塊、AR模塊和判別器模塊。對齊模塊是將前后兩幀進行特征對齊,經過性能分析發(fā)現(xiàn),隱式的可變性卷積方式相對顯性的光流對齊模塊要更高效。AR模塊是進行去失真和細節(jié)生成能力,最后經過判別器,判別器模塊不同于單幀的判別,會提取當前幀空間信息和時域幀間的信息。為實現(xiàn)更高效的目的,采用前后兩幀作為對齊幀,網絡采用殘差結構,光流和AR模塊只需要關注特征部分,裁剪模型中對模型影響較小的層。
右圖不僅修復了很嚴重的噪聲、失真和模糊等問題,比如畫面中噪聲、背景的抖動和模糊的問題,同時對細節(jié)比如人臉、衣服紋理和植物的細節(jié)做了很好的生成,做到真正的高清呈現(xiàn)。
2.2端側-高效超分
云游戲在中國市場成為越來越受關注的云和游戲結合的新模式。而隨著云游戲的發(fā)展,編解碼在云游戲中的應用逐漸得到體現(xiàn),云游戲也逐漸從滿足編解碼性能和畫質上進入更多拓展階段,因為云游戲將算力從用戶手機轉移到服務器上,所以服務器、帶寬的成本壓力非常巨大,現(xiàn)階段各公司在“降本增效”上下足了功夫,如何利用視頻技術在保證畫質體驗不變的情況下,節(jié)省服務器和帶寬成了一個重要課題,比如云游戲需要1080p/30fps才能保證基礎體驗,而現(xiàn)在使用了超分,只需要在服務器渲染540p/30fps的流,推到本地手機后再通過手機算力進行超分到1080p,實現(xiàn)節(jié)省帶寬和服務器成本的目的。
接下來介紹騰訊多媒體實驗室在云游戲中端側超分的研究,端側超分也會應用在騰訊視頻中以達到降低成本的目的,端側超分也是正在研究中的內容,因此提出來和大家一起討論學習。
首先介紹超分在云游戲中遇到的難點,一個是云游戲對延時相比直播、視頻通話要求更高,增加算法影響游戲的體驗,二是云游戲大分辨率、高幀率畫面,對算法性能要求非常高,三是云游戲終端分布廣泛,包括PC、Mac、TV、手機等復雜場景適配困難。
基于以上的難點,騰訊多媒體實驗室在模型上下了很大功夫,并基于之前積累的算法經驗,提出了“化繁為簡”的模型方案,但“簡”并不簡單。
首先利用殘差結構,利用有限網絡結構學習盡量多的參數(shù),同時通過蒸餾方案,在中間層的學習中利用導師網絡進行指導,第三重參數(shù)化,因為性能因素網絡層數(shù)不夠,便利用重參數(shù)思想訓練復雜的網絡,在推理時合并算子達到簡化的目的。
經過多次優(yōu)化,在windows和android上測試了一些不同結構的方案,基本上能達到超分后1080p/30fps的要求,左邊的客觀指標是在windows端對比傳統(tǒng)bicubic和某個競品的方案,從vmaf/psnr/ssim指標上都顯著優(yōu)于競品和傳統(tǒng)方案,當然這些客觀指標其實并不能反映主觀質量。
圖中可以看出,右圖自研超分方案相對于競品在文字上邊緣更細膩、完整,紋理上更細膩和真實,這也是超分需要達到的真實效果。當然方案還在不停優(yōu)化中,還有很多可優(yōu)化的點,也希望能和大家一起討論和學習。
三、畫質增強-未來
未來的技術發(fā)展列了以下四個方向,一個是作為AIGC的基礎組件,比如在文生圖、文生視頻等方向上,畫質增強能節(jié)省生成時間,生成更大更清晰的圖像和視頻;第二個是3D方向,比如在人臉建模方向上使用超分后能大幅度提升建模的效果;第三個是上文提到的移動端部署,隨著手機性能不斷提升,GPU、NPU等逐漸普及后,以前在移動端很難實現(xiàn)的能力也能在移動端落地了,比如云游戲的超分就能達到降本增效的目的,這個場景也可以用在點播、直播等場景中。第四點是畫質技術本身應該朝著符合人眼真實度方向發(fā)展,比如AI上色怎么能還原以前真實的色彩,人臉修復能否更自然等。
以上是本次的分享,謝謝!如有問題請與騰訊多媒體實驗室聯(lián)系,了解更多信息。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )