近日,騰訊光影研究室(Tencent GY-Lab)憑借自研GYDepth算法,在CVPR 2021 Workshop的Mobile AI單目深度估計(jì)競賽中以領(lǐng)先第二名9倍的絕對優(yōu)勢奪冠,擊敗三星、OPPO等手機(jī)廠商和國內(nèi)外著名高校。
關(guān)于Mobile AI 2021
CVPR是世界計(jì)算機(jī)視覺三大頂級會議之一,Mobile AI是CVPR 2021其中一項(xiàng)Workshop比賽,除了單目深度估計(jì)競賽之外,還包括圖像超分、視頻超分等任務(wù)。這項(xiàng)比賽以“Mobile”為名,主打移動端芯片上的AI能力,在AI相關(guān)技術(shù)領(lǐng)域受到廣泛關(guān)注和高度認(rèn)可,吸引著眾多手機(jī)廠商如三星,OPPO和國內(nèi)外著名高校參與。
光影實(shí)驗(yàn)室自研GYDepth算法,斬獲單目深度估計(jì)競賽第一名
單目深度估計(jì)是計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)基礎(chǔ)任務(wù),其目的在于讓普通的RGB攝像頭能夠識別出視野內(nèi)的物體距離攝像頭的遠(yuǎn)近。單目深度估計(jì)技術(shù)的完善能夠讓主流AR玩法擺脫深度攝像頭的限制,走向更普遍的機(jī)型。
比賽的最終指標(biāo)由模型精度與模型速度兩部分組成,而此次比賽中,單目深度估計(jì)的數(shù)據(jù)大多來自室外場景,并由ZED雙目攝像頭采集。相比傳統(tǒng)AR玩法常用的室內(nèi)場景的多樣性會更多,難度更大。
針對Mobile AI室外場景,騰訊光影研究室在常規(guī)單目深度估計(jì)模型訓(xùn)練框架的基礎(chǔ)上,對網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練方式、模型部署上做了針對性調(diào)整。
在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)上,團(tuán)隊(duì)在模型小型化上投入了大量精力。整體網(wǎng)絡(luò)是一個標(biāo)準(zhǔn)的Encoder-Decoder模型,模型自原圖輸入后經(jīng)過了4次共16倍的下采樣,然后經(jīng)過特征融合模塊再逐層上采樣回初始的分辨率。在模型上采樣的過程中,由于模型部署條件的限制,騰訊光影研究室摒棄了Depthwise Deconvolution的方案,轉(zhuǎn)而選擇了實(shí)現(xiàn)更加高效的Resize + Depthwise Convolution組合。不過,小模型自然也會帶來精度指標(biāo)的降低。為了彌補(bǔ)這一差距,團(tuán)隊(duì)在訓(xùn)練流程中引入了在線蒸餾。由于單目深度估計(jì)本身就是對輸出的單通道Feature Map進(jìn)行回歸,這里繼續(xù)對Soft Label進(jìn)行蒸餾會和GT產(chǎn)生歧義,因此他們選擇在Hint Feature進(jìn)行蒸餾,并且使用了網(wǎng)絡(luò)結(jié)構(gòu)類似的服務(wù)器端開源大模型Bts作為Teacher。
除此之外,在訓(xùn)練過程中,團(tuán)隊(duì)除了使用常規(guī)的Flip、Color Transform外,還針對固定分辨率下絕對深度的特性,對RGBD圖片對采用了Random Crop的策略。和常規(guī)Crop不同,團(tuán)隊(duì)在Crop后利用相似三角形的特性對Depth的值進(jìn)行了補(bǔ)償,其背后的原理類似于使用相機(jī)拍攝時,把畫面放大和拍攝者向前走能達(dá)到一樣的效果。
另外,在模型部署上,Mobile AI Depth競賽要求提交的模型以Float32 TFLite形式在樹莓派Raspberry Pi 4上以CPU運(yùn)行。這意味著傳統(tǒng)上針對Conv等基礎(chǔ)算子在CPU上的計(jì)算優(yōu)化是不可用的,模型的速度實(shí)打?qū)嵉暮湍P陀?jì)算量正相關(guān)。為了滿足比賽提交的要求,騰訊光影研究室打通了PyTorch -> Onnx -> Keras -> TFLite的轉(zhuǎn)換路徑,并確保了轉(zhuǎn)換前后模型端到端精度誤差小于1e-6。
持續(xù)深耕AI前沿技術(shù)研發(fā),賦能更多應(yīng)用場景
實(shí)際上,光影研究室的AR玩法中,或多或少都有單目深度估計(jì)技術(shù)的身影,通過壓縮、剪枝、蒸餾獲得的小模型,可以在手機(jī)移動端實(shí)時運(yùn)行,并覆蓋ios和android雙端90%以上的機(jī)型。目前單目深度估計(jì)技術(shù)已作為基礎(chǔ)能力在多個AR玩法中發(fā)揮作用。比如,在手機(jī)QQ的AR蛋糕等貼紙類玩法中,單目深度估計(jì)技術(shù)提供了貼紙目標(biāo)在空間中的方向與位置,使得AR算法能夠快速初始化;在水淹食堂特效中,單目深度估計(jì)模型提供了視野中每個點(diǎn)距離相機(jī)的遠(yuǎn)近,結(jié)合相機(jī)內(nèi)外參可以計(jì)算其在世界坐標(biāo)系下的位置,從而實(shí)現(xiàn)AR特效。
未來,光影研究室也將持續(xù)深耕AI前沿技術(shù)的研發(fā)和積累,探索并開放更多場景的創(chuàng)意玩法及能力,為用戶提供充滿趣味驚喜的社交和視覺新體驗(yàn)。
關(guān)于騰訊光影研究室
騰訊光影研究室是騰訊旗下專注于研究前沿影像處理技術(shù)的團(tuán)隊(duì),在單目深度估計(jì)技術(shù)、語義分割、目標(biāo)檢測、分類識別、GAN生成對抗等方面均有深厚的技術(shù)積累。團(tuán)隊(duì)一直致力于探索泛娛樂綜合解決方案,將前沿的AI能力、先進(jìn)的玩法引擎和3D渲染技術(shù)賦能產(chǎn)品,讓視覺創(chuàng)意更多樣,音視頻編輯更智能,社交溝通更趣味。目前,QQ、微視等超20款業(yè)務(wù)產(chǎn)品中,均有光影研究室技術(shù)的身影。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )