近日,騰訊優(yōu)圖實(shí)驗(yàn)室在CVPR2021舉辦的Image Matching Workshop(IMW2021)比賽中,提出的圖像匹配技術(shù) (SS-Fusing)榮獲雙賽道冠亞軍。IMW2021是Google和University of British Columbia(UBC)聯(lián)合舉辦的Workshop比賽,吸引了包括曠視,商湯,EPFL,KORNIA,華中科大和OPPO等公司、學(xué)校和機(jī)構(gòu)參加。
作為計(jì)算機(jī)視覺領(lǐng)域的基礎(chǔ)技術(shù)之一,Image Matching是指尋找一張圖片中拍攝的子區(qū)域在另一張圖片中的對(duì)應(yīng)位置,廣泛應(yīng)用于包括SFM、SLAM、三維重建、大規(guī)模圖像檢索,缺陷檢測與配準(zhǔn)等領(lǐng)域。
圖1、圖像匹配技術(shù)示例
本次比賽的評(píng)測機(jī)制如圖2所示,參賽者根據(jù)自己提出的方法提取每張圖的關(guān)鍵點(diǎn)和對(duì)應(yīng)描述子,并提交每兩張圖之間的匹配結(jié)果,賽方會(huì)根據(jù)提交的結(jié)果統(tǒng)計(jì)兩種評(píng)估方案:1.通過對(duì)比兩張圖之間匹配結(jié)果對(duì)應(yīng)的相機(jī)位姿和真實(shí)位姿之間的差異(Stereo)。2.根據(jù)多張圖之間的關(guān)鍵點(diǎn)匹配結(jié)果,統(tǒng)計(jì)重建后預(yù)測全圖的相機(jī)位姿和真實(shí)位姿之間的差異(Multi-view)。因此對(duì)于任意兩張圖之間,關(guān)鍵點(diǎn)的分布越分散,匹配的點(diǎn)越準(zhǔn),則位姿估計(jì)的效果越好。
圖2、比賽流程圖
此外,本屆比賽分為限制性賽道(Restricted category)和非限制性賽道(Unlimited category),其中限制性賽道要求參賽者提交有限的關(guān)鍵點(diǎn)和對(duì)應(yīng)描述子,非限制性賽道可提交不限數(shù)量的關(guān)鍵點(diǎn)對(duì)和對(duì)應(yīng)描述子。相較于前兩屆比賽,本屆比賽增加了街景和公園等場景,圖片之間的角度和尺度變換更大,對(duì)算法挑戰(zhàn)非常大,因此我們同時(shí)針對(duì)關(guān)鍵點(diǎn)的提取部分和匹配準(zhǔn)確度部分都做了相應(yīng)的改善,具體思路如下:
我們使用SuperPoint+Autoencoder+SuperGlue作為我們的關(guān)鍵點(diǎn)匹配pipeline。其中SuperPoint用于提取關(guān)鍵點(diǎn)和對(duì)應(yīng)描述子,Autoencoder用于特征壓縮,SuperGlue用于關(guān)鍵點(diǎn)匹配,最后通過DEGENSAC進(jìn)行離群點(diǎn)過濾。同時(shí)我們優(yōu)化了SuperGlue的訓(xùn)練過程和損失函數(shù),提升了模型在比賽數(shù)據(jù)集下的匹配精度。
圖3、SS-Fusing算法流程圖
我們針對(duì)輸入圖片進(jìn)行隨機(jī)變換增加了提取到的關(guān)鍵點(diǎn)對(duì)尺度變換的魯棒性,同時(shí)提出了針對(duì)描述子的特征融合模塊,以提升描述子的表達(dá)能力和尺度魯棒性。同時(shí)我們還對(duì)比了我們的特征融合和平均特征融合的效果,其中橫坐標(biāo)為描述子的cos相似度,縱坐標(biāo)為二者的分布差異,可見我們的方法在高相似度區(qū)域下的占比明顯高于平均特征,而在低相似度區(qū)域下的占比明顯低于平均特征,驗(yàn)證了我們方法的有效性。
圖4、特征融合模塊
圖5、加權(quán)特征和平均特征相似度分布差異圖
我們提出了前背景分割和coarse-to-fine的匹配結(jié)構(gòu),進(jìn)一步提升關(guān)鍵點(diǎn)匹配的有效性。其中前背景分割可以有效過濾掉與匹配無關(guān)的背景部分。Coarse-to-fine的匹配結(jié)構(gòu)可以提升拍攝尺度差異過大導(dǎo)致的匹配率過低的問題。
圖6、前背景分離示意圖
圖7、coarse-to-fine匹配前后示意圖
視覺圖像匹配作為基礎(chǔ)的計(jì)算機(jī)視覺能力,在其基礎(chǔ)上可拓展眾多的下游任務(wù)。如在圖像檢索中,可以通過image matching來檢索到和Database中相似的圖片,如圖8所示。在SFM(Structure from motion)中,可以通過關(guān)鍵點(diǎn)匹配來獲取攝像頭外參并結(jié)合內(nèi)參進(jìn)行深度估計(jì)并重建出拍攝物體(如圖9所示)。在圖像跟蹤與配準(zhǔn)中,通過前后幀的匹配可以捕捉視頻的運(yùn)動(dòng)軌跡,并針對(duì)目標(biāo)物體進(jìn)行視頻跟蹤與圖像配準(zhǔn)。
圖8、圖像檢索
圖9、三維重建
作為騰訊旗下頂尖的人工智能實(shí)驗(yàn)室,優(yōu)圖實(shí)驗(yàn)室聚焦計(jì)算機(jī)視覺,專注人臉識(shí)別、圖像識(shí)別、OCR等領(lǐng)域開展技術(shù)研發(fā)和行業(yè)落地,在推動(dòng)產(chǎn)業(yè)數(shù)字化升級(jí)過程中,始終堅(jiān)持基礎(chǔ)研究、產(chǎn)業(yè)落地兩條腿走路的發(fā)展戰(zhàn)略,與騰訊云與智慧產(chǎn)業(yè)深度融合,挖掘客戶痛點(diǎn),切實(shí)為行業(yè)降本增效。
未來,騰訊優(yōu)圖實(shí)驗(yàn)室也將繼續(xù)深耕CV技術(shù),并將持續(xù)探索更多的應(yīng)用場景和應(yīng)用空間,讓更多的用戶享受到科技帶來的紅利。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )