10月20日,第29屆ACM國際多媒體會議(簡稱ACM MM)在成都正式舉行。本次會議將針對單個媒體和跨界整合多媒體元素的最具創(chuàng)新性和影響力的頂級熱點研究成果進行分享交流。此外,在視頻編碼、視覺識別、大規(guī)模圖像視頻分析、社會媒體研究、多模態(tài)人機交互、計算視覺、計算圖像等研究方向有多場精彩的學術分享報告,將充分展示全球高校、研究機構及高新企業(yè)在多媒體研究方面的最新進展。
作為世界多媒體領域最重要的頂級會議和中國計算機學會推薦的該領域唯一的A類國際學術會議。本屆ACM MM吸引了國內外多媒體領域中的知名廠商和學者廣泛參與,將有70場精彩報告,其中囊括了6場國內外頂尖學者的主旨報告、13場重磅專題研討、51場國內外知名學者及學術新星的學術報告。
其中,騰訊優(yōu)圖實驗室9篇計算機視覺相關的優(yōu)質論文成功入選,涵蓋弱監(jiān)督圖像描述及定位、表格結構識別、人臉安全等多個研究方向,這些技術創(chuàng)新面向智慧城市、智慧文娛、智慧制造等場景的落地應用,助力進一步提升AI技術能力,推進全球人工智能的發(fā)展。
深耕計算機視覺領域成效顯著9篇論文入選彰顯強大實力
Distributed Attention for Grounded Image Captioning
弱監(jiān)督圖像描述及定位近年來逐漸受到國內外研究機構以及工業(yè)界關注。該任務是指對給定的圖像自動生成一句話描述圖像的內容,同時預測出描述中名詞對應的目標位置。已有的工作主要通過正則化技術依靠注意力機制在生成圖像描述的同時預測名詞對應的目標的位置。這些方法的性能距離全監(jiān)督的圖像描述及定位有很大的差距。其中最主要的問題在于,依靠注意力機制的大部分方法預測結果往往集中于目標的最具判別性的局部位置,無法完整的預測目標的整體內容?;诖耍覀兲岢鲆环N十分簡單且有效的分布注意力機制,挑選多個語義相同但位置不完全重合的目標之后進行聚合,從而得到更加完整的目標位置。在公開的Flickr30K Entities數(shù)據(jù)集上,保持圖像描述性能不降的情況下大幅刷新目標定位性能SOTA,與全監(jiān)督的方法性能持平。
Discriminator-free Generative Adversarial Attack
深度學習網絡容易受到對抗樣本的影響,在圖像上加入一些不顯眼的擾動后基于DNN的識別任務可能失效。目前大多數(shù)對抗攻擊方法基于梯度搜索,這類方法生成對抗樣本的耗時長,也會受到顯存資源不足的影響。基于生成的方法(GAN)可緩解這些問題,但這類方法一方面訓練比較難收斂,另外生成的攻擊樣本效果和視覺質量不穩(wěn)定。我們發(fā)現(xiàn)判別器在對抗生成網絡中并非必不可少,提出基于顯著性區(qū)域的對稱自動編碼器方法(SSAE),該方法由顯著性響應模塊 (the saliency map)和特征角度正則解耦模塊 (the angle-norm disentanglement)組成,用生成的顯著性響應圖去關注標簽相關的區(qū)域,不再依賴判別器。在圖像識別和圖像檢索任務上的大量實驗證明SSAE方法生成的攻擊樣本不僅可以在主流網絡模型上攻擊效果好,同時也具有很好的視覺質量。
Show, Read and Reason: Table Structure Recognition with Flexible Context Aggregator
本文主要針對表格結構識別這一具有挑戰(zhàn)性的問題進行研究。目前,業(yè)內方法往往采用基于圖的上下文累積器,來稀疏地建模表格元素的上下文關系。然而,基于圖的約束可能會引入過強的歸納偏置,無法充分地表示復雜的表格關系。為了讓模型從數(shù)據(jù)中學習更合適的歸納偏置,本文引入Transformer作為上下文累積器。Transformer以密集上下文作為輸入,同時由于的歸納偏置的弱化,Transformer對數(shù)據(jù)的規(guī)模要求更高,并且訓練過程可能會不穩(wěn)定。為了解決上述問題,本文設計了FLAG (FLexible context AGgregator) 模塊,它將Transformer與基于圖的上下文累積器以一種自適應的方式結合在一起。基于FLAG,本文設計了一個端到端的網絡,稱為FLAG-Net ,該網絡不需要額外的OCR信息,并且可以靈活地調整密集上下文(dense context)和稀疏上下文(sparse context)的累積,進行表格元素的關系推理。本文還進一步探索了FLAG中的上下文選擇模式,這對于識別表格結構是至關重要的。在標準測試集上的實驗結果表明,本文提出的FLAG-Net的性能大大超過業(yè)內其他方法。
LSTC: Boosting Atomic Action Detection with Long-Short-Term-Context
相對于視頻序列中的一般性運動檢測,原子級的目標行為(如交談,拾取,瞭望)的判斷更加依賴于視頻中上下文依賴關系的挖掘,同時這種依賴關系在不同的時間尺度上呈現(xiàn)若相關特性。本文將視頻目標的行為與其以來關系解耦為稠密的短時上下文依賴(Dense Short-term Context)和稀疏的長時上下文依賴 (Sparse Long-term Context),并通過概率圖模型將兩者解耦為條件獨立的交互關系分別輔助目標原子行為的判別,同時引入了一種近似高階的注意力機制(High-Order Attention Mechanism),在計算復雜度不提升的條件下,將傳統(tǒng)的注意力模型從一對一推廣到一對多的交互關系。在AVA以及Hieve等基準測試集上表明,這種長短時依賴獨立推斷的機制能夠有效幫助行為檢測器正確推斷目標行為。
ASFD: Automatic and Scalable Face Detector
在目前主流的目標檢測器的設計范式中,特征增強以及特征融合模塊已經成為了增強特征判別能力,提升檢測效果的必備組件,但是由于數(shù)據(jù)分布上的差異,一般性目標檢測網絡中的特征增強模塊并不能在人臉檢測場景中帶來穩(wěn)定的提升。為此,本文系統(tǒng)性地分析了數(shù)據(jù)分布差異對于特征增強和融合模塊效果的影響,并據(jù)此針對人臉檢測場景,提出了一個可微分的自動化特征增強模塊搜索流程AutoFAE, 同時,本文基于改搜索流程建立了用于網絡搜索的超集,以滿足不同推理速度約束下搜索到最優(yōu)性能的模型結構。在主流的人臉檢測數(shù)據(jù)集Wider-Face, FDDB上,本文搜索的人臉檢測架構能夠在相同的推理速度下達到更好的檢測效果。
Adaptive Normalized Representation Learning for Generalizable Face Anti-Spoofing
隨著多樣化人臉攻擊形式的出現(xiàn),活體檢測的泛化性受到越來越多關注?,F(xiàn)有方法往往直接對網絡學習的特征進行約束,然而忽略了模型特征提取的過程,尤其是標準化的影響。 針對該問題,本文提出了一種自適應標準化表征學習的活體檢測新方法。具體而言,本文設計了一個自適應特征標準化模塊(AFNM),該模塊根據(jù)樣本特征自適應地結合BN和IN標準化方式。并在在訓練過程中結合元學習框架,在meta-test階段重點學習AFNM模塊,從而提升泛化性。此外,為進一步學習域無關的活體表征,本文設計了雙重校準約束(DCC),包括域間兼容損失(IDC)和類間分隔損失(ICS)。多個學術數(shù)據(jù)集上實驗結果表明我們方法優(yōu)于現(xiàn)有方法,為實際場景下活體技術的應用提供了有效框架。
RecycleNet: An Overlapped Text Instance Recovery Approach
文本圖像識別是理解多媒體媒介的關鍵技術手段。主流的設計范式關注獨立文本行的精準識別,但這些方法在復雜真實場景如財務票據(jù)和學生作業(yè)簿上受到了嚴峻的挑戰(zhàn)。簡單通過優(yōu)化識別方法本身或數(shù)據(jù)增強難以處理手寫/印刷文本或印刷/印刷文本的套打(overlapping)?;谶@個觀察,本文介紹了RecycleNet,一個自動分離套打文本實例的策略。RecycleNet的關鍵設計在于定位并重用(recycle)了文本實例間套打的像素區(qū)域,將這些區(qū)域歸還到其歸屬的全部實例,保障了分離后實例的完整性。RecycleNet平行于現(xiàn)有的文本識別解決方案,可作為可插拔模塊,用很小的開銷提升現(xiàn)有識別基線的精度。
Spatiotemporal Inconsistency Learning forDeepFakeVideo Detection
隨著人臉生成技術的快速發(fā)展,人臉偽造檢測也受到越來越多的關注?,F(xiàn)有的方法往往將人臉偽造檢測問題建模為二分類問題并提出了基于圖像和視頻的檢測方法。 本文從一個新的角度出發(fā),將該任務建模為時空不一致性學習過程,通過抓取偽造視頻在空間和時序運動中的偽造痕跡來進行真假鑒別。具體地,本文設計了一個新的STIL單元,主要包括空間不一致性模塊(SIM),時間不一致性模塊(TIM)以及信息互補模塊(ISM)。其中SIM采用具有殘差結構的注意力機制重點捕捉空間不一致,TIM分別從水平和豎直兩個方向捕捉時序運動中的不一致,ISM則進一步促進空間不一致和時序不一致間的信息交互。STIL單元非常靈活,可以插到大多數(shù)已有的2D網絡中。大量的實驗表明我們提出的方法在多個數(shù)據(jù)集上優(yōu)于現(xiàn)有的方法,同時詳細的可視化也充分證明了我們方法的可解釋性。
以研促產騰訊優(yōu)圖實驗室通過AI助力數(shù)字經濟發(fā)展
作為騰訊旗下頂級的人工智能實驗室,騰訊優(yōu)圖實驗室始終聚焦計算機視覺技術,專注人臉識別、圖像識別、OCR等領域,致力于在工業(yè)制造、醫(yī)療應用、金融保險、娛樂社交等多行業(yè)場景的研究與落地。
憑借在視覺AI技術上的研究成果,騰訊優(yōu)圖目前已擁有超過1000件全球AI專利,更有300余篇論文被AAAI、ICCV等國際頂級AI會議收錄。同時,騰訊優(yōu)圖還通過騰訊云共輸出超過20項AI解決方案,100+AI原子能力,助力各行各業(yè)實現(xiàn)數(shù)字化轉型。
此外,騰訊優(yōu)圖還打造了如跨年齡AI尋人、青少年內容審核、AI探星等技術能力,踐行騰訊“科技向善”的使命和愿景。未來,優(yōu)圖實驗室將繼續(xù)專注人工智能技術發(fā)展,通過推進AI基礎設施研發(fā)的形式為產業(yè)數(shù)字化轉型提供助力,促進數(shù)字經濟加速發(fā)展。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )