近日,國際人工智能頂級會議AAAI 2021公布了論文錄取結(jié)果。AAAI是人工智能領(lǐng)域最悠久、涵蓋內(nèi)容最為廣泛的國際頂級學(xué)術(shù)會議之一。AAAI 2021一共收到9034篇論文提交,其中有效審稿的數(shù)量為7911篇,最終錄取數(shù)量為1692篇,錄取率為21.4%。
AAAI(Association for the Advance of Artificial Intelligence), 即美國人工智能協(xié)會,是人工智能領(lǐng)域的主要學(xué)術(shù)組織之一,其主辦的年會也是人工智能領(lǐng)域的國際頂級會議。在中國計算機(jī)學(xué)會的國際學(xué)術(shù)會議排名以及清華大學(xué)新發(fā)布的計算機(jī)科學(xué)推薦學(xué)術(shù)會議和期刊列表中,AAAI 均被列為人工智能領(lǐng)域的 A 類頂級會議。
本次AAAI 騰訊優(yōu)圖實驗室共入選了11篇論文,涉及動作識別、人群密度估計、人臉安全等領(lǐng)域,展現(xiàn)了騰訊在計算機(jī)視覺領(lǐng)域的技術(shù)實力。
以下為部分騰訊優(yōu)圖入選AAAI 2021的論文:
01
學(xué)習(xí)用于動作識別的全面運動特征表達(dá)
Learning Comprehensive Motion Representation for Action Recognition
運動特征在動作識別中起到非常重要的作用?;?D CNN的方法雖然高效,但是由于對每一幀都采用相同的二維卷積核,會產(chǎn)生大量的冗余和重復(fù)特征。近期有一些工作通過建立幀間的聯(lián)系獲取運動信息,但是依然存在感受野有限的問題。此外,特征的增強(qiáng)依舊只在通道或者空間維度單獨進(jìn)行。為了解決這些問題,騰訊優(yōu)圖首先提出了一個通道特征增強(qiáng)模塊(CME)自適應(yīng)地增強(qiáng)與運動相關(guān)的通道。增強(qiáng)系數(shù)通過分析整段視頻的信息獲得。根據(jù)相鄰特征圖之間的點對點相似性,騰訊優(yōu)圖進(jìn)一步提出了一種空間運動增強(qiáng)(SME)模塊,以指導(dǎo)模型集中于包含運動關(guān)鍵目標(biāo)的區(qū)域,其背后的直覺是背景區(qū)域的變化通常比視頻的運動區(qū)域慢。 通過將CME和SME集成到現(xiàn)成的2D網(wǎng)絡(luò)中,騰訊優(yōu)圖最終獲得了用于動作識別的全面運動特征學(xué)習(xí)方法。 騰訊優(yōu)圖的方法在三個公共數(shù)據(jù)集上取得了有競爭力的表現(xiàn):Something-Something V1&V2和Kinetics-400。 特別是在時序推理數(shù)據(jù)集Something-Something V1和V2上,當(dāng)使用16幀作為輸入時,騰訊優(yōu)圖的方法比之前最好的方法高2.3%和1.9%。
02
選擇還是融合?基于自適應(yīng)尺度選擇的人群密度估計
ToChooseortoFuse?ScaleSelectionforCrowdCounting
本文提出了一種高效地充分利用網(wǎng)絡(luò)內(nèi)部多尺度特征表示的方法,能夠有效解決人群密度估計中的大范圍尺度變化問題。具體地,考慮到每層特征都有各自最擅長預(yù)測的人群尺度范圍,本文提出了一種圖像塊級別的特征層選擇策略來實現(xiàn)盡可能小的計數(shù)誤差。顯然,在沒有人群尺度標(biāo)注信息的情況下,任何人工指定人群尺度與特征層對應(yīng)關(guān)系的方法都是次優(yōu)的并會帶來額外誤差。相反地,本文提出的尺度自適應(yīng)選擇網(wǎng)絡(luò)SASNet可以自動地學(xué)習(xí)這種對應(yīng)關(guān)系,并通過軟選擇的方式來緩解離散的特征層與連續(xù)的人群尺度變化之間的矛盾。由于SASNet為同一圖像塊內(nèi)相似尺度的人群選擇同一特征層,直接使用傳統(tǒng)的像素級損失函數(shù)會忽略圖像塊內(nèi)部不同樣本間各異的學(xué)習(xí)難度。因此,本文還提出了一種金字塔區(qū)域感知損失(PRALoss),從圖像塊級別開始以一種自上而下的方式迭代地選擇最困難的樣本來優(yōu)化。鑒于PRALoss能夠根據(jù)上層父圖像塊是過預(yù)測還是欠預(yù)測來選擇困難樣本,因此還能夠緩解業(yè)界普遍面臨的訓(xùn)練目標(biāo)最小化和計數(shù)誤差最小化之間不一致的問題。騰訊優(yōu)圖的方法在多達(dá)四個公開數(shù)據(jù)集上取得了優(yōu)異的性能。
03
解耦場景和運動的無監(jiān)督視頻表征學(xué)習(xí)
Enhancing Unsupervised Video Representation Learning by Decoupling the Scene and the Motion
相比于圖像表征學(xué)習(xí), 視頻表征學(xué)習(xí)中的一個重要因素是物體運動信息(Object Motion)。然而騰訊優(yōu)圖發(fā)現(xiàn), 在當(dāng)前主流的視頻數(shù)據(jù)集中, 一些動作類別會和發(fā)生的場景強(qiáng)相關(guān), 導(dǎo)致模型往往只關(guān)注了場景信息。比如, 模型可能僅僅因為發(fā)生的場景是足球場, 就將拉拉隊員在足球場上跳舞的視頻判斷成了踢足球。這違背了視頻表征學(xué)習(xí)最初的目的, 即學(xué)習(xí)物體運動信息, 并且不容忽視的是, 不同的數(shù)據(jù)集可能會帶來不同的場景偏見(Scene Bias)。為了解決這個問題, 騰訊優(yōu)圖提出了用兩個簡單的操作來解耦合場景和運動(Decoupling the Scene and the Motion, DSM), 以此來到達(dá)讓模型更加關(guān)注運動信息的目的。具體來說, 騰訊優(yōu)圖為每段視頻都會構(gòu)造一個正樣本和一個負(fù)樣本, 相比于原始視頻, 正樣本的運動信息沒有發(fā)生變化, 但場景被破壞掉了, 而負(fù)樣本的運動信息發(fā)生了改變, 但場景信息基本被保留了下來。構(gòu)造正負(fù)樣本的操作分別叫做Spatial Local Disturbance和Temporal Local Disturbance。騰訊優(yōu)圖的優(yōu)化目標(biāo)是在隱空間在拉近正樣本和原始視頻的同時, 推遠(yuǎn)負(fù)樣本。用這種方式, 場景帶來的負(fù)面影響被削弱掉了, 而模型對時序也變得更加敏感。騰訊優(yōu)圖在兩個任務(wù)上, 用不同的網(wǎng)絡(luò)結(jié)構(gòu)、不同的預(yù)訓(xùn)練數(shù)據(jù)集進(jìn)行了實驗驗證, 發(fā)現(xiàn)騰訊優(yōu)圖方法在動作識別任務(wù)上, 在UCF101以及HMDB51數(shù)據(jù)集上分別超越當(dāng)前學(xué)界領(lǐng)先水平8.1%以及8.8%。
04
面向真實圖像超分辨率的頻率一致性自適應(yīng)方法FrequencyConsistentAdaptationforRealWorldSuperResolution
最近的基于深度學(xué)習(xí)的超分辨率(SR)方法在具有已知降質(zhì)的圖像上取得了卓越的性能。但是,這些方法在現(xiàn)實世界中總是會失敗,因為理想退化(例如,雙三次降采樣)之后的低分辨率(LR)圖像會偏離真實源域。在頻率密度上可以清楚地觀察到LR圖像和真實世界圖像之間的域間隙,這啟發(fā)騰訊優(yōu)圖顯式地縮小由于不正確的降質(zhì)而導(dǎo)致的間隙。從這個角度出發(fā),騰訊優(yōu)圖設(shè)計了一種新穎的頻率一致性自適應(yīng)方法(FCA),能夠確保將現(xiàn)有SR方法應(yīng)用于真實場景時保持頻域一致性。騰訊優(yōu)圖從無監(jiān)督的圖像中估計退化內(nèi)核,并生成相應(yīng)的LR圖像。為了給核估計提供有用的梯度信息,騰訊優(yōu)圖提出了通過區(qū)分不同尺度圖像的頻率密度的頻率密度比較器(FDC)?;谟蛞恢碌腖R-HR對,騰訊優(yōu)圖訓(xùn)練了易于實現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)SR模型。大量實驗表明,所提出的FCA在真實環(huán)境下提高了SR模型的性能,以高保真度和合理的感知度獲得了最先進(jìn)的結(jié)果,從而為實際SR應(yīng)用提供了一種新穎有效的框架。
05
混合域活體檢測中的通用表征學(xué)習(xí)
Generalizable Representation Learning for Mixture Domain Face Anti-Spoofing
基于域泛化的活體檢測技術(shù)對未知場景有更好的泛化性,受到了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。已有的域泛化方法需要域標(biāo)簽的支持,然而在實際場景中,所收集到的往往是域信息不可知的混合數(shù)據(jù)。在這種場景下,大多數(shù)已有的方法是不可用的。而且域劃分的方式可以有多種,因此單一固定的劃分方法可能只是次優(yōu)解。
為解決實際混合數(shù)據(jù)問題,騰訊優(yōu)圖提出了一種基于迭代式無監(jiān)督子域劃分的元學(xué)習(xí)方法。該方法無需域標(biāo)簽,通過高鑒別性的域特征實現(xiàn)子域劃分,并通過元學(xué)習(xí)的方式進(jìn)行模型的優(yōu)化。具體來說,騰訊優(yōu)圖基于實例正則化定義了域信息表示,并設(shè)計了域表示學(xué)習(xí)模塊(DRLM)來提取高鑒別性的域特征用以精準(zhǔn)的域聚類。
此外,為了緩解離群點對聚類的阻礙,騰訊優(yōu)圖采用最大均值差異(MMD)來校正樣本特征分布與先驗分布的差異,以增強(qiáng)聚類的可靠性。實驗結(jié)果表明騰訊優(yōu)圖的方法(D2AM)優(yōu)于傳統(tǒng)的域泛化方法,包括使用域標(biāo)簽的方法,為實際場景下活體技術(shù)的應(yīng)用提供了有效框架。
06
基于局部關(guān)聯(lián)學(xué)習(xí)的人臉偽造檢測
Local Relation Learning for Face Forgery Detection
隨著人臉編輯技術(shù)的快速發(fā)展,人臉內(nèi)容取證引起了廣泛的關(guān)注。大多數(shù)現(xiàn)有方法往往利用二值類別標(biāo)簽或偽造區(qū)域等監(jiān)督信息來解決人臉偽造檢測任務(wù)。然而,由于沒有考慮到局部區(qū)域間的關(guān)聯(lián),這些全局監(jiān)督信息不足以學(xué)習(xí)到泛化性強(qiáng)的特征,往往容易過擬合。
為了解決這個問題,騰訊優(yōu)圖提出了一種通過局部關(guān)聯(lián)學(xué)習(xí)來進(jìn)行人臉偽造檢測的新方法。具體而言,騰訊優(yōu)圖提出了一個多尺度局部相似性模塊(MPSM),該模塊通過衡量局部區(qū)域特征間的相似性來構(gòu)造一種泛化性強(qiáng)、魯棒性高的相似模式。
此外,騰訊優(yōu)圖還提出了一個RGB-頻域注意力模塊(RFAM)來融合RGB圖像和頻域信息,從而得到更全面的局部特征表示,進(jìn)一步提高了相似模式的可靠性。大量的實驗表明騰訊優(yōu)圖所提出的方法在多個數(shù)據(jù)集上優(yōu)于現(xiàn)有的方法,同時詳細(xì)的可視化也充分證明了騰訊優(yōu)圖方法的魯棒性和可解釋性。
07
基于可泛化樣本選擇的行人重識別方法
OneforMore:SelectingGeneralizableSamplesforGeneralizableReIDModel
現(xiàn)有行人重新識別(ReID)模型的訓(xùn)練目標(biāo)是在當(dāng)前批次樣本上模型的損失減少,而與其他批次樣本的性能無關(guān)。它將不可避免地導(dǎo)致模型過擬合到某些樣本(例如,不平衡類中的頭部數(shù)據(jù),簡單樣本或噪聲樣本)。目前有基于采樣的方法通過設(shè)計特定準(zhǔn)則來選擇特定樣本來解決該問題,這些方法對某些類型的數(shù)據(jù)(例如難樣本,尾部數(shù)據(jù))施加了更多的關(guān)注,這不適用于真實的ReID數(shù)據(jù)分布。因此,本文將所選樣本的泛化能力作為損失函數(shù),并學(xué)習(xí)一個采樣器來自動選擇可泛化樣本,而不是簡單地推測哪些樣本更有意義。更重要的是,騰訊優(yōu)圖提出的基于可泛化能力的采樣器可以無縫集成到ReID訓(xùn)練框架中,該框架能夠以端到端的方式同時訓(xùn)練ReID模型和采樣器。實驗結(jié)果表明,該方法可以有效地改善ReID模型的訓(xùn)練,提高ReID模型的性能。
08
Learning a Few-shot Embedding Model by Contrastive Learning
基于對比學(xué)習(xí)的小樣本植入模型
小樣本學(xué)習(xí)是根據(jù)少量的先驗信息去對于目標(biāo)目標(biāo)類別進(jìn)行分類。這些信息一般沉淀在一個深度模型中,用來對支持集和問詢集進(jìn)行匹配。本文的目標(biāo)是利用對比學(xué)習(xí)的方法學(xué)習(xí)一個小樣本植入模型,具體貢獻(xiàn)如下:
(1)騰訊優(yōu)圖深入研究噪聲對比估計方法,并利用它來訓(xùn)練小樣本植入模型。
(2)騰訊優(yōu)圖提出一個名為infoPatch的植入模型方法,智能挖掘局部的聯(lián)系,保證穩(wěn)步提升小樣本分類的能力。
(3)騰訊優(yōu)圖在文章中展示了infoPatch的有效性。
(4)騰訊優(yōu)圖的模型的指標(biāo)在三個常用數(shù)據(jù)集miniImageNet,tieredImageNet和ewshot-CIFAR100上都達(dá)到了頂尖水準(zhǔn)。
09
基于Transformer結(jié)構(gòu)層內(nèi)-層間聯(lián)合全局表示的圖像描述
Improving Image Captioning by Leveraging Intra- and Inter-layer Global Representation in Transformer Network
本論文由騰訊優(yōu)圖實驗室與廈門大學(xué)合作完成。
基于Transformer的結(jié)構(gòu)近來在圖像描述任務(wù)中取得了巨大的成功, 這些模型的范式都是將目標(biāo)regions編碼成隱含特征實現(xiàn)描述的解碼。 然而,騰訊優(yōu)圖發(fā)現(xiàn)這些隱含特征僅僅涵蓋了region級別的局部特征,忽略了考慮整張圖片的全局特征的建模,使得模型難以進(jìn)一步拓展在圖像描述中的復(fù)雜多模態(tài)推理能力。 因此,這篇文章騰訊優(yōu)圖提出了一個新的模型GET,同時提取更為綜合的全局信息并將全局信息作為自適應(yīng)引導(dǎo)信號生成更為高質(zhì)量的圖像描述。具體而言,在該模型中,騰訊優(yōu)圖首先設(shè)計了一個全局加強(qiáng)的編碼器和全局自適應(yīng)的解碼器,其中前者利用Transformer層級結(jié)構(gòu)特點,提取層內(nèi)-層間聯(lián)合全局特征,后者則利用全局自適應(yīng)控制器,控制全局特征融入解碼器來指導(dǎo)圖像描述的生成。本文在MS COCO數(shù)據(jù)集上的實驗證明了騰訊優(yōu)圖相對于當(dāng)前最先進(jìn)模型的優(yōu)勢。
10
基于雙層級特征協(xié)同Transformer的圖像描述生成
Dual-level Collaborative Transformer for Image Captioning
本論文由騰訊優(yōu)圖實驗室與廈門大學(xué)合作完成。
由目標(biāo)檢測網(wǎng)絡(luò)提取的區(qū)域特征在圖像描述生成的發(fā)展中起著重要的作用。然而,這種特征中缺乏上下文信息和細(xì)粒度細(xì)節(jié),而這正是網(wǎng)格特征的優(yōu)點。本文提出了一種新的雙層級特征協(xié)同Transformer,以實現(xiàn)兩者的優(yōu)勢互補(bǔ)。具體地說,在DLCT中,騰訊優(yōu)圖首先使用DWSA來挖掘它們的內(nèi)在特性,并在其中引入綜合關(guān)系注意力機(jī)制來嵌入幾何信息。此外,騰訊優(yōu)圖還提出了LCCA模塊,目的是解決這兩個特征直接融合所產(chǎn)生的語義噪聲問題,通過構(gòu)造幾何對齊圖來精確對齊和增強(qiáng)區(qū)域和網(wǎng)格特征。為了驗證騰訊優(yōu)圖的模型,騰訊優(yōu)圖在基準(zhǔn)數(shù)據(jù)集MS-COCO上進(jìn)行了大量的實驗,并在本地和在線測試集上實現(xiàn)了SOTA性能,
在Karpathy 測試集上達(dá)到133.8%的CIDEr得分,在官方測試集上達(dá)到135.4%的CIDEr得分。
11
圖博弈嵌入
GraphGameEmbedding
本論文由騰訊優(yōu)圖實驗室與南京理工大學(xué)合作完成。
圖嵌入旨在將節(jié)點/邊編碼為低維連續(xù)特征,已成為圖分析的重要工具并被應(yīng)用于圖/節(jié)點分類,鏈接預(yù)測等任務(wù)。在本文中,騰訊優(yōu)圖提出了一種新穎的名為圖博弈嵌入的圖學(xué)習(xí)框架,以學(xué)習(xí)具有判別性的節(jié)點表示并對圖結(jié)構(gòu)進(jìn)行編碼。受博弈學(xué)習(xí)理論的啟發(fā),節(jié)點嵌入被轉(zhuǎn)換為博弈過程中玩家策略的選擇/搜索過程,其中每個節(jié)點對應(yīng)一個玩家,而每條邊對應(yīng)于兩個玩家之間的交互。然后,定義了一個在理論上滿足納什均衡的收益函數(shù)以衡量圖演化過程中參與玩家(節(jié)點)的收益/損失。更進(jìn)一步地,引入了一種合作與競爭機(jī)制以提高該框架的判別學(xué)習(xí)能力。在上述圖博弈嵌入框架下,考慮節(jié)點的不同交互方式,騰訊優(yōu)圖提出了兩種具體模型,即對交互圖博弈嵌入模型和群組圖博弈嵌入模型。與現(xiàn)有的圖嵌入方法相比,本文所提出的框架具有兩個優(yōu)點:(1)所設(shè)計的收益函數(shù)保證了圖網(wǎng)絡(luò)的穩(wěn)定演化,滿足納什均衡且具有收斂性的理論保證;(2)所引入的協(xié)作和競爭機(jī)制可指導(dǎo)每個節(jié)點學(xué)習(xí)到區(qū)別于其他節(jié)點的優(yōu)化策略,從而賦予圖博弈嵌入框架以學(xué)習(xí)具有判別性特征的能力。騰訊優(yōu)圖在三個關(guān)于引文網(wǎng)絡(luò)的公共數(shù)據(jù)集上對所提出的方法進(jìn)行了評測,實驗結(jié)果驗證了其有效性。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )