華人科學家一人斬獲三篇CVPR論文！技術(shù)成果或?qū)a(chǎn)品化

近日美國夏威夷刮起了“阿里旋風”。繼淘寶的“拍立淘”讓外國工程師大呼好用之后，又傳來阿里巴巴人工智能實驗室共有三篇論文入選 CVPR 2017 的好消息。

CVPR被譽為科技界中的“春晚”，是近十年來計算機視覺領(lǐng)域全球最有影響力、內(nèi)容最全面的頂級學術(shù)會議，由全球最大的非營利性專業(yè)技術(shù)學會IEEE（電氣和電子工程師協(xié)會）主辦。2017谷歌學術(shù)指標（Google Scholar）按論文引用率排名， CVPR位列計算機視覺領(lǐng)域榜首。據(jù)CVPR評委會披露，今年CVPR審核了2620篇文章，最終收錄783篇，錄取率為29％。

阿里巴巴人工智能實驗室此次入選的三篇論文均有杰出科學家王剛的深度參與，分別針對深度學習和計算機視覺所涉及的上下文模擬、場景分割、行為理解等問題提出了解決辦法。王剛向記者表示，“這三篇論文都來自于深度學習中的應(yīng)用場景，未來或?qū)⑼ㄟ^人工智能實驗室進行落地，例如運用到家庭安全監(jiān)測場景中”。

王剛于2017年3月加入阿里巴巴人工智能實驗室，擔任杰出科學家，負責機器學習、計算機視覺和自然語言理解的研發(fā)工作。他此前曾是南洋理工大學的終身教授，同時也是人工智能領(lǐng)域最頂尖雜志IEEE Transactions on Pattern Analysis and Machine Intelligence的編委（Associate Editor），曾多次受邀成為人工智能頂級學術(shù)會議如International Conference on Computer Vision的領(lǐng)域主席，在深度學習算法領(lǐng)域具有深厚的研究積累和國際權(quán)威。2016年，他還因在深度神經(jīng)網(wǎng)絡(luò)設(shè)計上的卓越貢獻，成為當年《麻省理工技術(shù)評論雜志》評選出的10名亞洲區(qū)35歲以下青年創(chuàng)新獎得主之一。

以下是對三篇論文的解讀

1.Deep Level Sets for Salient Object Detection

結(jié)合深度網(wǎng)絡(luò)的水平集方法在顯著性目標檢測中的應(yīng)用

簡介：

如圖，a是輸入圖像，b是對應(yīng)saliency區(qū)域的ground truth，c、d對應(yīng)使用BCE loss訓練的深度網(wǎng)絡(luò)和使用水平集方法的效果，e對應(yīng)論文的方法；可以看到e在分割細節(jié)方面和ground truth最為接近，效果更好，在細節(jié)方面提升明顯。

顯著性目標檢測能夠幫助計算機發(fā)現(xiàn)圖片中最吸引人注意的區(qū)域，有效的圖像分割和圖像的語意屬性對顯著性目標檢測非常重要。由南洋理工大學和阿里巴巴人工智能實驗室合作，共同提出了一種結(jié)合深度網(wǎng)絡(luò)的水平集方法，將分割信息和語意信息進行結(jié)合，獲得了很好的效果。水平集方法是處理封閉運動界面隨時間演化過程中幾何拓撲變化的有效的計算工具，后來被用到圖像分割算法當中。深度學習能夠很好的建模顯著性目標的語意屬性，進而進行顯著性目標檢測，但更多的語意屬性信息導致分割邊界的低層信息不準確。論文巧妙的結(jié)合了深度網(wǎng)絡(luò)和水平集方法（Deep Level Sets），同時利用圖片低層的邊界信息以及高層的語意信息，在顯著性目標檢測領(lǐng)域獲得了state－of－art的效果。

2.Global Context－Aware Attention LSTM Networks for 3D Action Recognition

將全局上下文注意力機制引入長短時記憶網(wǎng)絡(luò)的3D動作識別

簡介：

如圖，3D動作識別能夠幫助計算及更好的理解人體動作（最左側(cè)的文字），未來可以作為人機交互的一種補充。

3D動作識別能夠幫助計算機更好的分析人的動作以及為多樣化的人機交互提供更多的選擇。一個好的3D動作識別系統(tǒng)需要很好的處理動作在時間（動作需要一定時延）、空間（結(jié)構(gòu)）上的信息。LSTM（長短時記憶網(wǎng)絡(luò)）能夠很好的建模動態(tài)的、相互依賴的時間序列數(shù)據(jù)（如人的3D動作序列），注意力機制能夠更有效的獲取數(shù)據(jù)中的結(jié)構(gòu)信息，并排除掉噪聲的干擾。由南洋理工大學、北京大學、阿里巴巴人工智能實驗室合作，論文結(jié)合LSTM和上下文注意力機制，提出了一種新的LSTM網(wǎng)絡(luò)：GCA－LSTM（Global Context－Aware Attention LSTM）；用來建模動作序列中有效的全局上下文信息（時間信息＋空間信息），進而進行3D動作識別。同時，論文為GCA－LSTM網(wǎng)絡(luò)提出了一種循環(huán)注意力機制來迭代提升注意力模型的效果。論文方法在3個主流的3D動作識別數(shù)據(jù)集上都達到了state－of－art的效果。

3.Episodic CAMN： Contextual Attention－based Memory Networks With Iterative Feedback For Scene Labeling

引入迭代反饋的上下文注意力機制記憶網(wǎng)絡(luò)在場景分割中的應(yīng)用

簡介：

如圖，這是場景分隔在自動駕駛中的應(yīng)用，通過對路面場景進行分割，可以幫助無人車分析那部分區(qū)域是可行駛區(qū)域（如圖粉紅色部分）。

場景分割有著廣闊的應(yīng)用前景，比如自動駕駛汽車通過場景分割獲取可行駛區(qū)域，比如室內(nèi)機器人通過場景分割獲知室內(nèi)物體的分布。場景分割對待分割區(qū)域周圍的區(qū)域以及全局信息有較強的依賴關(guān)系，但這種依賴關(guān)系是動態(tài)變化的（即使同一區(qū)域在不同的場景中對周圍信息的依賴是不同的），因此動態(tài)的獲知不同區(qū)域的依賴關(guān)系以及圖像全局上下文特征的使用至關(guān)重要。由南洋理工大學，伊利諾伊大學厄巴納－香檳分校，阿里巴巴人工智能實驗室合作，論文通過一個可學習的注意力機制網(wǎng)絡(luò)來刻畫不同區(qū)域之間的依賴關(guān)系，并獲取包含上下文信息的特征。進一步，論文通過引入迭代反饋的方式對注意力機制網(wǎng)絡(luò)的輸出進行調(diào)節(jié)，以獲得更好的包含上下文的特征。上述方法在場景分隔任務(wù)中獲得了和當前state－of－art算法相當?shù)男Ч?/p>

（免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）