精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

直播
榜單
7x24h快訊

極客網(wǎng) > 人工智能 >

CVPR 2020 最佳論文提名 | 神經(jīng)網(wǎng)絡能否識別鏡像翻轉(zhuǎn)

人閱讀
2020-07-22 09:44:00
相關關鍵詞
- 人工智能
- AI

作者：美國康奈爾大學四年級本科生林之秋將門好聲音第·55·期CVPR 2020系列分享第·14·期2020年讓我們不斷見識到“后浪”的超強力量，也讓世界看到了矚目的華人新星。在今年6月舉辦的CVPR中，年齡最小的一位一作獲獎者甚至還在本科階段。他就是來自康奈爾大學的四年級學生、98年出生的AI科學新秀——林之秋。

林之秋以一作身份提交CVPR 2020的論文「視覺手性」（Visual Chirality）獲得了最佳論文提名獎。在本文中，林之秋等人首次挑戰(zhàn)了常規(guī)神經(jīng)網(wǎng)絡訓練中圖片”翻轉(zhuǎn)不變性“（flip－invariant）的這一假設，在多種領域上利用卷積神經(jīng)網(wǎng)絡發(fā)現(xiàn)了許多常人難以捕捉的”視覺手性“線索，并通過自監(jiān)督訓練在多項數(shù)據(jù)集上達到了60％甚至到90％的精度。

本文作者

林之秋，就讀于美國常春藤高校康奈爾大學。他同時選修了計算機和數(shù)學兩個專業(yè)，僅用兩年時間就全部修完本科課程。大二開始選修博士課程，同時跟隨計算機系的教授從事科研工作。由于成績極為優(yōu)異，自大二起林之秋就接受計算機系里邀請，以助教身份給高年級同學講課，為康奈爾科技學院的同學編寫碩士生的預修課程，甚至在高階機器學習課上給博士生的卷子打分。

剛剛21歲、本科畢業(yè)的林之秋，在學院數(shù)千名學生中名列前三，被授予學院最高榮譽，并受院長邀請代表學院在畢業(yè)典禮上舉旗。之后，他即將前往專業(yè)排名世界第一的卡內(nèi)基梅隆的機器人學院攻讀博士學位。

導讀：

鏡子的歷史與人類文明幾乎一樣長，而古今中外文學史上有關鏡子的描寫更是數(shù)不勝數(shù)。從愛麗絲鏡中奇遇記，到西游記里托塔天王的照妖鏡，再到J·K·羅琳筆下哈利波特世界里的厄里斯魔鏡，這些有關鏡子的故事都可謂是家喻戶曉。在近年來的計算機視覺領域，鏡像翻轉(zhuǎn)更是一種最為常用的數(shù)據(jù)增強方法。

然而，在本屆CVPR 2020中獲得Best Paper Nomination的「視覺手性」（Visual Chirality）一文中，來自康奈爾大學的研究員林之秋等人首次挑戰(zhàn)了常規(guī)神經(jīng)網(wǎng)絡訓練中圖片”翻轉(zhuǎn)不變性“ （flip－invariant）的這一假設。這篇文章在多種領域（人臉，互聯(lián)網(wǎng)圖片，數(shù)字處理圖像）上利用卷積神經(jīng)網(wǎng)絡發(fā)現(xiàn)了許多常人難以捕捉的”視覺手性“線索，并通過自監(jiān)督訓練在多項數(shù)據(jù)集上達到了60％甚至到90％的精度。

一、簡介

神經(jīng)網(wǎng)絡訓練需要大量標注數(shù)據(jù)，但數(shù)據(jù)又永遠是有限的。為了用有限的標注數(shù)據(jù)來擬合函數(shù)，人們使用數(shù)據(jù)增強（data augmentation）的方法來低成本得獲得更多的標記數(shù)據(jù)。

而鏡像翻轉(zhuǎn)則是最常用的圖像數(shù)據(jù)增強方法之一。只需要將所有圖片都進行一次鏡像翻轉(zhuǎn)，我們就相當于免費得到了雙倍的數(shù)據(jù)。

但事情真的這么簡單么？當我們翻轉(zhuǎn)了數(shù)據(jù)集里所有的圖片時，神經(jīng)網(wǎng)絡所擬合的函數(shù)還能代表原先的圖像分布么？來自康奈爾大學研究員的「視覺手性（Visual Chirality）」這篇論文首次討論了這一話題。

為了理解這一鏡像翻轉(zhuǎn)話題，我們先從一個小測試開始：

你能判斷以下三張圖片哪張被鏡像翻轉(zhuǎn)（水平翻轉(zhuǎn)）了嗎？

圖一：鏡像翻轉(zhuǎn)（線索：文字）。我們可以很容易看出來文字被翻轉(zhuǎn)過了。

圖二：沒有翻轉(zhuǎn)（線索：紐扣）。男士襯衫的紐扣一般位于身體右側(cè)。

圖三：鏡像翻轉(zhuǎn)（線索：吉他）。吉他手的主手應當在吉他右側(cè)。

對于大部分的互聯(lián)網(wǎng)圖片來說（例如圖二圖三），鏡像翻轉(zhuǎn)對于人類而言并沒有多少區(qū)別，因而難以判斷。然而，神經(jīng)網(wǎng)絡卻可以通過自監(jiān)督訓練的方法在這個任務上達到非常高的精度，并能指出圖片中哪些區(qū)域可以被用于識別鏡像翻轉(zhuǎn)（以上三張圖片利用了類激活映射（CAM）方法進行了高亮）。

康奈爾的研究人員將這一視覺現(xiàn)象定義為“視覺手性”（Visual Chirality）。

在化學等學科上，手性（Chirality）的定義為“一個物體無法與其鏡像相重合”。這種不對稱性在自然界大量存在，并在不同領域有著廣泛的應用。

手具有手性（Chiral），因為鏡像翻轉(zhuǎn)后無法與原圖重合。而杯子是軸心對稱，所以不具備手性。

手性（Chirality）代表著單個圖片的翻轉(zhuǎn)不對稱性，而視覺手性（Visual Chirality）則是針對圖像分布（Image Distribution）所定義的翻轉(zhuǎn)不對稱性。

假設一個圖像分布中包含了右手和左手的照片（左右手的圖片出現(xiàn)概率一致），那么此時，盡管每張圖片都具有手性，這個圖像分布卻不具備視覺手性。這是由于左手鏡像翻轉(zhuǎn)后就和右手長的一樣了。反之，假設一個圖像分布中只存在右手不存在左手，那么這個分布就具備視覺手性（或稱翻轉(zhuǎn)不對稱性），因為我們知道一張左手的照片必然為鏡像翻轉(zhuǎn)。用統(tǒng)計學的術語來定義的話，假設有圖像分布D，而其中一個圖像是x，那么其在分布中出現(xiàn)概率是D（x）。我們將鏡像翻轉(zhuǎn)的操作稱為T，而翻轉(zhuǎn)圖片x我們可以得到T（x）。

那么圖像分布D具備視覺手性意味著：D中存在圖片x，滿足D（x）≠D（T（x））的條件。

如下圖所示，假設我們有一個一維的分布（橫軸上每個點都為一個元素），那么藍色實線所代表的分布則具備視覺手性，因為x1和x2分別與T（x1）和T（x2）的出現(xiàn)概率不一致：

當一個圖像分布具備視覺手性時，使用鏡像翻轉(zhuǎn)作為數(shù)據(jù)增強方法將不可避免的改變一個數(shù)據(jù)集所代表的分布。換句話說，只有當一個圖像分布不具備視覺手性的時候，我們才能在不改變原先圖像分布的前提下，使用鏡像翻轉(zhuǎn)來增強數(shù)據(jù)集。

然而，視覺手性是大部分視覺領域都擁有的屬性。正如此篇文章作者，谷歌AI科學家Noah Snavely教授所說：

“在計算機視覺的研究中，我們常把這個世界視為”翻轉(zhuǎn)不變“的，鏡像翻轉(zhuǎn)因而是一個常規(guī)的數(shù)據(jù)增強方法。然而，當你翻轉(zhuǎn)圖片后，文字將被顛倒，左手變?yōu)橛沂?，而螺旋意大利面也將朝相反方向旋轉(zhuǎn)?！?/p>

為了挑戰(zhàn)了人們先前在計算機視覺中對于“翻轉(zhuǎn)不變性”的假設，「視覺手性」這篇文章通過自監(jiān)督訓練在幾個不同視覺領域驗證了“視覺手性”的存在。

二、訓練方法

「視覺手性」這篇文章利用了自監(jiān)督學習（self－supervised learning）方法來訓練卷積神經(jīng)網(wǎng)絡。對于任何一個數(shù)據(jù)集，只需要將其原有的圖片標記為“無翻轉(zhuǎn)”，并將鏡像翻轉(zhuǎn)過的圖片標記為“有翻轉(zhuǎn)”，即可訓練神經(jīng)網(wǎng)絡識別鏡像翻轉(zhuǎn)這一二分類任務（binary classification）。同時我們可以根據(jù)神經(jīng)網(wǎng)絡在驗證集（validation set）的表現(xiàn)上來評估這一圖像分布是否具備視覺手性：如果驗證集上的精度要顯著大于50％，我們便有充足的證據(jù)來證明視覺手性的存在。

作者在這篇文章中利用了ResNet－50作為基本的網(wǎng)絡結(jié)構，并使用SGD方法來訓練網(wǎng)絡?；谙惹白员O(jiān)督學習方法的啟發(fā)，作者將同一張圖片的原圖和翻轉(zhuǎn)圖放到了SGD的同一batch里（shared－batch training），加速了網(wǎng)絡的訓練。

為了了解神經(jīng)網(wǎng)絡學到了哪些視覺手性線索，作者利用了類激活映射（CAM：Class Activation Map）方法，在原有圖片上對于視覺手性敏感的區(qū)域進行了高亮。同時因為能造成視覺手性的現(xiàn)象有很多，作者推出了一個簡單的基于類激活映射的聚類方法：手性特征聚類（Chiral Feature Clustering）。

三、手性特征聚類方法

類激活映射方法本質(zhì)上是對于神經(jīng)網(wǎng)絡最后一層卷積層輸出的特征圖（feature map）的加權線性和（linear weighted sum）。當我們假設神經(jīng)網(wǎng)絡是利用區(qū)域特征（local feature）來判斷圖像是否為鏡像翻轉(zhuǎn)時，我們可以將類激活映射（CAM）最強的區(qū)域視為神經(jīng)網(wǎng)絡最為關注的區(qū)域特征。只需要取最后一層卷積層輸出的特征圖上這一區(qū)域的特征，便可以利用傳統(tǒng)的聚類方法例如K－means clustering進行自動分類。

ResNet－50最后一層卷積輸出的特征圖為一個（16x16x2048）的三維矢量f，而類激活映射所得到的熱圖（heatmap）為（16x16）的二維矢量A。假設熱圖上數(shù)值最大的點為（x＊，y＊），那么我們用來聚類的區(qū)域特征即為f（x＊，y＊）。

作者在多個不同圖像分布上利用手性特征聚類方法對視覺手性現(xiàn)象進行了歸因和討論。

四、互聯(lián)網(wǎng)圖片集

在互聯(lián)網(wǎng)圖片集上（Imagenet，Instagram，F(xiàn)lickr－F100M），神經(jīng)網(wǎng)絡在鏡像翻轉(zhuǎn)識別上取得了高達60％－80％的精度。

作者著重分析了Instagram圖片上的視覺手性現(xiàn)象。在不用隨機剪裁（random cropping）時，神經(jīng)網(wǎng)絡在測試集上取得了高達92％的精度。然而因為有JPEG壓縮失真的可能性存在（JPEG edge artifact一般出現(xiàn)于圖片的邊緣），作者同樣使用隨機剪裁進行了訓練，并仍舊取得了高達80％的精度。考慮到大量Instagram圖片有配文字，而文字是最明顯的視覺手性現(xiàn)象，作者用文字識別器濾除了Instagram中含有文字的圖片重新進行了訓練，但仍舊在測試集上取得了74％的高精度。值得一提的是這些訓練出來的模型具有一定程度的泛化能力，可以不經(jīng)訓練，在其他的互聯(lián)網(wǎng)圖片集（Flickr F100M）上取得高于50％的精度。

作者在Instagram圖片集上進行了手性特征聚類，并挑選了一系列與我們生活相關的典型視覺手性現(xiàn)象進行討論。

1、手機

對著鏡子自拍是人們最愛做的事。此類照片具有視覺手性，因為手機的攝像頭一般固定在手機背面的一側(cè)（因品牌而異），同時由于多數(shù)人是右撇子，一般都以右手持手機進行自拍。

2、吉他

幾乎大多數(shù)的吉他手都以右手撥弦，左手持把。

3、手表

手表一般都被帶在人們的右手側(cè)。

4、男士襯衫領子

男士襯衫的扣子一般處于右側(cè)。

5、上衣口袋

正裝上衣的口袋幾乎無一例外處于身體左側(cè)，為了更好地服務于占大多數(shù)的右撇子。

6、人臉

更令人吃驚的是，類激活映射方法在大量的人臉上出現(xiàn)了較強的反應，說明人臉中視覺手性的存在。多數(shù)情況下人臉通常被認為是對稱的：此屆CVPR 2020另一篇Best Student Paper （Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild）更是將人臉視為了軸心對稱的物體，并以此為線索來進行3D重建。

需要強調(diào)的一點是，這些視覺手性現(xiàn)象在每張圖片中看似孤立，但神經(jīng)網(wǎng)絡仍有可能會利用多種不同的線索來對圖片是否翻轉(zhuǎn)進行判斷。

1234下一頁>

（免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內(nèi)容或斷開相關鏈接。）

為您推薦

極客觀察

欄目相關

贊助商

極客網(wǎng)熱搜關鍵詞

人工智能 AI OpenAI ChatGPT 機器學習生成式AI AI芯片 AIGC U-Mail AI大模型世界人工智能大會 AIoT AirPods Airbnb Rushmail 人工智能AI AI人工智能 Akamai 昇騰AI 生成式人工智能 AIPC Air AI技術谷歌AI 蘋果AI GenAI 科大訊飛AI學習機百度AI CAICT AI手機阿爾法蛋AI詞典筆T10 華為AI 松鼠AI AI+ 昇騰AI創(chuàng)新大賽微軟AI AIS Airdoc WAIC AITO 阿爾法蛋AI詞典筆京東AI 智譜AI AI模型 xAI SoleusAir aigo SoleusAir舒樂氏 LIFAair 2019世界人工智能大會 AI機器人人工智能大會 AI創(chuàng)企移動AI時代浙大AIF 人工智能技術 AI應用 Zain AI醫(yī)療 AI算力 AI人才人工智能芯片 Airtag AI時代騰訊AI AI服務器 AI算法 AI投資 BrainCo AI框架 Gmail 聯(lián)想AI VAIO 人工智能計算中心 Airwallex空中云匯 AI眼鏡人工智能大賽 Chain AI教育 Coremail AI搜索 OPENAIGC開發(fā)者大賽 AI賦能谷歌人工智能人工智能名片 Airwheel Mirai 昇騰AI開發(fā)者創(chuàng)享日人工智能機器人 AI聊天機器人阿里AI AI音樂 BrainCo強腦科技 AI計算人工智能+ 浪潮KaiwuDB 阿爾法蛋AI詞典筆T20 英偉達AI芯片 AI助手 AIOps

上一篇

鐘南山團隊攜手騰訊研發(fā)新冠重癥AI預測成果登上Nature子刊

下一篇

『免費開源』基于STM32的<智能垃圾桶>之語音識別

簡版
原版
投稿
回頂部

2020-07-22

CVPR 2020 最佳論文提名 | 神經(jīng)網(wǎng)絡能否識別鏡像翻轉(zhuǎn)

作者：美國康奈爾大學四年級本科生林之秋將門好聲音第·55·期CVPR 2020系列分享第·14·期2020年讓我們不斷見識到“后浪”的超強力量，也讓世界看到了矚目的華人新星。

長按掃碼閱讀全文