精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    CVPR 2020 最佳論文提名 | 神經(jīng)網(wǎng)絡能否識別鏡像翻轉(zhuǎn)

    作者: 美國康奈爾大學四年級本科生 林之秋將門好聲音第·55·期CVPR 2020系列分享第·14·期2020年讓我們不斷見識到“后浪”的超強力量,也讓世界看到了矚目的華人新星。在今年6月舉辦的CVPR中,年齡最小的一位一作獲獎者甚至還在本科階段。他就是來自康奈爾大學的四年級學生、98年出生的AI科學新秀——林之秋。

    林之秋以一作身份提交CVPR 2020的論文「視覺手性」(Visual Chirality)獲得了最佳論文提名獎。在本文中,林之秋等人首次挑戰(zhàn)了常規(guī)神經(jīng)網(wǎng)絡訓練中圖片”翻轉(zhuǎn)不變性“(flip-invariant)的這一假設,在多種領域上利用卷積神經(jīng)網(wǎng)絡發(fā)現(xiàn)了許多常人難以捕捉的”視覺手性“線索,并通過自監(jiān)督訓練在多項數(shù)據(jù)集上達到了60%甚至到90%的精度。

    本文作者

    林之秋,就讀于美國常春藤高校康奈爾大學。他同時選修了計算機和數(shù)學兩個專業(yè),僅用兩年時間就全部修完本科課程。大二開始選修博士課程,同時跟隨計算機系的教授從事科研工作。由于成績極為優(yōu)異,自大二起林之秋就接受計算機系里邀請,以助教身份給高年級同學講課,為康奈爾科技學院的同學編寫碩士生的預修課程,甚至在高階機器學習課上給博士生的卷子打分。

    剛剛21歲、本科畢業(yè)的林之秋,在學院數(shù)千名學生中名列前三,被授予學院最高榮譽,并受院長邀請代表學院在畢業(yè)典禮上舉旗。之后,他即將前往專業(yè)排名世界第一的卡內(nèi)基梅隆的機器人學院攻讀博士學位。

    導讀:

    鏡子的歷史與人類文明幾乎一樣長,而古今中外文學史上有關鏡子的描寫更是數(shù)不勝數(shù)。從愛麗絲鏡中奇遇記,到西游記里托塔天王的照妖鏡,再到J·K·羅琳筆下哈利波特世界里的厄里斯魔鏡,這些有關鏡子的故事都可謂是家喻戶曉。在近年來的計算機視覺領域,鏡像翻轉(zhuǎn)更是一種最為常用的數(shù)據(jù)增強方法。

    然而,在本屆CVPR 2020中獲得Best Paper Nomination的「視覺手性」(Visual Chirality)一文中,來自康奈爾大學的研究員林之秋等人首次挑戰(zhàn)了常規(guī)神經(jīng)網(wǎng)絡訓練中圖片”翻轉(zhuǎn)不變性“ (flip-invariant) 的這一假設。這篇文章在多種領域(人臉,互聯(lián)網(wǎng)圖片,數(shù)字處理圖像)上利用卷積神經(jīng)網(wǎng)絡發(fā)現(xiàn)了許多常人難以捕捉的”視覺手性“線索,并通過自監(jiān)督訓練在多項數(shù)據(jù)集上達到了60%甚至到90%的精度。

    一、簡介

    神經(jīng)網(wǎng)絡訓練需要大量標注數(shù)據(jù),但數(shù)據(jù)又永遠是有限的。為了用有限的標注數(shù)據(jù)來擬合函數(shù),人們使用數(shù)據(jù)增強(data augmentation)的方法來低成本得獲得更多的標記數(shù)據(jù)。

    而鏡像翻轉(zhuǎn)則是最常用的圖像數(shù)據(jù)增強方法之一。只需要將所有圖片都進行一次鏡像翻轉(zhuǎn),我們就相當于免費得到了雙倍的數(shù)據(jù)。

    但事情真的這么簡單么?當我們翻轉(zhuǎn)了數(shù)據(jù)集里所有的圖片時,神經(jīng)網(wǎng)絡所擬合的函數(shù)還能代表原先的圖像分布么?來自康奈爾大學研究員的「視覺手性(Visual Chirality)」這篇論文首次討論了這一話題。

    為了理解這一鏡像翻轉(zhuǎn)話題,我們先從一個小測試開始:

    你能判斷以下三張圖片哪張被鏡像翻轉(zhuǎn)(水平翻轉(zhuǎn))了嗎?

    圖一:鏡像翻轉(zhuǎn)(線索:文字)。我們可以很容易看出來文字被翻轉(zhuǎn)過了。

    圖二:沒有翻轉(zhuǎn)(線索:紐扣)。男士襯衫的紐扣一般位于身體右側(cè)。

    圖三:鏡像翻轉(zhuǎn)(線索:吉他)。吉他手的主手應當在吉他右側(cè)。

    對于大部分的互聯(lián)網(wǎng)圖片來說(例如圖二圖三),鏡像翻轉(zhuǎn)對于人類而言并沒有多少區(qū)別,因而難以判斷。然而,神經(jīng)網(wǎng)絡卻可以通過自監(jiān)督訓練的方法在這個任務上達到非常高的精度,并能指出圖片中哪些區(qū)域可以被用于識別鏡像翻轉(zhuǎn)(以上三張圖片利用了類激活映射(CAM)方法進行了高亮)。

    康奈爾的研究人員將這一視覺現(xiàn)象定義為“視覺手性”(Visual Chirality)。

    在化學等學科上,手性(Chirality)的定義為“一個物體無法與其鏡像相重合”。這種不對稱性在自然界大量存在,并在不同領域有著廣泛的應用。

    手具有手性(Chiral),因為鏡像翻轉(zhuǎn)后無法與原圖重合。而杯子是軸心對稱,所以不具備手性。

    手性(Chirality)代表著單個圖片的翻轉(zhuǎn)不對稱性,而視覺手性(Visual Chirality)則是針對圖像分布(Image Distribution)所定義的翻轉(zhuǎn)不對稱性。

    假設一個圖像分布中包含了右手和左手的照片(左右手的圖片出現(xiàn)概率一致),那么此時,盡管每張圖片都具有手性,這個圖像分布卻不具備視覺手性。這是由于左手鏡像翻轉(zhuǎn)后就和右手長的一樣了。反之,假設一個圖像分布中只存在右手不存在左手,那么這個分布就具備視覺手性(或稱翻轉(zhuǎn)不對稱性),因為我們知道一張左手的照片必然為鏡像翻轉(zhuǎn)。用統(tǒng)計學的術語來定義的話,假設有圖像分布D,而其中一個圖像是x,那么其在分布中出現(xiàn)概率是D(x)。我們將鏡像翻轉(zhuǎn)的操作稱為T,而翻轉(zhuǎn)圖片x我們可以得到T(x)。

    那么圖像分布D具備視覺手性意味著:D中存在圖片x,滿足D(x)≠D(T(x))的條件。

    如下圖所示,假設我們有一個一維的分布(橫軸上每個點都為一個元素),那么藍色實線所代表的分布則具備視覺手性,因為x1和x2分別與T(x1)和T(x2)的出現(xiàn)概率不一致:

    當一個圖像分布具備視覺手性時,使用鏡像翻轉(zhuǎn)作為數(shù)據(jù)增強方法將不可避免的改變一個數(shù)據(jù)集所代表的分布。換句話說,只有當一個圖像分布不具備視覺手性的時候,我們才能在不改變原先圖像分布的前提下,使用鏡像翻轉(zhuǎn)來增強數(shù)據(jù)集。

    然而,視覺手性是大部分視覺領域都擁有的屬性。正如此篇文章作者,谷歌AI科學家Noah Snavely教授所說:

    “在計算機視覺的研究中,我們常把這個世界視為”翻轉(zhuǎn)不變“的,鏡像翻轉(zhuǎn)因而是一個常規(guī)的數(shù)據(jù)增強方法。然而,當你翻轉(zhuǎn)圖片后,文字將被顛倒,左手變?yōu)橛沂?,而螺旋意大利面也將朝相反方向旋轉(zhuǎn)?!?/p>

    為了挑戰(zhàn)了人們先前在計算機視覺中對于“翻轉(zhuǎn)不變性”的假設,「視覺手性」這篇文章通過自監(jiān)督訓練在幾個不同視覺領域驗證了“視覺手性”的存在。

    二、訓練方法

    「視覺手性」這篇文章利用了自監(jiān)督學習(self-supervised learning)方法來訓練卷積神經(jīng)網(wǎng)絡。對于任何一個數(shù)據(jù)集,只需要將其原有的圖片標記為“無翻轉(zhuǎn)”,并將鏡像翻轉(zhuǎn)過的圖片標記為“有翻轉(zhuǎn)”,即可訓練神經(jīng)網(wǎng)絡識別鏡像翻轉(zhuǎn)這一二分類任務(binary classification)。同時我們可以根據(jù)神經(jīng)網(wǎng)絡在驗證集(validation set)的表現(xiàn)上來評估這一圖像分布是否具備視覺手性:如果驗證集上的精度要顯著大于50%,我們便有充足的證據(jù)來證明視覺手性的存在。

    作者在這篇文章中利用了ResNet-50作為基本的網(wǎng)絡結(jié)構,并使用SGD方法來訓練網(wǎng)絡?;谙惹白员O(jiān)督學習方法的啟發(fā),作者將同一張圖片的原圖和翻轉(zhuǎn)圖放到了SGD的同一batch里(shared-batch training),加速了網(wǎng)絡的訓練。

    為了了解神經(jīng)網(wǎng)絡學到了哪些視覺手性線索,作者利用了類激活映射(CAM:Class Activation Map)方法,在原有圖片上對于視覺手性敏感的區(qū)域進行了高亮。同時因為能造成視覺手性的現(xiàn)象有很多,作者推出了一個簡單的基于類激活映射的聚類方法:手性特征聚類(Chiral Feature Clustering)。

    三、手性特征聚類方法

    類激活映射方法本質(zhì)上是對于神經(jīng)網(wǎng)絡最后一層卷積層輸出的特征圖(feature map)的加權線性和(linear weighted sum)。當我們假設神經(jīng)網(wǎng)絡是利用區(qū)域特征(local feature)來判斷圖像是否為鏡像翻轉(zhuǎn)時,我們可以將類激活映射(CAM)最強的區(qū)域視為神經(jīng)網(wǎng)絡最為關注的區(qū)域特征。只需要取最后一層卷積層輸出的特征圖上這一區(qū)域的特征,便可以利用傳統(tǒng)的聚類方法例如K-means clustering進行自動分類。

    ResNet-50最后一層卷積輸出的特征圖為一個(16x16x2048)的三維矢量f,而類激活映射所得到的熱圖(heatmap)為(16x16)的二維矢量A。假設熱圖上數(shù)值最大的點為(x*,y*),那么我們用來聚類的區(qū)域特征即為f(x*,y*)。

    作者在多個不同圖像分布上利用手性特征聚類方法對視覺手性現(xiàn)象進行了歸因和討論。

    四、互聯(lián)網(wǎng)圖片集

    在互聯(lián)網(wǎng)圖片集上(Imagenet,Instagram,F(xiàn)lickr-F100M),神經(jīng)網(wǎng)絡在鏡像翻轉(zhuǎn)識別上取得了高達60%-80%的精度。

    作者著重分析了Instagram圖片上的視覺手性現(xiàn)象。在不用隨機剪裁(random cropping)時,神經(jīng)網(wǎng)絡在測試集上取得了高達92%的精度。然而因為有JPEG壓縮失真的可能性存在(JPEG edge artifact一般出現(xiàn)于圖片的邊緣),作者同樣使用隨機剪裁進行了訓練,并仍舊取得了高達80%的精度。考慮到大量Instagram圖片有配文字,而文字是最明顯的視覺手性現(xiàn)象,作者用文字識別器濾除了Instagram中含有文字的圖片重新進行了訓練,但仍舊在測試集上取得了74%的高精度。值得一提的是這些訓練出來的模型具有一定程度的泛化能力,可以不經(jīng)訓練,在其他的互聯(lián)網(wǎng)圖片集(Flickr F100M)上取得高于50%的精度。

    作者在Instagram圖片集上進行了手性特征聚類,并挑選了一系列與我們生活相關的典型視覺手性現(xiàn)象進行討論。

    1、手機

    對著鏡子自拍是人們最愛做的事。此類照片具有視覺手性,因為手機的攝像頭一般固定在手機背面的一側(cè)(因品牌而異),同時由于多數(shù)人是右撇子,一般都以右手持手機進行自拍。

    2、吉他

    幾乎大多數(shù)的吉他手都以右手撥弦,左手持把。

    3、手表

    手表一般都被帶在人們的右手側(cè)。

    4、男士襯衫領子

    男士襯衫的扣子一般處于右側(cè)。

    5、上衣口袋

    正裝上衣的口袋幾乎無一例外處于身體左側(cè),為了更好地服務于占大多數(shù)的右撇子。

    6、人臉

    更令人吃驚的是,類激活映射方法在大量的人臉上出現(xiàn)了較強的反應,說明人臉中視覺手性的存在。多數(shù)情況下人臉通常被認為是對稱的:此屆CVPR 2020另一篇Best Student Paper (Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild) 更是將人臉視為了軸心對稱的物體,并以此為線索來進行3D重建。

    需要強調(diào)的一點是,這些視覺手性現(xiàn)象在每張圖片中看似孤立,但神經(jīng)網(wǎng)絡仍有可能會利用多種不同的線索來對圖片是否翻轉(zhuǎn)進行判斷。

    1234下一頁>

    (免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
    任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )

    贊助商
    2020-07-22
    CVPR 2020 最佳論文提名 | 神經(jīng)網(wǎng)絡能否識別鏡像翻轉(zhuǎn)
    作者: 美國康奈爾大學四年級本科生 林之秋將門好聲音第·55·期CVPR 2020系列分享第·14·期2020年讓我們不斷見識到“后浪”的超強力量,也讓世界看到了矚目的華人新星。

    長按掃碼 閱讀全文