精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<font id="xclhf"><td id="xclhf"></td></font>

<kbd id="xclhf"></kbd>

<strike id="xclhf"></strike>

首頁
熱搜
人物
明星
媒體
友推
快訊

供應商
小紅書
回首頁

資訊
極客熱點
企業(yè)動態(tài)
友推福利
友媒專區(qū)

軟件
PC軟件
移動APP
操作系統(tǒng)
工業(yè)軟件

酷玩
手機數(shù)碼
明星腕表
極客游戲
智能汽車
時尚輕奢

創(chuàng)業(yè)
創(chuàng)業(yè)頭條
創(chuàng)業(yè)學院
項目招商
工作機會
兼職副業(yè)

極客網(wǎng) > 每日熱讀 >

僅用40張圖片就能訓練視覺模型：CVPR 2019伯克利新論文說了什么

人閱讀
2019-05-22 16:49:00
相關關鍵詞
- 視覺

原標題：僅用40張圖片就能訓練視覺模型：CVPR 2019伯克利新論文說了什么

在工業(yè)界的熱情參與下，AI行業(yè)大會近年來的發(fā)展可謂是如火如荼。不過，依然很少有哪個能比得上CVPR在計算機視覺領域的影響力。其中，又以oral口頭報道的文章最具重量級。

那么在CVPR 2019中，又有哪些成果獲此殊榮呢？

伯克利大學研究小組提出的Open Long-Tailed Recognition (OLTR) 開放長尾識別，就為計算機視覺系統(tǒng)在現(xiàn)實世界中的應用提供了新的分類標準。

以往的CV系統(tǒng)存在哪些問題，OLTR又提供了哪些解決方案？不妨通過一篇文章?lián)屜攘私庖幌隆?/p>

實驗室與現(xiàn)實的距離：神經(jīng)網(wǎng)絡的“視覺盲點”

長久以來，我們理解中的機器視覺往往是這樣工作的：

研究人員會依據(jù)圖像所具有的本身特征先將其分類，然后設計一個算法，使用設定好的數(shù)據(jù)集進行預訓練。然后，給AI一張圖片，它會根據(jù)存儲記憶中已經(jīng)分好的類別進行識別，查看是否有與該圖像具有相同或類似特征的存儲記憶，從而快速識別出是該圖像。只要投喂足夠多的照片，特征分類足夠準確，識別算法的精準度也會逐步提升。

模式識別技術近兩年突飛猛進，加上在公共安全、工業(yè)、農(nóng)業(yè)、交通、生物等領域的不斷落地，比如車牌識別、人臉識別、指紋識別、心電圖檢測等等，是應用最為成熟、群眾基礎最為廣泛的AI技術之一。

但，問題也出在這里。

由于訓練數(shù)據(jù)和測試數(shù)據(jù)都是在封閉環(huán)境下進行的，比如ImageNet數(shù)據(jù)集，這與現(xiàn)實世界中的情況卻截然不同。

因為在現(xiàn)實中，充斥著許多無法出現(xiàn)在測試數(shù)據(jù)集中的開放類別。它們要么數(shù)量珍貴而稀少，比如自然界中的野生動物；要么繁多而不規(guī)律，諸如街道標志、時尚品牌、面孔、天氣狀況、街道狀況等等，在日常生活分布的概率也是不平衡的。

如果只是簡單地將現(xiàn)有的計算機視覺分類放在現(xiàn)實中的識別問題上，結果會怎樣呢？伯克利的研究人員告訴你，就是被打臉。

（現(xiàn)有的計算機視覺分類與現(xiàn)實世界的場景之間存在相當大的差距）

當以為生態(tài)學家想利用現(xiàn)有的CV技術來識別相機中所捕捉到的野生動物時，不出意外地，由于沒有足夠的訓練數(shù)據(jù)，系統(tǒng)失敗了……

更令人悲傷的是，在此類情境中，收集更多數(shù)據(jù)是非常不現(xiàn)實的。

對于一些瀕臨滅絕的野生珍稀動物，人們往往要花很長的時間，甚至要等上好幾年才能成功拍到一次照片。與此同時，新的動物物種不斷出現(xiàn)，舊的動物物種不斷離開。在自然界這個動態(tài)系統(tǒng)中，識別對象的總分類數(shù)從來沒有固定過。

即使現(xiàn)有的計算機視覺技術在大眾類別上做得再好，比如精準識別出人類和貓狗等，但對于這些不均衡的分類對象，現(xiàn)在的方法依然無能為力。

之所以出現(xiàn)這種問題，核心原因或在于：面對實際應用時，機器視覺的分類任務不應該被作為單項任務來對待并解決，而應該當成一個整體來看待。即一個能夠對少數(shù)擁有海量ImageNet數(shù)據(jù)集的常見類別，以及大多數(shù)罕見類別，都能夠進行分類的實用系統(tǒng)。

要實現(xiàn)這一點，就要求CV系統(tǒng)具備一種能力，能夠從幾個已知的事例中推導出單一類別的概念，并對一個從未見過的類別的實際圖例對應上新的概念。這就不再是邏輯命題，而是智慧型的學習命題了。為了盡可能地消滅“次元壁”中存在的“視覺盲點”，OLTR開放長尾識別框架應運而生。

OLTR，讓CV系統(tǒng)更全能

如上所述，“開放長尾識別”(OLTR)的核心任務目標，就是讓系統(tǒng)能夠從長尾數(shù)據(jù)和開放的分布式數(shù)據(jù)中進行學習，能夠在包括頭、尾和開放類的平衡測試集上表現(xiàn)出較好的分類精度。

也就是說，除了一些主流的樣本豐富的對象，對于數(shù)據(jù)匱乏的、分布廣泛導致出現(xiàn)頻率不均衡的物體，系統(tǒng)也能夠做到很好的識別。

顯然，有了OLTR的機器視覺會變得能力更全面，也更符合現(xiàn)實環(huán)境的需求。它的特殊之處，主要依靠視覺記憶能力來實現(xiàn)。

研究人員將圖像映射到一個特征空間，將圖像特征和記憶特征結合在一起，這樣視覺系統(tǒng)就可以基于封閉環(huán)境分類的學習度量，對開放世界中存在的新穎物體和長尾類進行理解。即使在缺乏觀察數(shù)據(jù)和特征的情況下，視覺記憶也能夠對開放類進行理解并努力識別。

（讓CV系統(tǒng)具備視覺記憶能力）

實驗結果顯示，記憶特征的加入，使得CV系統(tǒng)能夠更好地激活起視覺神經(jīng)元。比如，識別“公雞”這一長尾類物體（位于下圖左上角cock）時，具有記憶功能的CV系統(tǒng)已經(jīng)學會了將其轉換為“鳥頭”、“圓型”和“虛線紋理”的視覺概念，并將被普通CV模型錯誤分類的圖片正確地識別了出來。

（從內存特性中注入視覺記憶特征的系統(tǒng)示例）

在現(xiàn)實任務中，這種新方法也表現(xiàn)出了極強的開放性，能夠在不犧牲豐富類的前提下，對稀缺類別的識別實現(xiàn)明顯的改進。

以前面提到的認識野生動物為例，對于那些圖像不超過40幅的種類，OLTR實現(xiàn)了從25%到66%的性能提升。

與目前大多數(shù)計算機視覺方案相比，OLTR顯然更符合數(shù)據(jù)自然分布的真實世界。那么，它的出現(xiàn)最有可能給哪些CV技術帶來改變呢？

檢測、分割：CV問題的新解法

可以明確的是，OLTR的出現(xiàn)，解決了CV領域最為經(jīng)典的問題之一——分類（classification）。那么，自然也就間接影響了分類問題的諸多應用領域。其中，比較多的就是目標檢測和圖像分割。

先說說目標檢測。

目標檢測已經(jīng)在諸多產(chǎn)業(yè)中都有應用，簡單的論文也越來越難發(fā)表了，比如手機拍照中用一個框來定位人臉，或者是智能監(jiān)控中的人體定位，都屬于目標檢測的范疇。

但關于它的技術探索還遠沒有達到勸退科學家的程度，這是因為，目標檢測算法目前還存在著不少亟待突破的難點：

比如數(shù)據(jù)標注的巨大成本，能不能通過更有小弟分類來解決；小規(guī)模數(shù)據(jù)的監(jiān)督學習怎樣才能更有效地提升精度；對單圖像單類別場景進行弱監(jiān)督多類檢測學習等等。

這些都是應用場景中比較需要關注的問題，恰好也是OLTR能夠帶來改變的地方。

再說圖像分割。簡單來說就說輸入一張圖片，然后對每一個像素點都進行分類標記，則完成了對整個圖片的分割。

比如深度學習對醫(yī)學影像進行解讀和診斷，自動駕駛汽車區(qū)分人、車、障礙物等，就采用了語義分割的技術。

但該類算法目前面臨著三大難題：一是計算成本高，要保證準確率，需要的存儲空間和數(shù)據(jù)都非常龐大。二是計算效率低，由于需要對每個像素塊進行計算卷積，造成了很大程度的重復和算力浪費；三是性能桎梏，受像素塊的限制，感知神經(jīng)元往往只能提取一些局部特征，從而影響分類識別的準確率。

節(jié)約計算量、盡可能考慮全局信息、高性能分類，是圖像分割未來迭代的重點。

此時，OLTR的優(yōu)勢就展現(xiàn)出來了。

首先，它用增強視覺記憶的方式，幫助CV系統(tǒng)在頭部類別的基礎上完成尾部、開放類別的特征分類與學習，這意味著可以告別超大規(guī)模的數(shù)據(jù)集，通過小樣本的無監(jiān)督學習一樣能夠達到同樣的高精度性能，降低了計算機視覺的應用和訓練成本。

其次，由于OLTR具有通用化、整體性的分類能力，使得CV系統(tǒng)能夠在現(xiàn)實環(huán)境中表現(xiàn)的更好，尤其是面對一些出現(xiàn)頻率低、難以進行監(jiān)督訓練的物體時，系統(tǒng)能夠根據(jù)以往的“經(jīng)驗”為其賦予新的視覺概念并識別出來。對于性能要求極高的自動駕駛、醫(yī)療診斷等應用來說，無疑是雪中送炭。

總而言之，OLTR的出現(xiàn)，將給CV算法、軟件與產(chǎn)業(yè)應用都帶來不小的改變。但其勢能有多大，還需要有越來越多的開發(fā)者和企業(yè)開始嘗試用其解決現(xiàn)實問題，逐步迭代升級，后續(xù)想必還會有不少驚喜。

即使是習以為常的技術，也有自我思考和蝶變的可能。身處時代變革中心的我們，不妨共同期待一下CPVR 2019還有哪些創(chuàng)造。

極客網(wǎng)企業(yè)會員

免責聲明：本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時，應及時向本網(wǎng)站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內容或斷開相關鏈接。

下一篇

阿斯麥訂單“腰斬”股價暴跌16%，半導體產(chǎn)業(yè)寒冬來了？

阿斯麥訂單腰斬阿斯麥訂單阿斯麥股價暴跌

極客觀察

專題報道

企業(yè)專欄

簡版
原版
投稿
回頂部

2019-05-22

僅用40張圖片就能訓練視覺模型：CVPR 2019伯克利新論文說了什么

然后，給AI一張圖片，它會根據(jù)存儲記憶中已經(jīng)分好的類別進行識別，查看是否有與該圖像具有相同或類似特征的存儲記憶，從而快速識別出是該圖像。

長按掃碼閱讀全文

<th id="hecka"></th>

<samp id="hecka"></samp>