精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<center id="gzosp"></center>

直播
榜單
7x24h快訊

極客網(wǎng) > 友鏈區(qū) >

中國(guó)科技引領(lǐng)世界曠視行人再識(shí)別技術(shù)首超人類(lèi)水平

人閱讀
2017-12-04 14:38:05
來(lái)源：焦點(diǎn)新聞網(wǎng)
相關(guān)關(guān)鍵詞
- 曠視
- 行人再識(shí)別

日前，中國(guó)人工智能企業(yè)曠視科技Face++的研究團(tuán)隊(duì)在全球論文共享平臺(tái)arXiv上公布了一篇名為AlignedReID: Surpassing Human-Level Performance in Person Re-Identification的文章，證明了其在“行人再識(shí)別技（ReID）”術(shù)上取得了新的研究成果，使得機(jī)器在行人整體的識(shí)別能力上已經(jīng)超過(guò)了人類(lèi)。本文就曠視研究院的具體研究方法和展開(kāi)說(shuō)明。

近年來(lái)，人臉識(shí)別技術(shù)的成熟使得機(jī)器在辨別人臉的能力上大舉超過(guò)人類(lèi)，在構(gòu)建“智慧城市”、“平安城市”等方面也得到了廣泛應(yīng)用。然而在實(shí)際應(yīng)用的場(chǎng)景中，攝像頭并非在任何情況下都可以拍攝到清晰人臉。如在下圖中，因口罩、帽子等遮擋，民警和系統(tǒng)都無(wú)法用人臉特征判定嫌疑人身份。

不僅如此，在實(shí)際的場(chǎng)景中，一個(gè)攝像頭往往無(wú)法覆蓋所有區(qū)域，而多攝像頭之間一般也沒(méi)有重疊。因此，用全身信息來(lái)對(duì)人員進(jìn)行鎖定和查找就變得十分必要——通過(guò)將整體行人特征作為人臉之外的重要補(bǔ)充，實(shí)現(xiàn)對(duì)行人的跨攝像頭跟蹤。于是，計(jì)算機(jī)視覺(jué)領(lǐng)域開(kāi)始逐漸展開(kāi)針對(duì)“行人再識(shí)別”技術(shù)的研究工作。

行人再識(shí)別：實(shí)際意義重大，目前仍依賴(lài)大量人力投入

行人再識(shí)別（Person Re-Identification，簡(jiǎn)稱(chēng) ReID），從字面意思理解就是對(duì)行人進(jìn)行重新識(shí)別，是對(duì)不同的、沒(méi)有視野重疊覆蓋的（non-overlapping）攝像機(jī)拍攝的行人圖像建立對(duì)應(yīng)關(guān)系的處理過(guò)程。當(dāng)攝像頭拍攝范圍之間不存在重疊時(shí)，由于沒(méi)有了連續(xù)信息，檢索難度也隨之增大非常多。因此，行人再識(shí)別強(qiáng)調(diào)的是在跨攝像機(jī)的視頻中對(duì)特定行人進(jìn)行檢索。

圖：行人再識(shí)別即將圖像中某個(gè)行人的特征與其他圖像中行人特征進(jìn)行對(duì)比，判斷是否屬于同一個(gè)人，相比行人檢測(cè)難度更大。

如果說(shuō)行人檢測(cè)是要機(jī)器判定圖像中是否存在行人，那么行人再識(shí)別就是要機(jī)器識(shí)別出不同攝像機(jī)拍攝的特定人員的所有圖像。具體說(shuō)，就是給定某人的一張圖片（query image），從多張圖片（gallery images）中找到屬于他/她的那一張或多張，是通過(guò)行人整體特征實(shí)現(xiàn)的人員比對(duì)技術(shù)。

行人再識(shí)別（ReID）在公共安防的刑偵工作中以及圖像檢索等場(chǎng)景中有很高的應(yīng)用價(jià)值。除此之外，ReID還可以幫助手機(jī)用戶(hù)實(shí)現(xiàn)相冊(cè)聚類(lèi)、幫助零售或商超經(jīng)營(yíng)者獲取有效的顧客軌跡、挖掘商業(yè)價(jià)值。然而，受限于行業(yè)水平，目前行人再識(shí)別的精準(zhǔn)度并不高，很多工作仍依賴(lài)于大量人力的投入。

曠視打破行人再識(shí)別行業(yè)紀(jì)錄，首次超越人類(lèi)專(zhuān)家

由于圖像拍攝的時(shí)間、地點(diǎn)隨機(jī)，且光線、角度、姿態(tài)不同，再加上行人容易受到檢測(cè)精度、遮擋等因素的影響，ReID 的研究工作非常具有挑戰(zhàn)性。

近年來(lái)受益于深度學(xué)習(xí)的發(fā)展，ReID 技術(shù)水平也得到了很大提升，在兩個(gè)最為常用的ReID測(cè)試集Market1501和CUHK03上，首位命中率分別達(dá)到了89.9%和91.8%。不過(guò)，這個(gè)結(jié)果與人相比還是有一定的差距。實(shí)驗(yàn)表明，一個(gè)熟練的標(biāo)注員在Market1501和CUHK03上的首位命中率分別可以達(dá)到93.5%和95.7%。

為了測(cè)試人類(lèi)的ReID能力，研究者組織了10名專(zhuān)業(yè)的標(biāo)注人員來(lái)進(jìn)行測(cè)驗(yàn)。結(jié)果表明，一個(gè)熟練的標(biāo)注員在Market1501和CUHK03上的首位命中率分別可以達(dá)到93.5%和95.7%。這個(gè)是現(xiàn)有的ReID方法無(wú)法企及的。

而在AlignedReID的文章中，曠視科技Face++的研究團(tuán)隊(duì)提出了一種新方法，通過(guò)動(dòng)態(tài)對(duì)準(zhǔn)（Dynamic Alignment）和協(xié)同學(xué)習(xí)（Mutual Learning），然后再重新排序（Re-Ranking），使得機(jī)器在Market1501和CUHK03上的首位命中率達(dá)到了94.0%和96.1%，這也是首次機(jī)器在行人再識(shí)別問(wèn)題上超越人類(lèi)專(zhuān)家表現(xiàn)，創(chuàng)下了業(yè)界紀(jì)錄。

曠視的研究成果意味著繼人臉識(shí)別之后，機(jī)器在更復(fù)雜的行人再識(shí)別領(lǐng)域中也超越了人類(lèi)！這為目前機(jī)器代替人類(lèi)處理大量以人為中心的圖像或視頻理解問(wèn)題帶來(lái)了更強(qiáng)大的技術(shù)。

曠視科技首席科學(xué)家、研究院院長(zhǎng)孫劍表示：“最近幾年，隨著深度學(xué)習(xí)方法的復(fù)興，從2014年的人臉識(shí)別到2015年的ImageNet圖像分類(lèi)，我們已經(jīng)看到機(jī)器在越來(lái)越多的圖像感知問(wèn)題中超越了人類(lèi)。記得不久前和我的導(dǎo)師、前微軟領(lǐng)導(dǎo)沈向洋博士（微軟全球執(zhí)行副總裁）聊天時(shí)吹了個(gè)牛——感知問(wèn)題5-10年基本都能解掉。今天，我非常高興看到又一個(gè)非常難且有巨大應(yīng)用價(jià)值的圖像感知問(wèn)題，被曠視科技團(tuán)隊(duì)的算法超越了人類(lèi)性能?！?/p>

讓多個(gè)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)人體結(jié)構(gòu)對(duì)齊，并彼此相互學(xué)習(xí)

那么曠視科技團(tuán)隊(duì)具體是如何做到的？

和其他基于深度學(xué)習(xí)的ReID方法類(lèi)似，曠視研究院同樣是用深度卷積神經(jīng)網(wǎng)絡(luò)去提取特征，用Hard Sample Mining后的Triplet Loss做損失函數(shù)，把特征的歐式距離作為兩張圖片的相似度。

不同之處在于，曠視科技在學(xué)習(xí)圖像相似度的時(shí)候考慮了人體結(jié)構(gòu)的對(duì)齊。雖然此前有人考慮過(guò)這一點(diǎn)，比如簡(jiǎn)單的，把人的頭、身、腿分成三部分；還有精細(xì)一點(diǎn)的，先通過(guò)人體骨架估計(jì)，然后再通過(guò)骨架信息來(lái)對(duì)齊。但后一種方法，引入了另一個(gè)困難的問(wèn)題或要求額外的標(biāo)注工作。曠視科技的思路是引入端到端的方法，讓網(wǎng)絡(luò)自動(dòng)去學(xué)習(xí)人體對(duì)齊，從而提高性能。

在曠視科技發(fā)表的文章AlignedReID中，深度卷積神經(jīng)網(wǎng)絡(luò)不僅提取全局特征，同時(shí)也對(duì)各局部提取局部信息。對(duì)于兩張圖片中任意一對(duì)局部信息，計(jì)算它們之間的距離，構(gòu)成一個(gè)距離矩陣。再通過(guò)動(dòng)態(tài)規(guī)劃，計(jì)算一條從矩陣左上角到右下角的最短路徑。這條最短路徑中的一條邊就對(duì)應(yīng)了一對(duì)局部特征的匹配，它給出了一種人體對(duì)齊的方式，在保證身體個(gè)部分相對(duì)順序的情況下，這種對(duì)齊方式的總距離是最短的。在訓(xùn)練的時(shí)候，最短路徑的長(zhǎng)度被加入到損失函數(shù)，輔助學(xué)習(xí)行人的整體特征。

如圖所示，乍一看，這條最短路徑上有一些邊是冗余的，例如圖中的第一條邊。為什么不只尋找那些匹配的邊呢？曠視Face++給出的解釋是這樣的：局部信息不僅要自我匹配，也要考慮到整個(gè)人體對(duì)齊的進(jìn)程。為了使匹配能夠從頭到腳按順序進(jìn)行，那么有一些冗余的匹配是必須的。另外，通過(guò)設(shè)計(jì)局部距離函數(shù)，這些冗余匹配在整個(gè)最短路徑的長(zhǎng)度中貢獻(xiàn)很小。

除了在訓(xùn)練過(guò)程中讓人體結(jié)構(gòu)自動(dòng)對(duì)齊外，曠視Face++還提到了同時(shí)訓(xùn)練兩個(gè)網(wǎng)絡(luò)并使它們互相學(xué)習(xí)，可以有效提高模型的精度。這個(gè)訓(xùn)練方法在分類(lèi)問(wèn)題中已經(jīng)比較常見(jiàn)，曠視Face++的研究員們做了一些改進(jìn)讓它能夠應(yīng)用于度量學(xué)習(xí)（Metric Learning）。

在上圖所示的訓(xùn)練過(guò)程中：同時(shí)訓(xùn)練的兩個(gè)網(wǎng)絡(luò)都包含一個(gè)分支做分類(lèi)，一個(gè)分支做度量學(xué)習(xí)。兩個(gè)做分類(lèi)的分支通過(guò)KL divergence互相學(xué)習(xí)；兩個(gè)做度量學(xué)習(xí)的分支通過(guò)曠視提出的metric mutual loss互相學(xué)習(xí)。而如前所述，度量學(xué)習(xí)的分支又包括兩個(gè)子分支，一個(gè)是全局特征的分支，一個(gè)是局部特征的分支。比較有趣的是，一旦訓(xùn)練完成，分類(lèi)分支和局部特征分支都被丟棄，只保留了全局特征分支做ReID。也就是說(shuō)，無(wú)論是訓(xùn)練行人分類(lèi)，還是通過(guò)人體對(duì)齊學(xué)習(xí)局部特征，都是為了更好的得到圖像的全局特征。

最后，曠視科技研究團(tuán)隊(duì)還采用了2017年CVPR的一篇名為Re-ranking person re-identification with k-reciprocal encoding文章中提出的k-reciprocal encoding來(lái)做重新排序。

上圖的第一行是要查找的行人，第二行為人類(lèi)專(zhuān)家給出的答案，第三行為機(jī)器給出的結(jié)果，可見(jiàn)機(jī)器的行人再識(shí)別能力已經(jīng)和人類(lèi)相當(dāng)。

此文所展示的方法讓ReID技術(shù)在實(shí)驗(yàn)結(jié)果的表現(xiàn)中上了全新的臺(tái)階。不過(guò)曠視在文章的最后也指出，雖然機(jī)器在兩個(gè)常用數(shù)據(jù)集上超過(guò)了人類(lèi)的水平，但還不能說(shuō)行人再識(shí)別（ReID）任務(wù)已經(jīng)被很好地解決了。在實(shí)際的應(yīng)用中，人類(lèi)，尤其是經(jīng)過(guò)專(zhuān)業(yè)訓(xùn)練的人，可以通過(guò)經(jīng)驗(yàn)、直覺(jué)，并利用環(huán)境、上下文等綜合信息，在擁擠，模糊，昏暗等情況下進(jìn)行更深入的分析，所以在開(kāi)放和極端條件下的環(huán)境中，人和機(jī)器相比仍具有很大的優(yōu)勢(shì)。在未來(lái)的實(shí)踐中，行人再識(shí)別（ReID）的解決和應(yīng)用還需要更多努力。

作為AlignedReID文章作者之一，美國(guó)哥倫比亞大學(xué)博士、曠視科技研究院的視頻分析領(lǐng)域科學(xué)家張弛表示：“我們從2016年開(kāi)始研究ReID，當(dāng)時(shí)Top1的精度達(dá)到60%就可以說(shuō)是state of the art了。但是業(yè)務(wù)要求至少達(dá)到90%以上，甚至更高?，F(xiàn)在我們已經(jīng)在兩個(gè)常用數(shù)據(jù)集上做到超過(guò)人類(lèi)水平，到這也只是邁出了實(shí)用化的第一步，在實(shí)戰(zhàn)場(chǎng)景中還有更多的挑戰(zhàn)要應(yīng)對(duì)。希望ReID技術(shù)的進(jìn)一步成熟，能讓我們的社會(huì)更安全，更便捷?！?/p>

曠視科技Face++成立于2011年，是中國(guó)最早一批用深度學(xué)習(xí)的方法開(kāi)展計(jì)算機(jī)視覺(jué)應(yīng)用的人工智能企業(yè)，被中國(guó)科技部列為“中國(guó)獨(dú)角獸”人工智能類(lèi)榜首企業(yè)，其核心產(chǎn)品包括Face++人工智能開(kāi)放平臺(tái)、FaceID人臉身份驗(yàn)證平臺(tái)等，業(yè)務(wù)覆蓋智能金融、智能商業(yè)和智慧安防等多個(gè)領(lǐng)域。目前，曠視科技Face++團(tuán)隊(duì)已累計(jì)獲得國(guó)際人工智能技術(shù)評(píng)測(cè)冠軍 15項(xiàng)，其中包括在MS COCO 2017、Places 2017兩項(xiàng)全球頂級(jí)計(jì)算機(jī)視覺(jué)競(jìng)賽中擊敗微軟、谷歌、Facebook和卡內(nèi)基梅隆大學(xué)等國(guó)際巨頭和高校奪得的三項(xiàng)世界冠軍。作為國(guó)內(nèi)最大原創(chuàng)人工智能企業(yè)之一，曠視科技擁有國(guó)內(nèi)外在申及授權(quán)專(zhuān)利近 500 件，并代表行業(yè)領(lǐng)先技術(shù)提供方參與了 15 項(xiàng)人工智能?chē)?guó)家及行業(yè)標(biāo)準(zhǔn)制定。

圖為曠視科技行人再識(shí)別技術(shù)的應(yīng)用演示：針對(duì)擁有特定特征的行人進(jìn)行跨攝像頭檢索，未來(lái)可在高效查找走勢(shì)人口、追蹤定位目標(biāo)嫌疑人等場(chǎng)景中發(fā)揮價(jià)值。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

下一篇

阿斯麥訂單“腰斬”股價(jià)暴跌16%，半導(dǎo)體產(chǎn)業(yè)寒冬來(lái)了？

阿斯麥訂單腰斬阿斯麥訂單阿斯麥股價(jià)暴跌

極客觀察

專(zhuān)題報(bào)道

企業(yè)專(zhuān)欄

簡(jiǎn)版
原版
投稿
回頂部

2017-12-04

中國(guó)科技引領(lǐng)世界曠視行人再識(shí)別技術(shù)首超人類(lèi)水平

日前，中國(guó)人工智能企業(yè)曠視科技Face++的研究團(tuán)隊(duì)在全球論文共享平臺(tái)arXiv上公布了一篇名為AlignedReID: Surpassing Human-Level Performance in Person Re-Identification的文章，證明了其在“行人再識(shí)別技（ReID）”術(shù)上取得了新的研究成果，使得機(jī)器在行人整體的識(shí)別能力上

長(zhǎng)按掃碼閱讀全文