精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    最全技術剖析 百度視覺團隊“大戰(zhàn)”O(jiān)pen Images V4目標檢測數(shù)

    原標題:最全技術剖析 百度視覺團隊“大戰(zhàn)”O(jiān)pen Images V4目標檢測數(shù)

    眼睛是人類接觸外部世界的第一感官,對于機器而言,計算機視覺技術就是它們的“眼睛”。近日,百度視覺團隊在全球最大規(guī)模目標檢測競賽Google AI Open Images-Object Detection Track中再獲佳績,從全球450多支參賽隊伍中脫穎而出,獲得世界第一,并受邀在世界頂級視覺學術會議ECCV2018上進行分享。

    百度視覺團隊可謂是國際賽事上的“常勝軍”。2018年,百度視覺團隊先后獲得了人臉WilderFace權威數(shù)據(jù)集世界第一、OCR ICDAR權威數(shù)據(jù)集世界第一、視頻理解權威競賽ActivityNet兩項世界第一、圖像識別權威競賽WebVision世界第一。如今再次獲獎,又一次展示了百度視覺團隊國際領先的平臺和技術優(yōu)勢。

    Google AI Open Images-Object Detection Track是大規(guī)模目標檢測任務的權威挑戰(zhàn)賽事,由Google AI Research舉辦,賽事遵循 PASCAL VOC、ImageNet和COCO等賽事傳統(tǒng),但數(shù)據(jù)規(guī)模遠大于這些賽事。

    在9月8日召開的世界頂級視覺學術會議ECCV2018上,百度視覺團隊應邀分享了技術細節(jié),從比賽挑戰(zhàn)和解決方案等不同方面做出深度剖析,與全球計算機視覺研究者進一步交流。

    Open Images V4數(shù)據(jù)集

    據(jù)介紹,大賽采用Google今年5月份發(fā)布的Open Images V4數(shù)據(jù)集作為訓練數(shù)據(jù)集,包含超過170萬的圖片數(shù)據(jù),500個類別以及超過1200萬物體框,數(shù)據(jù)沒有完全精細標注,屬于弱監(jiān)督任務,框選類別數(shù)目不均衡且有非常廣泛的類別分布,這更符合實際情況,也意味著參加競賽的團隊需要考慮到類別的分布,而不能統(tǒng)一對所有類別做處理,因此更具挑戰(zhàn)性。這項賽事有助于復雜模型的研究,同時對評估不同檢測模型的性能有積極的促進作用。下圖為Open Image V4 與 MS COCO 和 ImageNet 檢測任務數(shù)據(jù)對比情況。

    Open Image V4 與 MSCOCO及ImageNet 檢測數(shù)據(jù)對比情況

    與傳統(tǒng)的檢測數(shù)據(jù)集合相比,該賽事除了數(shù)據(jù)規(guī)模大、更真實之外,還存在一系列的挑戰(zhàn)。具體來說,主要集中在以下三個方面:

    ·數(shù)據(jù)分布不均衡:最少的類別框選只有14個,而最多的類別框選超過了140w,數(shù)據(jù)分布嚴重不均衡。

    類別框數(shù)量分布

    ·漏標框:很多圖片存在只標注主體類別,其他小物體或者非目標物體沒有標注出來。

    漏標注圖片舉例

    ·尺度變化大:大部分物體框只占整個圖片的0.1以下,而有些框選卻占了整個圖片區(qū)域。如圖所示,Open Image V4集合存在更多的小物體,參賽者也會在檢測數(shù)據(jù)中遇到更大的挑戰(zhàn)。

    框尺度大小分布對比

    解決方案

    在比賽過程中百度視覺團隊采用了不同復雜度、不同骨架網(wǎng)絡進行模型的訓練,并對這些模型進行融合。從整體方案框架來看,可分為Fast R-CNN和Faster R-CNN兩種不同的訓練模式。Fast R-CNN版本是百度視覺團隊研發(fā)的一套PaddlePaddle版本,在此基礎上Faster R-CNN加入了 FPN、Deformable、Cascade等最新的檢測算法,模型性能實現(xiàn)了大幅度的提升。

    整體方案框架流程圖

    ·骨架網(wǎng)絡為ResNet-101 的Fast R-CNN,模型收斂后可以達到0.481,在測試階段加入Soft NMS以及 Multi-Scale Testing策略,可以達到0.508。百度也嘗試了其他骨架網(wǎng)絡(dpn98,Inception-v4,Se-ResNext101),并把不同骨架網(wǎng)絡的檢測算法融合到一起,最終mAP可以達到0.546。在Proposal采樣階段,百度在不同位置進行不同尺度的候選框生成,然后對這些框選進行分類以及調(diào)整他們的位置。

    ·Faster R-CNN: 采用這種框架可以達到略高于Fast R-CNN的效果,mAP為0.495。在測試階段使用Soft NMS以及 Multi-Scale Testing策略后,性能達到0.525。

    ·Deformable Convolutional Networks使用Soft NMS以及 Multi-Scale Testing策略前后,性能分別達到0.528及0.559。

    ·Deformable Cascade R-CNN : 使用Soft NMS以及 Multi-Scale Testing策略前后,性能分別可以達到0.581和0.590.

    簡言之,在Fast R-CNN框架下,百度視覺團隊采用了不同的骨架網(wǎng)絡進行訓練,而在Faster R-CNN框架下只使用了ResNet101這種骨架網(wǎng)絡進行訓練。在訓練過程中,百度視覺團隊還通過不同的策略有效解決了各種技術問題。詳情如下:

    動態(tài)采樣

    Google Open Images V4 數(shù)據(jù)集大概有170w圖片,1220w框選,500個類別信息。最大的類別框選超過了140w,最小的類別只有14個框選,如果簡單使用所有的圖片及框選,需要幾十天才能進行模型訓練,而且很難訓練出來一個無偏的模型。因此,需要在訓練過程中進行動態(tài)采樣,如果樣本數(shù)量多則減少采樣概率,而樣本數(shù)量少則增加采樣概率。據(jù)介紹,百度視覺團隊分別進行全集數(shù)據(jù)訓練、固定框選子集訓練、動態(tài)采樣模型訓練三種策略進行。

    ·全集數(shù)據(jù)訓練:按照主辦方提供數(shù)據(jù)進行訓練,mAP達到0.50。

    ·固定框選子集訓練:線下固定對每個類別最多選擇1000個框,mAP達到0.53。

    ·動態(tài)采樣模型訓練:對每個GPU、每個Epoch采用線上動態(tài)采樣,每次采集的數(shù)據(jù)都不同,輪數(shù)達到一定數(shù)目后,整個全集的數(shù)據(jù)都能參與整體訓練。最后mAp達到0.56。

    動態(tài)采樣策略

    FPN

    基于訓練數(shù)據(jù)集的分析,百度視覺團隊發(fā)現(xiàn)其中500個類別的尺度有很大的差異。因此他們將FPN引入到檢測模型中,即利用多尺度多層次金字塔結構構建特征金字塔網(wǎng)絡。在實驗中,百度視覺團隊以ResNet101作為骨干網(wǎng)絡,在不同階段的最后一層添加了自頂向下的側連接。自頂向下的過程是向上采樣進行的,水平連接是將上采樣的結果與自底向上生成的相同大小的feature map合并。融合后,對每個融合結果進行3*3卷積以消除上采樣的混疊效應。值得注意的是,F(xiàn)PN應該嵌入到RPN網(wǎng)絡中,以生成不同的尺度特征并整合為RPN網(wǎng)絡的輸入。最終,引入FPN后的mAP可達到0.528。

    Deformable Convolution Networks

    百度視覺團隊采用可變形卷積神經(jīng)網(wǎng)絡增強了CNNs的建模能力??勺冃尉矸e網(wǎng)絡的思想是在不需要額外監(jiān)督的情況下,通過對目標任務的學習,在空間采樣點上增加額外的偏移量模塊。同時將可變形卷積網(wǎng)絡應用于以ResNet101作為骨架網(wǎng)絡的Faster R-CNN架構,并在ResNet101的res5a、5b、5c層之后應用可變形卷積層,并將ROI Pooling層改進為可變形位置敏感ROI Pooling層??勺冃尉矸e網(wǎng)絡的mAP性能為0.552。

    Cascade R-CNN

    比賽中,百度視覺團隊使用級聯(lián)的R-CNN來訓練檢測模型。除訓練基本模型外,還使用包含五個尺度特征金字塔網(wǎng)絡(FPN)和3個尺度anchors的RPN網(wǎng)絡。此外,他們還訓練了一個針對全類模型中表現(xiàn)最差的150類的小類模型,并對這150類的模型分別進行評估。得出的結論是,500類模型的MAP為0.477,而用150類單模型訓練結果替換500類的后150類的結果,則模型的MAP提升為0.498。使用以上方法進行訓練的單尺度模型的性能為0.573。

    Testing Tricks

    在后處理階段,百度視覺團隊使用了Soft NMS和多尺度測試的方法。用Soft NMS的方法代替NMS后,在不同模型上有0.5-1.3點的改進,而Multi-Scale Testing在不同模型上則有0.6-2個點的提升。

    模型融合

    對于每個模型,百度視覺團隊在NMS后預測邊界框。來自不同模型的預測框則使用一個改進版的NMS進行合并,具體如下:

    ·給每個模型一個0~1之間的標量權重。所有的權重總和為1;

    ·從每個模型得到邊界框的置信分數(shù)乘以它對應的權重;

    ·合并從所有模型得到的預測框并使用NMS,除此之外百度采用不同模型的分數(shù)疊加的方式代替只保留最高分模型,在這個步驟中IOU閾值為0.5。

    其實,不論是在學術圈還是工業(yè)界,大規(guī)模目標檢測都是計算機視覺極為重要的基礎技術。通過這一技術,軟硬件應用產(chǎn)品可以深度定位圖片中的物體位置以及類別,并用于新零售、通用多物品識別等場景。百度視覺團隊從2013年起開始構建超大規(guī)模的圖像分類系統(tǒng),其中大部分訓練數(shù)據(jù)均通過互聯(lián)網(wǎng)搜索引擎獲取,目前已構建起包含10萬類Tag(標簽)、近億圖片的訓練系統(tǒng)。相關技術研發(fā)成果已成功應用于百度拍照搜索、Feed流、智能相冊、百度AR等多項核心產(chǎn)品中,并通過智能云開放廣泛應用于零售、視頻媒體、金融、醫(yī)療、交通運輸和營銷等眾多領域。

    視覺是百度大腦的核心能力之一。百度視覺團隊在計算機視覺領域曾首創(chuàng)了Pyramidbox、Ubiquitous Reweighting Network、Action Proposal Network、StNet和 Attention Clusters等算法,在識別人、識別物、捕捉關系三個技術領域均具備了業(yè)界最領先的技術積累。此外,百度還自主研發(fā)了兩款智能視覺AI硬件底層模組,包括紅外3D結構光模組BoteyeR及視覺智能AI相機模組Xeye,集成了包括人臉識別、物體識別、手勢識別等在內(nèi)的百度視覺技術,可用于新零售、安防、智能家居等場景。

    百度視覺團隊的技術不僅用于內(nèi)部產(chǎn)品,也通過百度AI開放平臺持續(xù)對外輸出,目前已對外開放了包括人臉識別、文字識別(OCR)、圖像審核、圖像識別、圖像搜索等在內(nèi)的5大類別58項基礎能力,為開發(fā)者和合作伙伴提供全棧式計算機視覺能力,讓他們將領先的AI能力轉換成讓復雜的世界更簡單的神奇力量,進而推動全行業(yè)、全社會的智能化變革。

    極客網(wǎng)企業(yè)會員

    免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

    2018-09-13
    最全技術剖析 百度視覺團隊“大戰(zhàn)”O(jiān)pen Images V4目標檢測數(shù)
    原標題:最全技術剖析 百度視覺團隊“大戰(zhàn)”O(jiān)pen Images V4目標檢測數(shù)眼睛是人類接觸外部世界的第一感官,對于機器而言,計算機視覺技術就是它們的“眼睛”。

    長按掃碼 閱讀全文