本文介紹十年來(lái)最佳圖像分類論文,來(lái)幫助你快速學(xué)習(xí)計(jì)算機(jī)視覺(jué)
前言計(jì)算機(jī)視覺(jué)是一門(mén)將圖像和視頻轉(zhuǎn)換成機(jī)器可理解信號(hào)的學(xué)科,有了這些信號(hào),程序員可以基于這種高階進(jìn)一步控制機(jī)器的行為。在計(jì)算機(jī)視覺(jué)任務(wù)中,圖像分類是最基本的任務(wù)之一,它不僅可以用于許多真實(shí)的產(chǎn)品,比如googlephoto的標(biāo)簽和AI內(nèi)容調(diào)節(jié),而且還是許多更高級(jí)的視覺(jué)任務(wù)奠定了基礎(chǔ),比如目標(biāo)檢測(cè)和視頻理解。自從深度學(xué)習(xí)技術(shù)爆發(fā)以來(lái),由于該領(lǐng)域的快速變化,初學(xué)者往往會(huì)覺(jué)得學(xué)習(xí)起來(lái)太困難,與典型的軟件工程學(xué)科不同,使用DCNN進(jìn)行圖像分類的好書(shū)并不多,理解這一領(lǐng)域的最好方法是閱讀學(xué)術(shù)論文。
但讀什么論文呢?我從哪里開(kāi)始讀起呢?在本篇文章中,我將為初學(xué)者介紹10篇最佳論文。通過(guò)這些論文,我們可以看到這一領(lǐng)域是如何發(fā)展的,以及研究人員是如何根據(jù)先前的研究成果提出新的想法的,即使你已經(jīng)在這個(gè)領(lǐng)域工作了一段時(shí)間,但它仍然有助于你理清脈絡(luò)。那么,讓我們開(kāi)始吧。1998年:LeNet深度學(xué)習(xí)在文檔識(shí)別中的應(yīng)用
LeNet于1998年推出,為未來(lái)使用卷積神經(jīng)網(wǎng)絡(luò)的圖像分類研究奠定了基礎(chǔ)。許多經(jīng)典的CNN技術(shù)(例如池化層,全連接層,填充和激活層)被該模型用來(lái)提取特征并進(jìn)行分類,借助均方誤差損失函數(shù)和20個(gè)訓(xùn)練周期,在MNIST測(cè)試集上的準(zhǔn)確率達(dá)到99.05%。即使在20年后,許多最先進(jìn)的分類網(wǎng)絡(luò)仍然大體上遵循這種模式。2012年:AlexNet深度卷積神經(jīng)網(wǎng)絡(luò)的ImageNet分類
盡管LeNet取得了巨大的成就,顯示了CNN的潛力,但由于計(jì)算能力和數(shù)據(jù)量有限,該領(lǐng)域的發(fā)展停滯了10年。CNN似乎只能解決一些簡(jiǎn)單的任務(wù),如數(shù)字識(shí)別,但是對(duì)于更復(fù)雜的特征(如人臉和物體),帶有SVM分類器的HarrCascade或SIFT特征提取器是更可取的方法。然而,在2012年ImageNet大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽中,Alex Krizhevsky提出了一種基于CNN的解決方案,并將ImageNet測(cè)試集top-5的準(zhǔn)確率從73.8%大幅提高到84.7%。他們的方法繼承了LeNet的多層CNN思想,但大大增加了CNN的規(guī)模。從上圖中可以看出,與LeNet的32x32相比,AlexNet的輸入為224x224,LeNet卷積核有6個(gè)通道,但AlexNet的有192個(gè)通道。雖然設(shè)計(jì)沒(méi)有太大的變化,但隨著參數(shù)的增加,網(wǎng)絡(luò)捕捉和表示復(fù)雜特征的能力也提高了數(shù)百倍。
為了訓(xùn)練一個(gè)大模型,亞歷克斯使用了兩個(gè)GTX580GPU,每個(gè)GPU有3GB的內(nèi)存,這開(kāi)創(chuàng)了GPU訓(xùn)練的潮流,此外,ReLU非線性函數(shù)的使用也有助于降低計(jì)算成本。除了為網(wǎng)絡(luò)帶來(lái)更多的參數(shù)外,它還探討了一個(gè)大網(wǎng)絡(luò)使用一個(gè)Dropout層帶來(lái)的過(guò)擬合問(wèn)題。雖然它的局部響應(yīng)規(guī)范化方法在后來(lái)并沒(méi)有得到太多的普及,但是啟發(fā)了其他重要的規(guī)范化技術(shù),如 BatchNorm 被用來(lái)解決梯度飽和問(wèn)題。總之,AlexNet定義了未來(lái)10年的分類網(wǎng)絡(luò)框架:卷積、ReLu非線性激活、MaxPooling和全連接層的組合。2014年:VGG用于大型圖像識(shí)別的超深度卷積網(wǎng)絡(luò)
利用CNN進(jìn)行視覺(jué)識(shí)別取得了巨大成功,整個(gè)研究界都大吃一驚,所有人都開(kāi)始研究為什么這種神經(jīng)網(wǎng)絡(luò)能夠如此出色地工作,例如在2013年發(fā)表的“可視化和理解卷積網(wǎng)絡(luò)”中,馬修·齊勒(Matthew Zeiler)討論了CNN如何獲取特征并可視化中間表示,突然之間,每個(gè)人都開(kāi)始意識(shí)到CNN在2014年將成為計(jì)算機(jī)視覺(jué)的未來(lái)。在所有直接關(guān)注者中,Visual Geometry Group的VGG網(wǎng)絡(luò)是最吸引眼球的網(wǎng)絡(luò),在ImageNet測(cè)試集上,top-5的準(zhǔn)確度達(dá)到93.2%,top-1的準(zhǔn)確度達(dá)到了76.3%。
遵循AlexNet的設(shè)計(jì),VGG網(wǎng)絡(luò)有兩個(gè)主要更新:1)VGG不僅使用了像AlexNet這樣更廣泛的網(wǎng)絡(luò),而且使用了更深的網(wǎng)絡(luò),VGG-19具有19個(gè)卷積層,而AlexNet中只有5個(gè)。2)VGG還展示了一些小的3x3卷積濾波器可以代替AlexNet的單個(gè)7x7甚至11x11濾波器,在降低計(jì)算成本的同時(shí)實(shí)現(xiàn)更好的性能。由于這種優(yōu)雅的設(shè)計(jì),VGG也成為了其他計(jì)算機(jī)視覺(jué)任務(wù)中許多開(kāi)拓性網(wǎng)絡(luò)的骨干網(wǎng)絡(luò),例如用于語(yǔ)義分割的FCN和用于對(duì)象檢測(cè)的Faster R-CNN。隨著網(wǎng)絡(luò)的層數(shù)越來(lái)越大,從多層反向傳播中消失梯問(wèn)題成為一個(gè)更大的問(wèn)題,該問(wèn)題限制了研究人員繼續(xù)添加更多的網(wǎng)絡(luò)層,因?yàn)樘畹木W(wǎng)絡(luò)層數(shù)會(huì)造成網(wǎng)絡(luò)很難擬合。為了解決這個(gè)問(wèn)題,VGG還討論了預(yù)訓(xùn)練和權(quán)重初始化的重要性,但是兩年后,學(xué)術(shù)界為此找到更好的解決方案。2014年:GoogLeNet探索卷積
VGG外形美觀,結(jié)構(gòu)簡(jiǎn)單易懂,但在ImageNet 2014年的所有決賽中,它的表現(xiàn)并不是最好的。GoogLeNet,又名InceptionV1,贏得了最后的獎(jiǎng)項(xiàng)。與VGG一樣,GoogLeNet的主要貢獻(xiàn)之一就是通過(guò)22層結(jié)構(gòu)來(lái)推動(dòng)網(wǎng)絡(luò)深度的極限,這再次證明,向更深更廣的方向發(fā)展確實(shí)是提高準(zhǔn)確性的正確方向。與VGG不同的是,GoogLeNet試圖正面解決計(jì)算和梯度遞減問(wèn)題,而不是提出一種具有更好的預(yù)訓(xùn)練模式和權(quán)重初始化的解決方案。
首先,它通過(guò)使用一個(gè)名為Inception的模塊探索了非對(duì)稱網(wǎng)絡(luò)設(shè)計(jì)的思想(見(jiàn)上圖)。理想情況下,他們希望通過(guò)稀疏卷積或密集層來(lái)提高特性效率,但現(xiàn)代硬件設(shè)計(jì)并不是針對(duì)這種情況而定制的,因此他們認(rèn)為網(wǎng)絡(luò)拓?fù)浼?jí)別的稀疏性也有助于功能的融合,同時(shí)有利于利用現(xiàn)有的硬件功能。其次,它借鑒了《網(wǎng)絡(luò)中的網(wǎng)絡(luò)》(Network in Network)一文的思想,解決了計(jì)算量大的問(wèn)題。1x1卷積濾波器被引入,以在通過(guò)像5x5卷積內(nèi)核這樣的繁重計(jì)算操作之前減少特征的維數(shù),這種結(jié)構(gòu)后來(lái)被稱為“瓶頸”,在許多后續(xù)網(wǎng)絡(luò)中得到了廣泛的應(yīng)用,同時(shí)它還使用了平均池層來(lái)代替最終的全連接層,以進(jìn)一步降低成本。第三,為了幫助梯度流到更深的層,GoogLeNet還對(duì)一些中間層輸出或輔助輸出使用了監(jiān)控。由于其復(fù)雜性,這種設(shè)計(jì)在以后的圖像分類網(wǎng)絡(luò)中并不是很流行,而是在計(jì)算機(jī)視覺(jué)的其他領(lǐng)域如沙漏網(wǎng)絡(luò)的姿態(tài)估計(jì)中得到了廣泛的應(yīng)用。作為后續(xù)工作,谷歌團(tuán)隊(duì)為Inception系列撰寫(xiě)了一系列的論文。
InceptionV2:“批量標(biāo)準(zhǔn)化:通過(guò)減少內(nèi)部協(xié)變量的變化來(lái)加速深度網(wǎng)絡(luò)訓(xùn)練”2015年的InceptionV3:“重新思考計(jì)算機(jī)視覺(jué)的初始架構(gòu)”2015年的InceptionV4:“Inception-v4,Inception ResNet和殘余連接對(duì)學(xué)習(xí)的影響”每一篇論文都在原有的初始網(wǎng)絡(luò)基礎(chǔ)上進(jìn)行了更多的改進(jìn),取得了較好的效果。2015年:批量標(biāo)準(zhǔn)化批量標(biāo)準(zhǔn)化:通過(guò)減少內(nèi)部協(xié)變量的變化來(lái)加速深度網(wǎng)絡(luò)的訓(xùn)練Inception網(wǎng)絡(luò)幫助研究人員在ImageNet數(shù)據(jù)集上達(dá)到了超人般的精確度,然而CNN作為一種統(tǒng)計(jì)學(xué)習(xí)方法,受到特定訓(xùn)練數(shù)據(jù)集統(tǒng)計(jì)性質(zhì)的限制。因此,為了獲得更好的準(zhǔn)確性,我們通常需要預(yù)先計(jì)算整個(gè)數(shù)據(jù)集的平均值和標(biāo)準(zhǔn)差,然后使用它們來(lái)規(guī)范化我們的輸入,以確保網(wǎng)絡(luò)中的大多數(shù)層輸入是接近的,這意味著更好的激活響應(yīng)性。這種近似方法非常麻煩,有時(shí)對(duì)于新的網(wǎng)絡(luò)結(jié)構(gòu)或新的數(shù)據(jù)集根本不起作用,因此深度學(xué)習(xí)模型仍然被視為難以訓(xùn)練。為了解決這個(gè)問(wèn)題,Sergey Ioffe和創(chuàng)建GoogLeNet的Chritian Szegedy決定發(fā)明一種更聰明的方法,稱為批處理規(guī)范化。
批處理規(guī)范化的思想并不難:只要訓(xùn)練足夠長(zhǎng)的時(shí)間,我們就可以使用一系列小批量的統(tǒng)計(jì)數(shù)據(jù)來(lái)近似整個(gè)數(shù)據(jù)集的統(tǒng)計(jì)信息,此外我們可以引入兩個(gè)更可學(xué)習(xí)的參數(shù)“scale”和“shift”,而不是手動(dòng)計(jì)算統(tǒng)計(jì)數(shù)據(jù),這可以讓網(wǎng)絡(luò)學(xué)習(xí)如何自己規(guī)范每一層。上圖顯示了計(jì)算批次標(biāo)準(zhǔn)化值的過(guò)程。如我們所見(jiàn),我們?nèi)≌麄€(gè)小批量的平均值并計(jì)算方差,接下來(lái),我們可以用這個(gè)小批量的均值和方差來(lái)規(guī)范化輸入,最后通過(guò)一個(gè)尺度和一個(gè)移位參數(shù),網(wǎng)絡(luò)將學(xué)習(xí)如何調(diào)整批量標(biāo)準(zhǔn)化結(jié)果,以最適合以下層(通常是ReLU)。
有一點(diǎn)需要注意的是,我們?cè)谕评磉^(guò)程中沒(méi)有小批量信息,所以解決方法是在訓(xùn)練期間計(jì)算移動(dòng)平均值和方差,然后在推理路徑中使用這些移動(dòng)平均值,這個(gè)小小的創(chuàng)新是如此的有影響力,所有后來(lái)的網(wǎng)絡(luò)都馬上開(kāi)始使用它。2015: ResNet深度殘差學(xué)習(xí)用于圖像識(shí)別2015年可能是十年來(lái)計(jì)算機(jī)視覺(jué)發(fā)展最好的一年,我們看到了很多偉大的想法,不僅在圖像分類方面,而且在各種各樣的計(jì)算機(jī)視覺(jué)任務(wù)(如對(duì)象檢測(cè),語(yǔ)義分割等)中都應(yīng)運(yùn)而生。2015年誕生了一個(gè)新的網(wǎng)絡(luò),稱為ResNet,或稱為殘差網(wǎng)絡(luò),該網(wǎng)絡(luò)由Microsoft Research Asia的一組中國(guó)研究人員提出。
正如我們?cè)谇懊嬗懻摰腣GG網(wǎng)絡(luò),進(jìn)一步深入的最大障礙是梯度消失問(wèn)題,也就是說(shuō),當(dāng)反向傳播到更深的層時(shí),導(dǎo)數(shù)變得越來(lái)越小,最終達(dá)到現(xiàn)代計(jì)算機(jī)體系結(jié)構(gòu)無(wú)法真正有意義地表示的程度。GoogLeNet試圖通過(guò)使用輔助監(jiān)督和非對(duì)稱初始模塊來(lái)解決這一問(wèn)題,但它只在一定程度上緩解了這個(gè)問(wèn)題。如果我們想用50層甚至100層,有沒(méi)有更好的方法讓漸變流通過(guò)網(wǎng)絡(luò)?ResNet的答案是使用殘差模塊。
ResNet為輸出添加了一個(gè)Identity輸入,每個(gè)殘差模塊不能預(yù)測(cè)輸入的是什么,從而不會(huì)迷失方向。更重要的是,殘差模塊不是希望每一層都直接適合所需的特征映射,而是嘗試學(xué)習(xí)輸出和輸入之間的差異,這使得任務(wù)更加容易,因?yàn)樗璧男畔⒃鲆孑^少。假設(shè)你正在學(xué)習(xí)數(shù)學(xué),對(duì)于每一個(gè)新的問(wèn)題,你都會(huì)得到一個(gè)類似問(wèn)題的解決方案,所以你需要做的就是擴(kuò)展這個(gè)解決方案,并努力使它發(fā)揮作用,這比為你遇到的每一個(gè)問(wèn)題想出一個(gè)全新的解決方案要容易得多?;蛘哒缗nD所說(shuō),我們可以站在巨人的肩膀上,Identity輸入就是殘差模塊的那個(gè)巨人。
除了Identity Mapping,ResNet還借用了Inception networks的瓶頸和批處理規(guī)范化,最終它成功地建立了一個(gè)有152個(gè)卷積層的網(wǎng)絡(luò),在ImageNet上達(dá)到了80.72%的最高精度。殘差法后來(lái)也成為了許多其他網(wǎng)絡(luò)的默認(rèn)選擇,如exception、Darknet等,并且由于其簡(jiǎn)潔美觀的設(shè)計(jì),在當(dāng)今許多生產(chǎn)性視覺(jué)識(shí)別系統(tǒng)中仍被廣泛應(yīng)用。
隨著殘差網(wǎng)絡(luò)的大肆宣傳,出現(xiàn)了許多的不變量。在《Identity Mappings in Deep Residual Networks》中,ResNet的原作者把激活放在殘差模塊之前,取得了更好的效果,這一設(shè)計(jì)后來(lái)被稱為ResNetV2。此外,在2016年的一篇論文“Aggregated Residual Transformations for Deep Neural Networks(聚合深度神經(jīng)網(wǎng)絡(luò)的殘差變換)”中,研究人員提出了ResNeXt,它為殘差模塊添加了并行分支,以聚合不同變換的輸出。2016年:XceptionXception:具有深度可分卷積的深度學(xué)習(xí)
隨著ResNet的發(fā)布,圖像分類器中的大多數(shù)容易實(shí)現(xiàn)的目標(biāo)看起來(lái)已經(jīng)被搶先實(shí)現(xiàn)了,研究人員開(kāi)始考慮研究CNN的內(nèi)部機(jī)制原理。由于跨通道卷積通常會(huì)引入大量參數(shù),因此Xception網(wǎng)絡(luò)選擇調(diào)查此操作以了解其效果的全貌。就像它的名字一樣,Xception源自Inception網(wǎng)絡(luò)。在Inception模塊中,將不同轉(zhuǎn)換的多個(gè)分支聚合在一起以實(shí)現(xiàn)拓?fù)湎∈栊?但是為什么這種稀疏起作用了?Xception的作者,也是Keras框架的作者,將這一思想擴(kuò)展到了一種極端情況,在這種情況下,一個(gè)3x3卷積對(duì)應(yīng)于最后一個(gè)串聯(lián)之前的一個(gè)輸出通道,在這種情況下,這些并行卷積核實(shí)際上形成了一個(gè)稱為深度卷積的新操作。
如上圖所示,與傳統(tǒng)的卷積不同,傳統(tǒng)的卷積方法只對(duì)每個(gè)通道分別計(jì)算卷積,然后將輸出串聯(lián)在一起,這減少了通道之間的特征交換,但也減少了許多連接,因此產(chǎn)生了一個(gè)參數(shù)較少的層,但是此操作將輸出與輸入相同數(shù)量的通道(如果將兩個(gè)或多個(gè)通道組合在一起,則輸出的通道數(shù)更少),因此,一旦信道輸出被合并,我們需要另一個(gè)常規(guī)的1x1濾波器,或點(diǎn)卷積,來(lái)增加或減少信道的數(shù)量,就像常規(guī)卷積一樣。這個(gè)想法早在一篇名為“Learning visual representations at scale(學(xué)習(xí)視覺(jué)表征的規(guī)模)”的論文中有描述,偶爾也會(huì)在InceptionV2中使用。
Exception更進(jìn)一步的用這種新類型取代了幾乎所有的卷積。模型實(shí)驗(yàn)結(jié)果很好,它超越了ResNet和InceptionV3,成為一種新的SOTA圖像分類方法,這也證明了CNN中的交叉相關(guān)和空間相關(guān)性的映射可以完全解耦,此外,Exception與ResNet有著相同的優(yōu)點(diǎn),它的設(shè)計(jì)也簡(jiǎn)單美觀,因此它的思想也被許多后續(xù)的研究所使用,如MobileNet、DeepLabV3等。2017年:MobileNetMobileNets:用于移動(dòng)視覺(jué)應(yīng)用的高效卷積神經(jīng)網(wǎng)絡(luò)Exception在ImageNet上獲得了79%的top-1準(zhǔn)確率和94.5%的top-5準(zhǔn)確率,但與之前的SOTA InceptionV3相比,這兩項(xiàng)改進(jìn)分別只有0.8%和0.4%。一種新的圖像分類網(wǎng)絡(luò)的邊際收益越來(lái)越小,因此研究者開(kāi)始將注意力轉(zhuǎn)移到其他領(lǐng)域。MobileNet在資源受限的環(huán)境中引領(lǐng)了圖像分類的重大進(jìn)展。
與Exception類似,MobileNet使用了上述的深度可分離卷積模塊,并強(qiáng)調(diào)了高效率和低參數(shù)。
上式中的分子是深度可分卷積所需的參數(shù)總數(shù),分母是相似正則卷積的參數(shù)總數(shù),這里D[K]是卷積核的大小,D[F]是特征映射的大小,M是輸入通道的數(shù)目,N是輸出通道的數(shù)目。由于我們將通道和空間特征的計(jì)算分開(kāi)了,所以我們可以將乘法轉(zhuǎn)化為加法,這是一個(gè)較小的數(shù)量級(jí),而且從這個(gè)比率可以看出,輸出通道的數(shù)目越大,使用這種新的卷積就可以節(jié)省更多的計(jì)算。MobileNet的另一個(gè)貢獻(xiàn)是寬度和分辨率乘數(shù)。MobileNet團(tuán)隊(duì)希望找到一種標(biāo)準(zhǔn)的方法來(lái)縮小移動(dòng)設(shè)備的模型尺寸,而最直觀的方法就是減少輸入和輸出通道的數(shù)量,以及輸入圖像的分辨率。為了控制這種行為,比率alpha與通道相乘,比率rho與輸入分辨率相乘(這也會(huì)影響特征映射的大小),因此參數(shù)總數(shù)可以用以下公式表示:
盡管這一變化在創(chuàng)新方面看起來(lái)很幼稚,但它具有巨大的工程價(jià)值,因?yàn)檫@是研究人員首次總結(jié)出一種規(guī)范的方法來(lái)調(diào)整網(wǎng)絡(luò)以適應(yīng)不同的資源限制,同時(shí)它也總結(jié)了改進(jìn)神經(jīng)網(wǎng)絡(luò)的最終解決方案:更大分辨率的輸入導(dǎo)致更好的精度,更薄和低分辨率的輸入導(dǎo)致更差的精度。2018年和2019年晚些時(shí)候,MobiletNet團(tuán)隊(duì)還發(fā)布了MobileNetV2和MobileNetV3。在MobileNetV2中,使用了倒置殘差結(jié)構(gòu)。
在MobileNetV3中,它開(kāi)始使用神經(jīng)體系結(jié)構(gòu)搜索技術(shù)來(lái)搜索最佳架構(gòu)組合,我們將在下面介紹。2017年:NASNet學(xué)習(xí)可轉(zhuǎn)換的可伸縮圖像識(shí)別體系結(jié)構(gòu)就像資源受限環(huán)境下的圖像分類一樣,神經(jīng)架構(gòu)搜索是2017年左右出現(xiàn)的另一個(gè)領(lǐng)域。通過(guò)ResNet、Inception和exception,我們似乎達(dá)到了一個(gè)人類可以理解和設(shè)計(jì)的最佳網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),但是如果有一個(gè)更好、更復(fù)雜的組合遠(yuǎn)遠(yuǎn)超出人類的想象呢?
2016年,一篇名為“Neural Architecture Search with Reinforcement Learning(強(qiáng)化學(xué)習(xí)的神經(jīng)結(jié)構(gòu)搜索)”的論文提出了一種利用強(qiáng)化學(xué)習(xí)在預(yù)先定義的搜索空間內(nèi)搜索最優(yōu)組合的思想。強(qiáng)化學(xué)習(xí)是一種尋找最優(yōu)解的方法,具有明確的目標(biāo)和對(duì)搜索主體的獎(jiǎng)勵(lì),但是由于計(jì)算能力的限制,本文只討論了在一個(gè)小型CIFAR數(shù)據(jù)集上的應(yīng)用。
為了找到像ImageNet這樣的大型數(shù)據(jù)集的最佳結(jié)構(gòu),NASNet為ImageNet定制了一個(gè)搜索空間。希望設(shè)計(jì)一個(gè)特殊的搜索空間,使CIFAR上的搜索結(jié)果也能在ImageNet上正常運(yùn)行。
首先,NASNet假設(shè)在像ResNet和exception這樣的良好網(wǎng)絡(luò)中常見(jiàn)的手工制作的模塊在搜索時(shí)仍然有用,因此NASNet不再搜索隨機(jī)連接和操作,而是搜索這些模塊的組合,這些模塊已經(jīng)在ImageNet上被證明是有用的。其次,實(shí)際的搜索仍然是在分辨率為32x32的CIFAR數(shù)據(jù)集上執(zhí)行的,因此NASNet只搜索不受輸入大小影響的模塊。為了使第二點(diǎn)起作用,NASNet預(yù)定義了兩種類型的模塊模板:Reduction和Normal。與輸入相比,還原單元可以具有簡(jiǎn)化的特征映射,而對(duì)于正常單元,則是相同的。
盡管NASNet比人工設(shè)計(jì)網(wǎng)絡(luò)有更好的指標(biāo),但它也有一些缺點(diǎn),即搜索最優(yōu)結(jié)構(gòu)的成本非常高,只有像谷歌和Facebook這樣的大公司才能負(fù)擔(dān)得起,而且最終的結(jié)構(gòu)對(duì)人類來(lái)說(shuō)沒(méi)有太大意義,因此在生產(chǎn)環(huán)境中更難維護(hù)和改進(jìn)。
2018年晚些時(shí)候,“MnasNet:Platform-Aware Neural Architecture Search for Mobile”通過(guò)使用預(yù)定義的鏈?zhǔn)綁K結(jié)構(gòu)限制搜索步驟,進(jìn)一步擴(kuò)展了NASNet的思想,同時(shí)通過(guò)定義權(quán)重因子,mNASNet給出了一種在特定資源約束下更系統(tǒng)地搜索模型的方法,而不是僅僅基于FLOPs進(jìn)行評(píng)估。
2019年:效率網(wǎng)EfficientNet:對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型縮放的再思考2019年,CNN的監(jiān)督圖像分類似乎再也沒(méi)有令人興奮的想法了。網(wǎng)絡(luò)結(jié)構(gòu)的急劇變化通常只會(huì)提高一點(diǎn)點(diǎn)精度,更糟糕的是,當(dāng)同一個(gè)網(wǎng)絡(luò)應(yīng)用于不同的數(shù)據(jù)集和任務(wù)時(shí),先前聲稱的技巧似乎不起作用了,這就導(dǎo)致了對(duì)這些網(wǎng)絡(luò)的批評(píng),認(rèn)為這些改進(jìn)是否只是過(guò)度適應(yīng)了ImageNet數(shù)據(jù)集。另一方面,有一個(gè)技巧永遠(yuǎn)不會(huì)辜負(fù)我們的期望:使用更高分辨率的輸入,為卷積層添加更多通道,并添加更多層。雖然看上去簡(jiǎn)單粗暴,但似乎有一個(gè)原則性的方法來(lái)擴(kuò)大網(wǎng)絡(luò)的需求。MobileNetV1在2017年提出了這一點(diǎn),但后來(lái)重點(diǎn)轉(zhuǎn)移到了更好的網(wǎng)絡(luò)設(shè)計(jì)上。
在NASNet和mNASNet之后,研究人員意識(shí)到即使在計(jì)算機(jī)的幫助下,架構(gòu)的改變也不會(huì)帶來(lái)太多的好處,所以他們開(kāi)始退回到擴(kuò)大網(wǎng)絡(luò)的規(guī)模上,效率網(wǎng)就是建立在這個(gè)假設(shè)之上的。一方面,它使用從MNASNET的最佳構(gòu)建塊來(lái)確保開(kāi)始的良好基礎(chǔ)。另一方面,它定義了三個(gè)參數(shù)alpha、beta和rho來(lái)控制網(wǎng)絡(luò)的深度、寬度和分辨率,通過(guò)這樣做,即使沒(méi)有一個(gè)大的GPU池來(lái)搜索最佳結(jié)構(gòu),工程師仍然可以依賴這些原則性參數(shù)來(lái)根據(jù)他們的不同需求來(lái)調(diào)整網(wǎng)絡(luò)。
最后,EfficientNet給出了8種不同寬度、深度和分辨率的變體,在小型和大型模型上都取得了良好的性能,換言之,如果你想要高精度,就選擇600x600和66M參數(shù)的EfficientNet-B7,如果你想要低延遲和更小的型號(hào),請(qǐng)選擇224x224和5.3M參數(shù)的EfficientNet-B0。閱讀更多如果你讀完了以上10篇論文,那么你應(yīng)該對(duì)CNN的圖像分類的發(fā)展歷史有了一個(gè)相當(dāng)好的了解。
如果你想繼續(xù)學(xué)習(xí)這個(gè)領(lǐng)域,可以閱讀下面列出的一些其他有趣的論文,這些論文雖然不在前十名之列,但它們?cè)诟髯灶I(lǐng)域都很有名,并激勵(lì)了許多其他研究者的研究。
2014年:SPPNet用于視覺(jué)識(shí)別的深度卷積網(wǎng)絡(luò)中的空間金字塔池SPPNet從傳統(tǒng)的計(jì)算機(jī)視覺(jué)特征提取中借鑒了特征金字塔的思想,這種金字塔形成了一個(gè)具有不同尺度特征的詞包,可以適應(yīng)不同的輸入大小,擺脫了固定大小的全連接層。這個(gè)想法也進(jìn)一步啟發(fā)了DeepLab的ASPP模塊,以及用于目標(biāo)檢測(cè)的FPN。
2016年:DenseNet緊密連接的卷積網(wǎng)絡(luò)康奈爾大學(xué)的DenseNet進(jìn)一步擴(kuò)展了ResNet的思想,它不僅提供了層間的跳轉(zhuǎn)連接,而且還提供了所有前一層的跳轉(zhuǎn)連接。
2017年:SENetSqueeze-and-Excitation NetworksExcitation Networks表明,交叉信道相關(guān)性與空間相關(guān)性沒(méi)有太大關(guān)系,但是作為上一屆ImageNet競(jìng)賽的冠軍,SEnet設(shè)計(jì)了一個(gè)Squeeze和Excitation塊,并講述了另一個(gè)不同的看法。SE塊首先使用全局池將所有通道壓縮到較少的通道中,應(yīng)用全連接的變換,然后使用另一個(gè)全連接層將它們“激發(fā)”回原始通道數(shù)。從本質(zhì)上講,FC層幫助網(wǎng)絡(luò)學(xué)習(xí)輸入特征映射的注意信息。
2017年:ShuffleNetShuffleNet:一種用于移動(dòng)設(shè)備的高效卷積神經(jīng)網(wǎng)絡(luò)基于mobilenev2的倒置瓶頸模塊,ShuffleNet認(rèn)為深度可分離卷積中的逐點(diǎn)卷積犧牲了精度,以換取更少的計(jì)算量。為了彌補(bǔ)這一點(diǎn),ShuffleNet增加了一個(gè)額外的通道Shuffle操作,以確保逐點(diǎn)卷積不會(huì)總是應(yīng)用于同一個(gè)“點(diǎn)”。而在ShuffleNetV2中,這種通道Shuffle機(jī)制也進(jìn)一步擴(kuò)展到ResNet的Identity輸入分支,因此Identity輸入分支也會(huì)被用于Shuffle。
2018年:Bag of Tricks卷積神經(jīng)網(wǎng)絡(luò)在圖像分類中的應(yīng)用Bag of Tricks主要介紹了圖像分類領(lǐng)域中常用的技巧。當(dāng)工程師需要提高基準(zhǔn)性能時(shí),它可以作為一個(gè)很好的參考。這些技巧,如混合增強(qiáng)和余弦學(xué)習(xí)率,有時(shí)比一個(gè)新的網(wǎng)絡(luò)架構(gòu)能取得更好的改善。
結(jié)論隨著EfficientNet的發(fā)布,ImageNet分類基準(zhǔn)測(cè)試似乎走到了盡頭。在現(xiàn)有的深度學(xué)習(xí)方法下,除非發(fā)生另一種范式轉(zhuǎn)換,否則我們永遠(yuǎn)不會(huì)有一天在ImageNet上達(dá)到99.999%的準(zhǔn)確率,因此,研究者們正積極研究一些新的領(lǐng)域,如用于大規(guī)模視覺(jué)識(shí)別的自監(jiān)督或半監(jiān)督學(xué)習(xí),同時(shí)在現(xiàn)有的方法下,工程師和企業(yè)家面臨的更大問(wèn)題是如何找到這種不完美的技術(shù)在現(xiàn)實(shí)世界中的應(yīng)用。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )