精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    谷歌公布新研究BiT探索大規(guī)模數(shù)據(jù)如何影響預(yù)訓(xùn)練模型性能

    計算機視覺的研究人員在利用現(xiàn)代深度神經(jīng)網(wǎng)絡(luò)解決問題時常常會無奈地感受到其對數(shù)據(jù)的龐大需求,當(dāng)前很多先進的CNN模型都需要在像OpenImages和Places這樣包含上百萬張標(biāo)注圖片的數(shù)據(jù)集上進行訓(xùn)練。然而對于很多領(lǐng)域的應(yīng)用來說,收集如此海量的數(shù)據(jù)其時間和經(jīng)濟成本幾乎是常人無法承受的。

    為了解決計算機視覺領(lǐng)域缺乏數(shù)據(jù)的問題,人們提出了預(yù)訓(xùn)練模型的遷移學(xué)習(xí)方法,通過在大規(guī)模的通用數(shù)據(jù)上進行預(yù)訓(xùn)練而后再復(fù)用到目標(biāo)任務(wù)上,用少量數(shù)據(jù)對模型進行適應(yīng)性調(diào)優(yōu)。盡管預(yù)訓(xùn)練模型在實踐中十分有效,但它仍不足以迅速地在新場景下掌握概念并進行深入的理解,在工程實踐中還面臨著一系列問題。由于大規(guī)模的預(yù)訓(xùn)練使得BERT和T5等方法在語言領(lǐng)域取得了巨大的進展,研究人員堅信大規(guī)模的預(yù)訓(xùn)練可以有效提升計算機視覺任務(wù)的性能。

    為了充分研究大規(guī)模預(yù)訓(xùn)練和遷移學(xué)習(xí)的內(nèi)在機理和規(guī)律,來自谷歌的研究人員發(fā)表了一篇名為BigTransfer的論文,探索了如何有效利用超常規(guī)的圖像數(shù)據(jù)規(guī)模來對模型進行預(yù)訓(xùn)練,并對訓(xùn)練過程進行的系統(tǒng)深入的研究。研究人員發(fā)現(xiàn),隨著預(yù)訓(xùn)練數(shù)據(jù)的增加,恰當(dāng)?shù)剡x擇歸一化層、拓展模型架構(gòu)的容量對于預(yù)訓(xùn)練的結(jié)果至關(guān)重要。

    在有效的調(diào)整和訓(xùn)練后,這種方法展示了多個領(lǐng)域的視覺任務(wù)上展現(xiàn)了前所未有的適應(yīng)性和先進的性能,包括小樣本是識別任務(wù)和最近提出的真實數(shù)據(jù)基準(zhǔn)ObjectNet上都取得了非常優(yōu)異的成績。

    預(yù)訓(xùn)練

    為了探索數(shù)據(jù)規(guī)模對于模型性能的影響,研究人員重新審視了目前常用的預(yù)訓(xùn)練配置(包括激活函數(shù)和權(quán)重的歸一化,模型的寬度和深度以及訓(xùn)練策略),同時利用了三個不同規(guī)模的數(shù)據(jù)集包括:ILSVRC-2012 (1000類128萬張圖像), ImageNet-21k (2.1萬類的1400萬張圖像) 和 JFT (1.8萬類的三億張圖像),更重要的是基于這些數(shù)據(jù)研究人員可以探索先前未曾涉足的數(shù)據(jù)規(guī)模。

    研究人員首先探索了數(shù)據(jù)集規(guī)模和模型容量間的關(guān)系,選擇了ResNet不同的變體進行訓(xùn)練。從標(biāo)準(zhǔn)大小的“R50x1”到x4倍寬度的,再到更深度152層“R152x4”,都在上面的數(shù)據(jù)集上進行了訓(xùn)練。隨后研究人員獲得了關(guān)鍵的發(fā)現(xiàn),如果想要充分利用大數(shù)據(jù)的優(yōu)勢,就必須同時增加模型的容量。

    下圖左半部分箭頭開頭的擴大顯示了這一結(jié)論,數(shù)據(jù)量增大的情況下容量更大的模型性能增加更大,而容量小的模型反而會有一定程度地下降。

    左半部分顯示了隨著數(shù)據(jù)量的增加需要擴充模型的容量,紅色箭頭的擴大意味著小模型架構(gòu)在大數(shù)據(jù)集下變差,而大模型架構(gòu)則得到改善。右圖顯示了在大數(shù)據(jù)集下的預(yù)訓(xùn)練并不一定改善,而是需要提高訓(xùn)練時間和計算開銷來充分利用大數(shù)據(jù)的優(yōu)勢。

    其次,訓(xùn)練的時間對模型性能也具有關(guān)鍵的作用。如果在大規(guī)模數(shù)據(jù)集上沒有進行充分地訓(xùn)練調(diào)整計算開銷的話,性能會有顯著下降(上圖中有半部分紅色點到藍(lán)色點下降),但通過適當(dāng)?shù)卣{(diào)整模型訓(xùn)練時間就能得到顯著的性能提升。在探索的過程中研究人員還發(fā)現(xiàn)了適當(dāng)?shù)臍w一化可以有效提升性能。下圖中展示了將批歸一化BN替換為組歸一化GN后可以有效提升預(yù)訓(xùn)練模型在大規(guī)模數(shù)據(jù)集上的性能,其原因主要來源于兩個方面。

    首先在從預(yù)訓(xùn)練遷移到目標(biāo)任務(wù)時BN的狀態(tài)需要進行調(diào)整,而GN卻是無狀態(tài)的從而避開了需要調(diào)整的困難;其次,BN利用每一批次的統(tǒng)計信息,但這對于每個設(shè)備上的小批量來說這種統(tǒng)計信息會變得不可靠,而對于大型模型來說多設(shè)備上的訓(xùn)練不可避免。由于GN不需要計算每個批次的統(tǒng)計信息,又一次成功避開了這一問題。

    圖中展示了預(yù)訓(xùn)練策略,在標(biāo)準(zhǔn)ResNet基礎(chǔ)上增加寬度和深度,將BN替換為GN和權(quán)重標(biāo)準(zhǔn)化,并在非常大規(guī)模數(shù)據(jù)集上訓(xùn)練更長的時間。

    12下一頁>

    (免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
    任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

    贊助商
    2020-05-28
    谷歌公布新研究BiT探索大規(guī)模數(shù)據(jù)如何影響預(yù)訓(xùn)練模型性能
    計算機視覺的研究人員在利用現(xiàn)代深度神經(jīng)網(wǎng)絡(luò)解決問題時常常會無奈地感受到其對數(shù)據(jù)的龐大需求,當(dāng)前很多先進的CNN模型都需要在像OpenImages和Places這樣包含上百萬張標(biāo)注圖片的數(shù)據(jù)集上進行訓(xùn)練

    長按掃碼 閱讀全文