日前,蘋果發(fā)布了其首份關于人工智能(AI)的學術論文——“通過對抗網(wǎng)絡使用模擬和非監(jiān)督圖像訓練”(Learning from Simulated and Unsupervised Images through Adversarial Training),其中主要描述了在計算機視覺系統(tǒng)中提高圖像識別的方法,而這或許也標志著蘋果公司研究的新方向。
下面就是這篇報告的全文:
摘要
隨著圖形技術不斷進步,利用合成圖像訓練機器學習模型變得越來越容易,這可以幫助避免注釋圖像的昂貴支出。然而,通過合成圖像訓練機器學習模型可能無法達到令人滿意的效果,因為合成圖像與真實圖像之間畢竟存在區(qū)別。為了減少這種差異,我們提出“模擬+無監(jiān)督”學習方法,即通過計算機生成圖像或合成圖像來訓練算法的圖像識別能力。
事實上,這種“模擬+無監(jiān)督”學習需要將無標注的真實圖像數(shù)據(jù)與已經注釋的合成圖像相結合。在很大程度上,它需要依賴生成式對抗網(wǎng)絡(GAN)的新機器學習技術,它可通過兩個神經網(wǎng)絡相互對抗以生成更加真實的圖像。我們對標準GAN算法進行了多處關鍵性修改,以保留注釋、避免偽影以及穩(wěn)定性訓練:自正則化(self-regularization)-局部對抗性損失-使用精煉圖像升級鑒別器。
我們發(fā)現(xiàn),這個過程可以產生高度逼真的圖像,在質量上和用戶研究方面都已經獲得證實。我們已經通過訓練模型評估視線水平和手勢姿態(tài),對計算機生成圖像進行定量評估。通過使用合成圖像,我們的圖像識別算法已經取得了巨大進步。在沒有使用任何標準真實數(shù)據(jù)的情況下,我們在MPIIGaze數(shù)據(jù)集中獲得了最高水平的結果。
引言
隨著最近高容量深度神經學習網(wǎng)絡的崛起,大規(guī)模標注訓練數(shù)據(jù)集正變得日益重要??墒牵瑯藴蕯?shù)量龐大的數(shù)據(jù)集成本非常高,而且相當耗費時間。為此,使用合成圖像而非真實圖像訓練算法的想法開始出現(xiàn),因為注釋已經可實現(xiàn)自動化。利用XBOX360外設Kinect評估人體姿勢以及其他任務,都是使用合成數(shù)據(jù)完成的。
(圖1:“模擬+無監(jiān)督”學習:通過計算機生成圖像或合成圖像來訓練算法的圖像識別能力)
然而,由于合成圖像與真實圖像之間存在差距,使用合成圖像訓練算法可能產生很多問題。因為合成圖像通常不夠真實,導致神經網(wǎng)絡學習僅僅能夠了解到合成圖像中的細節(jié),并不能完整地識別出真實圖像,進而也無法為算法提供精確的學習。一種解決方案就是改進模擬器,可是增加真實性的計算往往非常昂貴,渲染器的設計也更加困難。此外,即使最頂級的渲染器可能也無法模仿真實圖像中的所有特征。因此,缺少真實性可能導致算法過度擬合合成圖像中不真實的細節(jié)。
在這篇論文中,我們提出“模擬+無監(jiān)督”學習的方法,其目的就是使用未標注真實數(shù)據(jù)的模擬器提高合成圖像的真實性。提高真實性可更好地幫助訓練機器學習模型,而且無需收集任何數(shù)據(jù),也無需人類繼續(xù)標注圖像。除了增加真實性,“模擬+無監(jiān)督”學習還應該保留注釋信息以用于訓練機器學習模型,比如圖一中的注視方向應被保留下來。此外,由于機器學習模型對合成數(shù)據(jù)中的偽影非常敏感,“模擬+無監(jiān)督”學習也應該產生沒有偽影的圖像。
我們?yōu)?ldquo;模擬+無監(jiān)督”學習開發(fā)出新的方法,我們稱之為SimGAN,它可以利用我們稱之為“精煉器網(wǎng)絡(refiner network)”的神經網(wǎng)絡從模擬器中提煉合成圖像。圖二中展示了這種方法的概述:第一,黑盒子模擬器中生成合成圖像,然后利用“精煉器網(wǎng)絡”對其進行提煉。為了增加真實性,也就是“模擬+無監(jiān)督”學習算法的首要需求,我們需要利用類似生成式對抗網(wǎng)絡(GAN)來訓練“精煉器網(wǎng)絡”,進而產生判別網(wǎng)絡無法區(qū)分真假的精煉圖像。
第二,為了保留合成圖像上的注釋信息,我們需要利用“自正則化損失”彌補對抗性損失,在合成圖像和精煉圖像之間進行修改。此外,我們還利用完全卷積神經網(wǎng)絡,在像素水平方面進行操作,并保留全局結構,而非整體修改圖像的內容。
第三,GAN框架要求訓練2個神經網(wǎng)絡進行對抗,它們的目標往往不夠穩(wěn)定,傾向于產生偽影。為了避免漂移和產生更強的偽影,導致甄別更困難,我們需要限定鑒別器的接收區(qū)域為局部接收,而非整張圖片接收,這導致每張圖像都會產生多個局部對抗性損失。此外,我們還引入提高訓練穩(wěn)定性的方法,即通過使用精煉圖像而非當前“精煉器網(wǎng)絡”中的現(xiàn)有圖像升級鑒別器。
1.1相關工作
GAN框架需要2個神經網(wǎng)絡競爭損失,即生成器與鑒別器。其中,生成器網(wǎng)絡的目標是在真實圖像上繪制隨機向量,而鑒別器網(wǎng)絡的目標則是區(qū)分生成圖像與真實圖像。GAN網(wǎng)絡是由古德弗羅(I. Goodfellow)等人首先引入的,它可以幫助生成逼真的視覺圖像。自從那以來,GAN已經有了許多改進,并被投入到有趣的應用中。
(圖2:SimGAN概觀:我們利用“精煉器網(wǎng)絡”提煉模擬器產生的輸出圖像,并最大限度地減少局部對抗性損失,并進行自正則化。
對抗性損失可以欺騙鑒別器網(wǎng)絡,從而令其將合成圖像誤認為真實圖像。而自正則化則會最大限度減少合成圖像與真實圖像的差異,包括保留注釋信息,并讓精煉圖像被用于訓練機器學習模型。“精煉器網(wǎng)絡”與鑒別器網(wǎng)絡也會交替升級。)
王(X. Wang)與古普塔(A. Gupta)利用結構化GAN學習表面法線,然后將其與Style GAN相結合,以生成天然的室內場景。我們提議使用對抗性訓練進行遞歸生成模型(recurrent generative model)訓練。此外,最近推出的iGAN能夠幫助用戶以交互模式改變圖像。劉(M.-Y. Liu)等人開發(fā)的CoGAN結合GAN可多模態(tài)聯(lián)合分布圖像,無需要求應對圖像的元組,這有利于開發(fā)出聯(lián)合發(fā)布解決方案。而陳(X. Chen)等人開發(fā)的InfoGAN是GAN信息理論的擴展,允許有意義的陳述學習。
恩杰爾·圖澤爾(Oncel Tuzel)等人利用GAN解決人臉圖像超高分辨率問題。李(C. Li)和王(M. Wand)提議Markovian GAN進行有效的紋理合成。洛特爾(W. Lotter)等人在LSTM網(wǎng)絡中利用對抗性損失進行視覺序列預測。于(L. Yu)等人提議SeqGAN框架,利用GAN強化學習。許多近來的問題都顯示出與生成模型領域相關的問題,比如PixelRNN可利用RNN的softmax損失預測像素順序。生成網(wǎng)絡側重于使用隨機噪聲矢量生成圖像,與我們的模型相比,其生成的圖像沒有任何標注信息,因此也無法用于訓練機器學習模型。
許多努力都在探索使用合成數(shù)據(jù)進行各種預測任務,包括視線評估、RGB圖像文本檢測與分類、字體識別、對象檢測、深度圖像中手部姿態(tài)評估、RGB-D場景識別、城市場景語義分割以及人體姿態(tài)評估等。蓋伊登(A. Gaidon)等人的研究表明,利用合成數(shù)據(jù)訓練深度神經網(wǎng)絡,可以提高其表現(xiàn)。我們的工作是對這些方法的補充,我們使用未標記真實數(shù)據(jù)提高了模擬器的真實性。
嘉寧(Y. Ganin)與萊姆皮茨基(V. Lempitsky)在數(shù)據(jù)域適應設置中利用合成數(shù)據(jù),了解合成圖像與真實圖像域的變化過程中保持不變的特征。王(Z. Wang)等人利用合成和真實數(shù)據(jù)訓練層疊卷積碼自動編碼器,以便了解其字體檢測器ConvNet的低級表示形式。張(X. Zhang)等人學習多通道編碼,以便減少真實數(shù)據(jù)與合成數(shù)據(jù)的域的轉變。與經典域適應方法相反,它采用與特定的特征以便適應具體的預測任務,而我們可通過對抗性訓練,彌合圖像分布之間的差距。這種方法使我們能夠生成非常逼真的圖像,可以用于訓練任何機器學習模型,并執(zhí)行潛在的更多任務。
2“模擬+無監(jiān)督”學習
模擬+無監(jiān)督學習的目標是使用一組未標記的真實圖像yi ∈ Y,學習可提煉合成圖像X的refiner Rθ(x),其中θ屬于函數(shù)參數(shù)。讓我們用X?表示精煉圖像,然后會得出X?:θ= R(X)。在“模擬+無監(jiān)督”學習中,最關鍵的要求就是精煉圖像X?,以便于其看起來更像真實圖像,同時保留來自模擬器的注釋信息。為此,我們建議通過最大化減少兩個損失的組合來學習:
其中,xi是e ith合成訓練圖像,X是相應的精煉圖像。第一部分是真實性成本,即向合成圖像中增加真實性的成本。第二部分則代表著通過最小化合成圖像精煉圖像的差異保存注釋信息的成本。在下面的章節(jié)中,我們會展開這個公式,并提供優(yōu)化θ的算法。
2.1對抗性損失
為了向合成圖像中添加真實性,我們需要在合成圖形和真實圖像的分部之間建立起聯(lián)系。在理想情況下,精煉機可能無法將給定的圖像分類為真實圖像還是高度精煉圖像。這就需要使用對抗性的鑒頻器,網(wǎng)絡Dφ,它可訓練分辨圖像到底是真實圖像還是精煉圖像,而φ是鑒別器網(wǎng)絡參數(shù)。對抗性損失訓練refiner networkR,它負責欺騙D網(wǎng)絡,令其將精煉圖像誤認為是真實圖像。利用GAN方法,我們建造了2個神經網(wǎng)絡參與的極限博弈模型,并升級“精煉器網(wǎng)絡”Rθ和鑒別器網(wǎng)絡Dφ。接下來,我們更精確地描述這種模型。鑒別器網(wǎng)絡通過最大限度地減少以下?lián)p失來更新參數(shù):
這相當于兩級分類問題產生的交叉熵誤差,其中Dφ(.)輸入的是合成圖像,而1 ? Dφ(.)則是真實圖像。至此,我們實現(xiàn)了Dφ作為ConvNet的最后輸出層,樣本很可能是精煉圖像。為了訓練這個網(wǎng)絡,每個小批量隨機抽取的樣本都由精煉合成圖像和真實圖像組成。對于每個yj來說,交叉熵的目標標簽損耗層為0,而每個x?i都對應1。然后通過隨機梯度下降(SGD)方式,φ會隨著小批量梯度損失而升級。在我們的實踐中,真實性損失函數(shù)使用訓練有素的鑒別器網(wǎng)路D如下:
通過最小化減小損失函數(shù),“精煉器網(wǎng)絡”的力量促使鑒別器無法分辨出精煉圖像就是合成圖像。除了產生逼真的圖像外,“精煉器網(wǎng)絡”應該保存模擬器的注釋信息。舉例來說,用于評估視線的學習轉變不該改變凝視的方向,手部姿勢評估不應該改變肘部的位置。這是訓練機器學習模型使用配有模擬器注釋信息的精煉圖像的必要組成部分。為了實現(xiàn)這個目標,我們建議使用自正則化,它可以最大限度地減少合成圖像與精煉圖像之間的差異。
(算法1)
(圖3:局部對抗性損失的圖示。鑒別器網(wǎng)絡輸出wxh概率圖。對抗損失函數(shù)是局部塊上的交叉熵損失的總和。)
因此在我們的執(zhí)行中,整體精煉損失函數(shù)(1)為:
(4)在||.||1是L1常模時,我們將Rθ作為一個完全卷積的神經網(wǎng)絡,而無需躍進或池化。在像素級別上修改合成圖像,而不是整體地修改圖像內容。例如在完全連接地編碼器網(wǎng)絡中便會如此,保留全局結構合注釋。我們通過交替地最小化LR(θ) 和LD(φ)來學習精化器和鑒別器參數(shù)。在更新Rθ的參數(shù)時,我們保持φ固定不變,而在更新Dφ時,則要保持θ不變。我們在算法1中描述了整個訓練過程。
(圖4:使用精細圖像歷史示意圖。相關信息請參閱文本描述。)
2.2本地對抗損失
精煉網(wǎng)絡另一個關鍵要求是,它應該學習模擬實際圖像特性,而不引入任何偽影。當我們訓練強鑒別器網(wǎng)絡時,精煉網(wǎng)絡傾向于過度強調某些圖像特征以欺騙當前鑒別器網(wǎng)絡,導致偏差和產生偽影。關鍵是任何我們從精化圖像中采樣的本地補丁都應該具有與真實圖像相類似的統(tǒng)計。由此我們可以定制本地鑒別器網(wǎng)絡對本地圖像補丁進行分類,而不是定義全局鑒別器網(wǎng)絡。
這不僅限制了接受域,還因此限制了鑒別器器網(wǎng)絡的容量,并且為每個圖像提供更多樣本以供學習鑒別器網(wǎng)絡。同時由于每個圖像由多個實際損失值,它還改善了精煉網(wǎng)絡的訓練。
在我們的執(zhí)行中,我們將鑒別器器D設計成一個完全卷積網(wǎng)絡,輸出偽類w × h概率圖。在后者中w × h是圖像中本地補丁的數(shù)量。在訓練精煉網(wǎng)絡時,我們將w×h本地補丁的交叉熵損失值求和,如圖3所示。
2.3使用精化圖像的歷史記錄更新鑒別器器
對抗訓練的對抗訓練的另一個問題是鑒別器器網(wǎng)絡只關注最新的精細圖像。 這可能導致(i)與對抗訓練分歧,以及(ii)精煉網(wǎng)絡重新引入鑒別器已經忘記的工件。在整個訓練過程中的任何時間由精煉網(wǎng)絡生成的任何精細圖像對于鑒別器器來說都是偽造的圖像。因此,鑒別器應該有能力將這些圖像識別為假?;谶@一觀察,我們引入了一種方法,通過使用精細圖像的歷史來提高對抗訓練的穩(wěn)定性,而不僅僅是在當前小批次中小修小改。我們對算法1稍作改進,增加對先前網(wǎng)絡產生的精細圖像的緩沖。設B為此緩沖的大小,設b為算法1中使用的迷你批次大小。
(圖5:SimGAN輸出的圖像示例。左為MPIIGaze采集的實拍圖像,右為優(yōu)化后的UnityEye合成圖像。從圖中可以看出精細合成圖像中的皮膚紋理和虹膜區(qū)都更近似真實而非合成圖像。)
(圖6:帶有兩個nxn卷積層的ResNet塊,每個都都具有f特征圖。)
在鑒別器器訓練的每次迭代中,我們通過對來自當前精煉網(wǎng)絡的b/2圖像進行采樣,以及從緩沖區(qū)采集額外b/2圖像,從而更新參數(shù)φ。保持緩沖區(qū)B大小固定,在每次迭代之后,我們使用新產生的精細圖像隨機替換緩沖區(qū)中的b/2樣本。該過程在圖4中標示出。
3.實驗
我們使用MPIIGaze [40,43]上的外貌估計數(shù)據(jù)集和紐約大學的手勢數(shù)據(jù)集 [35]來評估我們的方法。我們在所有實驗中使用完全卷積的精煉網(wǎng)絡與ResNet塊(圖6)。
3.1基于外貌的注視估計
注視估計是許多人機交互(HCI)任務的關鍵因素。然而,直接由眼睛圖像進行估計是有挑戰(zhàn)性的,特別是在圖像質量不佳時。例如智能手機或筆記本電腦前置攝像頭采集到的眼睛圖像。因此,為了生成大量注釋數(shù)據(jù),最近幾次方法[40,43]用大量合成數(shù)據(jù)訓練它們的模型。在這里,我們展示使用SimGAN生成的精細合成圖像訓練顯著提高了任務的表現(xiàn)。
注視估計數(shù)據(jù)集包括使用眼睛注視合成器UnityEyes生成的1200萬樣本,以及來自MPIIGaze數(shù)據(jù)集的21,000實拍樣本。MPIIGaze的圖像樣本都是在各種照明條件不理想情況下捕捉到的圖像。而UnityEyes圖像都是在同一渲染環(huán)境下生成。
定性結果:圖5展示了合成生成的眼睛注視圖像以及經過處理的實拍圖像。如圖所示,我們觀察到合成圖像的顯著質量改進:SimGAN成功捕獲皮膚紋理,傳感器噪點以及虹膜區(qū)的外觀。請注意,我們的方法在改善真實性的同時保留了注釋信息(注視方向)。
‘視覺圖靈測試’:為了定量評估精細圖像的視覺質量,我們設計了一個簡單的用戶研究,要求受試者對圖像是屬于實拍或是合成進行區(qū)分。每個受試者被展示50張實拍圖像和50張合成圖像。在試驗中,受試者不斷觀看20個真假混雜的圖像,最終受試者很難分辨真實圖像和精細圖像之間的差異。在我們的總體分析中,10個受試者在1000次試驗中正確率只有517次(p=0.148),跟隨機選差不多。表1展示了混淆矩陣。相比之下,當使用原始圖像和實拍圖像進行測試時,我們給每個受試者展示10個實拍和10個合成圖像,這種情況下受試者在200此實驗中選對了162次(p≤10-8),結果明顯優(yōu)于隨機選擇。
(表1:采用真實圖像和合成圖像進行的“視覺圖靈測試”。平均人類分類精度為51.7%,表明自動生成的精細圖像在視覺上已經達到以假亂真的程度。)
(圖7:使用MPIIGaze實拍樣本進行的眼睛注視估計的定量結果。曲線描述了不同測試數(shù)量下系統(tǒng)預估的誤差。圖示中使用精細圖像而不是合成圖像能顯著提高系統(tǒng)表現(xiàn)。)
定量結果:我們訓練了一個與[43]類似的簡單的卷積神經網(wǎng)絡(CNN)來對眼睛的注視方向進行預測。我們在UnityEyes上訓練,并在MPIIGaze上進行測試。圖7和表2比較了CNN分別使用合成數(shù)據(jù)以及SimGAN生成的精細數(shù)據(jù)的不同表現(xiàn)。我們觀察到SimGAN輸出訓練的表現(xiàn)有很大的提高,絕對百分比提高了22.3%。我們還發(fā)現(xiàn)訓練結果和訓練數(shù)據(jù)呈正相關——此處的4x指的是培訓數(shù)據(jù)集的100%。定量評估證實了圖5中觀察到的定性改進的價值,并且表明使用SimGAN能使機器學習模型有更好的表現(xiàn)。表3展示了同現(xiàn)有技術的比較,在精細圖像上訓練CNN的表現(xiàn)優(yōu)于MPIGaze上的現(xiàn)有技術,相對改善了21%。這個巨大的改進顯示了我們的方法在許多HCI任務中的實際價值。
實施細節(jié):精煉網(wǎng)絡Rθ是一個殘差網(wǎng)絡 (ResNet) 。每個ResNet塊由兩個卷積層組成,包含63個特征圖,如圖6所示。大小為55x35的輸入圖像和3x3的過濾器進行卷積,輸出64個特征圖。輸出通過4個ResNet塊傳遞。最后ResNet塊的輸出被傳遞到1x1卷積層,產生對應于精細合成圖像的1個特征圖。
(表2: 使用合成數(shù)據(jù)和SimGAN輸出進行訓練的比較。在無需監(jiān)督真實數(shù)據(jù)的情況下,使用SimGAN輸出的圖像進行訓練表現(xiàn)出22.3%的優(yōu)勢。)
(表3: SimGAN與MPIIGaze現(xiàn)有技術進行比較。R=真實圖像,S=合成圖像。誤差是以度為單位的平均眼睛注視估計誤差。對精細圖像的訓練帶來了2.1度的改進,相對現(xiàn)有技術提高了21%。)
鑒別器器網(wǎng)絡Dφ包含5個擴展層和2個最大合并層,分別為:(1)Conv3x3,stride = 2,特征映射= 96,(2)Conv3x3,stride = 2,特征映射= 64,( 3)MaxPool3x3,stride = 1,(4)Conv3x3,stride = 1,特征映射= 32,(5)Conv1x1,stride = 1,特征映射= 32,(6)Conv1x1,stride = 2,(7)Softmax。
我們的對抗網(wǎng)絡是完全卷積的,并且已經被設計為使Rθ和Dφ中的最后層神經元的接受域是相似的。我們首先對Rθ網(wǎng)絡進行1000步的自正則化損失訓練,Dφ為200步。然后對于Dφ的每次更新,對應在算法中更新Rθ兩次。即Kd被設置為1,Kg被設置為50。
眼睛注視估計網(wǎng)絡同[43]類似,不過略作修改以使其更好地利用我們的大型合成數(shù)據(jù)集。輸入是35x55的灰度圖,通過5個卷積層,然后是3個完全連接的層,最后一個編碼三維注視向量:(1)Conv3x3,特征圖= 32,(2)Conv3x3 ,特征映射= 32,(3)Conv3×3,特征映射= 64,(4)Max- Pool3x3,stride = 2,(5)Conv3x3,特征映射= 80,(6)Conv3x3, MaxPool2x2,stride = 2,(8)FC9600,(9)FC1000,(10)FC3,(11)Eu- clidean loss。所有網(wǎng)絡都使用恒定的0.001學習速率和512批量大小進行訓練,直到驗證錯誤收斂。
3.2關于深度圖像的手勢圖像模擬
下一步,我們將用這宗方法對各種手勢的深度圖像進行模擬。在研究中,主要使用了紐約大學所提供的NYU手勢數(shù)據(jù)庫,其中包含72757個訓練樣本以及使用3臺Kinect相機所采集的8251個測試樣本,其中每個測試樣本包括一個正面手勢圖像以及兩個側面手勢圖像。而每一個深度圖像樣本都對手勢信息進行了標記,從而生成了合成圖像。圖10展示了手勢數(shù)據(jù)庫中的一個樣本。我們對數(shù)據(jù)庫樣本進行了預處理,利用合成圖像從真實圖像中提取了相應的像素點位。在使用深度學習網(wǎng)絡ConvNet進行處理之前,每個圖像樣本的分辨率大小被統(tǒng)一調整為224*224,背景值設置為零,前景值設置為原始深度值減2000。(此時假設背景分辨率為2000)。
圖10:NYU手勢數(shù)據(jù)庫。左圖為深度圖像樣本;右圖為處理后的合成圖像。
定性描述:圖11顯示了“生成對抗網(wǎng)絡”( SimGAN)對手勢數(shù)據(jù)庫的計算結果。由圖可知,真實深度圖像的噪聲已經邊緣化,且分布不連續(xù)。SimGAN能夠有效對原有圖像噪聲進行學習并模擬,從而產生出更加真實精細的合成圖像,且不需要在真實圖像上做出任何標記或注釋。
圖11: NYU手勢數(shù)據(jù)庫的精細測試圖像示例。左圖為真實圖像實像,右圖上為合成圖像,右圖下為來自蘋果生成對抗網(wǎng)絡的相應精細化輸出圖像。
實際圖像中的主要噪聲源是非平滑的邊緣噪聲。 學習網(wǎng)絡能夠學習模擬真實圖像中存在的噪聲,重要的是不需要任何標記和注釋。
定量分析:
我們采用一種類似于Stacked Hourglass人體姿態(tài)算法的CNN仿真算法應用于真實圖像、合成圖像以及精細化合成圖像處理,與NYU手勢數(shù)據(jù)庫中的測試樣本進行對比。通過對其中14個手關節(jié)變換進行算法訓練。為了避免偏差,我們用單層神經網(wǎng)絡來分析算法對合成圖像的改進效果。圖12和表4顯示了關于算法對手勢數(shù)據(jù)庫進行處理的定量結果。其中由SimGAN輸出的精細化合成圖像顯著優(yōu)于基于真實圖像進行訓練而產生的圖像,其更為逼真,比標準合成圖像高出了8.8%,其中仿真 模擬輸出的注釋成本為零。同時要注意的是,3X代表圖像訓練選取了所有角度。
圖12:手勢估計的定量結果,關于NYU手勢測試集的真實深度圖像。
圖表顯示圖像與背景之間函數(shù)的累積曲線??梢?,SimGAN輸出的精細化合成圖像顯著優(yōu)于基于真實圖像進行訓練而產生的圖像,其更為逼真,比標準合成圖像高出了8.8%。 重要的是,我們的學習網(wǎng)絡不需要對真實圖像進行標記。
表4:通過訓練生成各種手勢圖像的相似度。
Synthetic Data為一般網(wǎng)絡訓練產生的合成圖像,Real Data為真實圖像,Refined Synthetic Data為生成對抗網(wǎng)絡SimGAN輸出的精細化合成圖像。3X表示對真實圖像進行多角度模擬。
實現(xiàn)細節(jié):關于手勢圖像判別的架構與眼睛圖像相同,但輸入圖像分辨率為224*224,濾波器大小為7*7,殘差網(wǎng)絡值為10。判別網(wǎng)絡D如下:(1)Conv7x7,
stride=4, feature maps=96, (2) Conv5x5, stride=2, feature maps=64, (3) MaxPool3x3, stride=2, (4) Conv3x3,stride=2, feature maps=32, (5) Conv1x1, stride=1, feature maps=32, (6) Conv1x1, stride=1, feature maps=2,(7) Softmax。
首先,我們會對R網(wǎng)絡進行自我規(guī)則化訓練500次,隨后引入D網(wǎng)絡訓練200次;隨后,每更新一次D網(wǎng)絡,就相應將R網(wǎng)絡進行兩次更新。在手勢估計中,我們采用Stacked Hourglass Net人體姿態(tài)算法輸出大小為64*64的熱點圖。我們在網(wǎng)絡學習中引入[-20,20]的隨機數(shù)據(jù)集來對不同角度的圖像進行訓練。直至驗證誤差有效收斂時,網(wǎng)絡訓練結束。
3.3對抗訓練的修正分析
首先我們比較了本地化對抗訓練以及全局對抗訓練的圖像偏差。在全局對抗中,判別網(wǎng)絡使用了完全連接層,從而使整個圖像相對于更加精細。而本地化對抗訓練則使得生成的圖像更為真實,如圖8所示。
圖8:左為全局對抗訓練結果,右為本地化對抗訓練結果。
顯示了全局對抗訓練與本地化對抗訓練的結果偏差。左圖生成的圖像更精細但不真實,右圖生成的圖像相對真實度更高。
接下來,在圖9中,顯示了使用反復訓練的歷史精細化圖像對判別網(wǎng)絡進行更新,并將其與標準對抗生成的合成圖像進行比較的結果。如圖所示,使用反復訓練的歷史精細化圖像刻產生更為真實的陰影,譬如在標準對抗訓練中,眼睛角落里沒有陰影。
圖9:使用歷史精細圖像對判別網(wǎng)絡進行更新的結果。
左圖: 標準合成圖像;中圖:使用歷史數(shù)據(jù)對判別網(wǎng)絡進行更新后的圖像結果;右圖:使用近期歷史數(shù)據(jù)對判別網(wǎng)絡進行更新的圖像結果。如圖所示,使用反復訓練的歷史精細化圖像刻產生更為真實的陰影。
4結論以及下一步工作
在文中,我們提出了一種“模擬+無監(jiān)督”的機器學習方法,能夠有效提高模擬圖像的真實感。我們描述了一種新的生成對抗網(wǎng)絡SimGAN,并將其應用于未經標注的真實圖像,獲得了最好的結果。下一步,我們將繼續(xù)探索為合成圖像建立更為逼真的精細圖像,同時研究如何對視頻進行處理。
日前,蘋果發(fā)布了其首份關于人工智能(AI)的學術論文——“通過對抗網(wǎng)絡使用模擬和非監(jiān)督圖像訓練”(Learning from Simulated and Unsupervised Images through Adversarial Training),其中主要描述了在計算機視覺系統(tǒng)中提高圖像識別的方法,而這或許也標志著蘋果公司研究的新方向。
下面就是這篇報告的全文:
摘要
隨著圖形技術不斷進步,利用合成圖像訓練機器學習模型變得越來越容易,這可以幫助避免注釋圖像的昂貴支出。然而,通過合成圖像訓練機器學習模型可能無法達到令人滿意的效果,因為合成圖像與真實圖像之間畢竟存在區(qū)別。為了減少這種差異,我們提出“模擬+無監(jiān)督”學習方法,即通過計算機生成圖像或合成圖像來訓練算法的圖像識別能力。
事實上,這種“模擬+無監(jiān)督”學習需要將無標注的真實圖像數(shù)據(jù)與已經注釋的合成圖像相結合。在很大程度上,它需要依賴生成式對抗網(wǎng)絡(GAN)的新機器學習技術,它可通過兩個神經網(wǎng)絡相互對抗以生成更加真實的圖像。我們對標準GAN算法進行了多處關鍵性修改,以保留注釋、避免偽影以及穩(wěn)定性訓練:自正則化(self-regularization)-局部對抗性損失-使用精煉圖像升級鑒別器。
我們發(fā)現(xiàn),這個過程可以產生高度逼真的圖像,在質量上和用戶研究方面都已經獲得證實。我們已經通過訓練模型評估視線水平和手勢姿態(tài),對計算機生成圖像進行定量評估。通過使用合成圖像,我們的圖像識別算法已經取得了巨大進步。在沒有使用任何標準真實數(shù)據(jù)的情況下,我們在MPIIGaze數(shù)據(jù)集中獲得了最高水平的結果。
引言
隨著最近高容量深度神經學習網(wǎng)絡的崛起,大規(guī)模標注訓練數(shù)據(jù)集正變得日益重要??墒牵瑯藴蕯?shù)量龐大的數(shù)據(jù)集成本非常高,而且相當耗費時間。為此,使用合成圖像而非真實圖像訓練算法的想法開始出現(xiàn),因為注釋已經可實現(xiàn)自動化。利用XBOX360外設Kinect評估人體姿勢以及其他任務,都是使用合成數(shù)據(jù)完成的。
(圖1:“模擬+無監(jiān)督”學習:通過計算機生成圖像或合成圖像來訓練算法的圖像識別能力)
然而,由于合成圖像與真實圖像之間存在差距,使用合成圖像訓練算法可能產生很多問題。因為合成圖像通常不夠真實,導致神經網(wǎng)絡學習僅僅能夠了解到合成圖像中的細節(jié),并不能完整地識別出真實圖像,進而也無法為算法提供精確的學習。一種解決方案就是改進模擬器,可是增加真實性的計算往往非常昂貴,渲染器的設計也更加困難。此外,即使最頂級的渲染器可能也無法模仿真實圖像中的所有特征。因此,缺少真實性可能導致算法過度擬合合成圖像中不真實的細節(jié)。
在這篇論文中,我們提出“模擬+無監(jiān)督”學習的方法,其目的就是使用未標注真實數(shù)據(jù)的模擬器提高合成圖像的真實性。提高真實性可更好地幫助訓練機器學習模型,而且無需收集任何數(shù)據(jù),也無需人類繼續(xù)標注圖像。除了增加真實性,“模擬+無監(jiān)督”學習還應該保留注釋信息以用于訓練機器學習模型,比如圖一中的注視方向應被保留下來。此外,由于機器學習模型對合成數(shù)據(jù)中的偽影非常敏感,“模擬+無監(jiān)督”學習也應該產生沒有偽影的圖像。
我們?yōu)?ldquo;模擬+無監(jiān)督”學習開發(fā)出新的方法,我們稱之為SimGAN,它可以利用我們稱之為“精煉器網(wǎng)絡(refiner network)”的神經網(wǎng)絡從模擬器中提煉合成圖像。圖二中展示了這種方法的概述:第一,黑盒子模擬器中生成合成圖像,然后利用“精煉器網(wǎng)絡”對其進行提煉。為了增加真實性,也就是“模擬+無監(jiān)督”學習算法的首要需求,我們需要利用類似生成式對抗網(wǎng)絡(GAN)來訓練“精煉器網(wǎng)絡”,進而產生判別網(wǎng)絡無法區(qū)分真假的精煉圖像。
第二,為了保留合成圖像上的注釋信息,我們需要利用“自正則化損失”彌補對抗性損失,在合成圖像和精煉圖像之間進行修改。此外,我們還利用完全卷積神經網(wǎng)絡,在像素水平方面進行操作,并保留全局結構,而非整體修改圖像的內容。
第三,GAN框架要求訓練2個神經網(wǎng)絡進行對抗,它們的目標往往不夠穩(wěn)定,傾向于產生偽影。為了避免漂移和產生更強的偽影,導致甄別更困難,我們需要限定鑒別器的接收區(qū)域為局部接收,而非整張圖片接收,這導致每張圖像都會產生多個局部對抗性損失。此外,我們還引入提高訓練穩(wěn)定性的方法,即通過使用精煉圖像而非當前“精煉器網(wǎng)絡”中的現(xiàn)有圖像升級鑒別器。
1.1相關工作
GAN框架需要2個神經網(wǎng)絡競爭損失,即生成器與鑒別器。其中,生成器網(wǎng)絡的目標是在真實圖像上繪制隨機向量,而鑒別器網(wǎng)絡的目標則是區(qū)分生成圖像與真實圖像。GAN網(wǎng)絡是由古德弗羅(I. Goodfellow)等人首先引入的,它可以幫助生成逼真的視覺圖像。自從那以來,GAN已經有了許多改進,并被投入到有趣的應用中。
(圖2:SimGAN概觀:我們利用“精煉器網(wǎng)絡”提煉模擬器產生的輸出圖像,并最大限度地減少局部對抗性損失,并進行自正則化。
對抗性損失可以欺騙鑒別器網(wǎng)絡,從而令其將合成圖像誤認為真實圖像。而自正則化則會最大限度減少合成圖像與真實圖像的差異,包括保留注釋信息,并讓精煉圖像被用于訓練機器學習模型。“精煉器網(wǎng)絡”與鑒別器網(wǎng)絡也會交替升級。)
王(X. Wang)與古普塔(A. Gupta)利用結構化GAN學習表面法線,然后將其與Style GAN相結合,以生成天然的室內場景。我們提議使用對抗性訓練進行遞歸生成模型(recurrent generative model)訓練。此外,最近推出的iGAN能夠幫助用戶以交互模式改變圖像。劉(M.-Y. Liu)等人開發(fā)的CoGAN結合GAN可多模態(tài)聯(lián)合分布圖像,無需要求應對圖像的元組,這有利于開發(fā)出聯(lián)合發(fā)布解決方案。而陳(X. Chen)等人開發(fā)的InfoGAN是GAN信息理論的擴展,允許有意義的陳述學習。
恩杰爾·圖澤爾(Oncel Tuzel)等人利用GAN解決人臉圖像超高分辨率問題。李(C. Li)和王(M. Wand)提議Markovian GAN進行有效的紋理合成。洛特爾(W. Lotter)等人在LSTM網(wǎng)絡中利用對抗性損失進行視覺序列預測。于(L. Yu)等人提議SeqGAN框架,利用GAN強化學習。許多近來的問題都顯示出與生成模型領域相關的問題,比如PixelRNN可利用RNN的softmax損失預測像素順序。生成網(wǎng)絡側重于使用隨機噪聲矢量生成圖像,與我們的模型相比,其生成的圖像沒有任何標注信息,因此也無法用于訓練機器學習模型。
許多努力都在探索使用合成數(shù)據(jù)進行各種預測任務,包括視線評估、RGB圖像文本檢測與分類、字體識別、對象檢測、深度圖像中手部姿態(tài)評估、RGB-D場景識別、城市場景語義分割以及人體姿態(tài)評估等。蓋伊登(A. Gaidon)等人的研究表明,利用合成數(shù)據(jù)訓練深度神經網(wǎng)絡,可以提高其表現(xiàn)。我們的工作是對這些方法的補充,我們使用未標記真實數(shù)據(jù)提高了模擬器的真實性。
嘉寧(Y. Ganin)與萊姆皮茨基(V. Lempitsky)在數(shù)據(jù)域適應設置中利用合成數(shù)據(jù),了解合成圖像與真實圖像域的變化過程中保持不變的特征。王(Z. Wang)等人利用合成和真實數(shù)據(jù)訓練層疊卷積碼自動編碼器,以便了解其字體檢測器ConvNet的低級表示形式。張(X. Zhang)等人學習多通道編碼,以便減少真實數(shù)據(jù)與合成數(shù)據(jù)的域的轉變。與經典域適應方法相反,它采用與特定的特征以便適應具體的預測任務,而我們可通過對抗性訓練,彌合圖像分布之間的差距。這種方法使我們能夠生成非常逼真的圖像,可以用于訓練任何機器學習模型,并執(zhí)行潛在的更多任務。
2“模擬+無監(jiān)督”學習
模擬+無監(jiān)督學習的目標是使用一組未標記的真實圖像yi ∈ Y,學習可提煉合成圖像X的refiner Rθ(x),其中θ屬于函數(shù)參數(shù)。讓我們用X?表示精煉圖像,然后會得出X?:θ= R(X)。在“模擬+無監(jiān)督”學習中,最關鍵的要求就是精煉圖像X?,以便于其看起來更像真實圖像,同時保留來自模擬器的注釋信息。為此,我們建議通過最大化減少兩個損失的組合來學習:
其中,xi是e ith合成訓練圖像,X是相應的精煉圖像。第一部分是真實性成本,即向合成圖像中增加真實性的成本。第二部分則代表著通過最小化合成圖像精煉圖像的差異保存注釋信息的成本。在下面的章節(jié)中,我們會展開這個公式,并提供優(yōu)化θ的算法。
2.1對抗性損失
為了向合成圖像中添加真實性,我們需要在合成圖形和真實圖像的分部之間建立起聯(lián)系。在理想情況下,精煉機可能無法將給定的圖像分類為真實圖像還是高度精煉圖像。這就需要使用對抗性的鑒頻器,網(wǎng)絡Dφ,它可訓練分辨圖像到底是真實圖像還是精煉圖像,而φ是鑒別器網(wǎng)絡參數(shù)。對抗性損失訓練refiner networkR,它負責欺騙D網(wǎng)絡,令其將精煉圖像誤認為是真實圖像。利用GAN方法,我們建造了2個神經網(wǎng)絡參與的極限博弈模型,并升級“精煉器網(wǎng)絡”Rθ和鑒別器網(wǎng)絡Dφ。接下來,我們更精確地描述這種模型。鑒別器網(wǎng)絡通過最大限度地減少以下?lián)p失來更新參數(shù):
這相當于兩級分類問題產生的交叉熵誤差,其中Dφ(.)輸入的是合成圖像,而1 ? Dφ(.)則是真實圖像。至此,我們實現(xiàn)了Dφ作為ConvNet的最后輸出層,樣本很可能是精煉圖像。為了訓練這個網(wǎng)絡,每個小批量隨機抽取的樣本都由精煉合成圖像和真實圖像組成。對于每個yj來說,交叉熵的目標標簽損耗層為0,而每個x?i都對應1。然后通過隨機梯度下降(SGD)方式,φ會隨著小批量梯度損失而升級。在我們的實踐中,真實性損失函數(shù)使用訓練有素的鑒別器網(wǎng)路D如下:
通過最小化減小損失函數(shù),“精煉器網(wǎng)絡”的力量促使鑒別器無法分辨出精煉圖像就是合成圖像。除了產生逼真的圖像外,“精煉器網(wǎng)絡”應該保存模擬器的注釋信息。舉例來說,用于評估視線的學習轉變不該改變凝視的方向,手部姿勢評估不應該改變肘部的位置。這是訓練機器學習模型使用配有模擬器注釋信息的精煉圖像的必要組成部分。為了實現(xiàn)這個目標,我們建議使用自正則化,它可以最大限度地減少合成圖像與精煉圖像之間的差異。
(算法1)
(圖3:局部對抗性損失的圖示。鑒別器網(wǎng)絡輸出wxh概率圖。對抗損失函數(shù)是局部塊上的交叉熵損失的總和。)
因此在我們的執(zhí)行中,整體精煉損失函數(shù)(1)為:
(4)在||.||1是L1常模時,我們將Rθ作為一個完全卷積的神經網(wǎng)絡,而無需躍進或池化。在像素級別上修改合成圖像,而不是整體地修改圖像內容。例如在完全連接地編碼器網(wǎng)絡中便會如此,保留全局結構合注釋。我們通過交替地最小化LR(θ) 和LD(φ)來學習精化器和鑒別器參數(shù)。在更新Rθ的參數(shù)時,我們保持φ固定不變,而在更新Dφ時,則要保持θ不變。我們在算法1中描述了整個訓練過程。
(圖4:使用精細圖像歷史示意圖。相關信息請參閱文本描述。)
- 比亞迪捐資30億元成立教育慈善基金,助力培養(yǎng)卓越人才,推動中國科教進步
- ?5年投入200億打造飛行汽車!?長安汽車布局萬億“低空”市場
- 英偉達涉嫌違反反壟斷法 市場監(jiān)管總局依法決定立案調查
- 上海敲定5G-A發(fā)展目標:到2026年發(fā)展500萬用戶,建設3.2萬個3CC基站
- 中國電信注資10億成立天通衛(wèi)星科技公司,將推動衛(wèi)星通信手機向3000元下探
- 上汽今年銷量或會被比亞迪反超,痛失18年“中國車企銷量冠軍”
- 英特爾CEO基辛格名為退休,實為被董事會趕下臺?
- 華為申請多枚鴻蒙辦公商標,涉及辦公用品等多個領域
- “數(shù)智化”登頂《咬文嚼字》十大流行語,數(shù)智技術應用深入人心
- IDC預計:2028年AI基礎設施支出將超1000億美元
免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。