精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    AI帶來(lái)的穿越,老電影重現(xiàn)新畫(huà)質(zhì)

    老照片、老電影總能讓人們的思緒飄回那些久遠(yuǎn)的年代,沉淀于其中,可與此同時(shí),模糊的畫(huà)面又不免給記憶蒙上了一層薄霧。如今,隨著人工智能技術(shù)的發(fā)展,SRGAN(超分辨率生成對(duì)抗網(wǎng)絡(luò))使得撥散云霧始見(jiàn)真,成倍還原了畫(huà)面質(zhì)量。

    2019年底,WAIC開(kāi)發(fā)者·上海臨港人工智能開(kāi)發(fā)者大會(huì)的開(kāi)幕式上,上海市經(jīng)濟(jì)和信息化委員會(huì)副主任張英為上海市人工智能創(chuàng)新中心授牌,深蘭科技等7家企業(yè)首批入選,同時(shí)深蘭科技兩項(xiàng)應(yīng)用場(chǎng)景方案入圍“上海市第二批人工智能試點(diǎn)應(yīng)用場(chǎng)景”。

    其中,在AI+文化旅游場(chǎng)景中,深蘭科技入圍成為上海文化廣告影視集團(tuán)有限公司的解決方案供應(yīng)商,將為其提供視頻圖像質(zhì)量增強(qiáng)技術(shù),通過(guò)智能算法提高視頻畫(huà)面質(zhì)量,使2K高清素材達(dá)到4K超高清要求,優(yōu)化提升老舊節(jié)目的圖像清晰度。

    今天,就來(lái)個(gè)承上啟下,回顧前一年成績(jī)的同時(shí),也用創(chuàng)新和進(jìn)步為新的一年注入能量。獲獎(jiǎng)方案的團(tuán)隊(duì)負(fù)責(zé)人、深蘭科學(xué)院深度學(xué)習(xí)科學(xué)家方林博士,給出了實(shí)現(xiàn)超分辨率的SRGAN模型的網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練步驟和損失函數(shù),將幫助GAN的初學(xué)者理解對(duì)抗網(wǎng)絡(luò)的實(shí)質(zhì),為今后設(shè)計(jì)更加復(fù)雜的超分模型打下基礎(chǔ)。

    超分辨率

    超分辨率的目的是把低分辨率的圖像或者視頻轉(zhuǎn)為高分辨率,比如:

    我們利用超分辨率生成式對(duì)抗網(wǎng)絡(luò)(SRGAN, Super Resolution Generative Adversarial Network)實(shí)現(xiàn)超分辨率。

    下面我們通過(guò)一個(gè)簡(jiǎn)單的SRGAN模型來(lái)說(shuō)明超分模型的基本結(jié)構(gòu)和訓(xùn)練步驟。

    圖片準(zhǔn)備

    超分模型由兩張圖片組成,第一張是模糊圖片,形狀為[128, 128, 3];第二張是對(duì)應(yīng)的清晰圖片,形狀為[512, 512, 3]。清晰圖片的長(zhǎng)寬分別是模糊圖片的長(zhǎng)寬的4倍。我們的目標(biāo)是把模糊圖片的分辨率提高16倍。

    圖片必須是一一對(duì)應(yīng)的,即一張模糊圖片必須有對(duì)應(yīng)的一張清晰圖片。為了準(zhǔn)備圖片,我們先收集足夠數(shù)量(最好2萬(wàn)張以上)的清晰圖片,圖片的長(zhǎng)度和寬度應(yīng)該都大于等于512。然后選取任意一個(gè)512*512的部分進(jìn)行剪裁。

    注意:

    不要把一個(gè)大的圖片resize成512*512大小,因?yàn)檫@會(huì)導(dǎo)致圖片變形;

    由于我們可以在大圖片的任意位置剪裁出512*512的圖片,所以長(zhǎng)度或者寬度大于512的圖片可以生成多個(gè)清晰圖片。比如520*520的圖片可以生成64個(gè)清晰圖片。

    當(dāng)我們獲得了所有清晰圖片之后,再把每張清晰圖片resize到128*128大小,這樣我們就獲得了模糊圖片。OpenCV的resize()方法可以幫助我們改變圖片大小。

    SRGAN模型

    1、主要結(jié)構(gòu)

    SRGAN模型結(jié)構(gòu)如下圖所示:

    圖中“模糊”是指模糊圖片,“清晰”是指清晰圖片,“生成”是指生成器生成的圖片。生成圖片的分辨率與清晰圖片相同,為512*512。模糊圖片的分辨率是128*128,為清晰圖片的1/16。

    上圖中的模型主要由生成器和辨別器兩部分組成。生成器的目的是輸入模糊圖片(圖中的“模糊”),輸出生成圖片(圖中的“生成”)。辨別器的輸入由a、b兩個(gè)參數(shù)組成。其中b是模糊圖片,a是生成圖片或者清晰圖片。辨別器的目的是判斷圖片a是否是真實(shí)的清晰圖片。b是用來(lái)協(xié)助辨別器進(jìn)行判斷的。辨別器的輸出p是一個(gè)概率,1表示a是100%的真實(shí)清晰圖片,0%表示a是100%的生成圖片。

    訓(xùn)練上述模型時(shí),生成器總是盡可能生成像真實(shí)圖片的圖片,而辨別器則盡可能分辨出a是真實(shí)圖片還是生成圖片。所以辨別器和生成器之間存在著一種對(duì)抗:生成器越優(yōu)化,辨別器越不能分辨生成圖片的真假;辨別器越優(yōu)化,生成器生成的圖片就越不能通過(guò)辨別器的檢查。對(duì)抗的結(jié)果是雙方的能力都得到了提高,最后達(dá)到納什均衡:即生成器生成了很像真實(shí)圖片的圖片,連辨別器也無(wú)法分辨其中的真假。這就是SRGAN的基本原理。

    2、生成器結(jié)構(gòu)

    生成器的輸入是128*128的3通道圖片,輸出是512*512的3通道圖片。SRGAN使用U型網(wǎng)絡(luò)實(shí)現(xiàn)這種圖片到圖片的轉(zhuǎn)化,結(jié)構(gòu)如下:

    請(qǐng)注意:

    第一,整個(gè)U型網(wǎng)絡(luò)的左半部分全部由卷積操作組成,用來(lái)抽取輸入圖像的特征。右半部分全部由反卷積操作組成,用來(lái)根據(jù)特征構(gòu)建清晰圖片。由于輸出圖片比輸入圖片大4倍,所以右邊比左邊高出一截。

    第二,左右兩邊相同大小的圖片之間的連線稱為捷徑,表示左邊的圖片與右邊的圖片進(jìn)行加法操作,結(jié)果保留在右邊。這是借用了殘差神經(jīng)網(wǎng)絡(luò)(ResNet)的做法。不過(guò)ResNet中的捷徑跨越相同數(shù)量的操作,而這里的捷徑跨越不同數(shù)量的操作,并且越上方的捷徑離輸入和輸出越近,快速傳播梯度的效果越好。

    第三,左邊最后的卷積和最后的反卷積操作都不含激活函數(shù),并且整個(gè)網(wǎng)絡(luò)中不使用Dropout,這樣做的原因超出了本文的討論范疇,這里不敘述。

    3、辨別器結(jié)構(gòu)

    辨別器有兩個(gè)輸入,a表示要判斷真假的圖片,b是輔助辨別器判斷的模糊圖片。兩者的分辨率分別是512*512和128*128。對(duì)于參數(shù)a,我們采用卷積操作不斷提純其特征,最后全連接到一個(gè)神經(jīng)元,最后經(jīng)過(guò)sigmoid激活后得到一個(gè)概率。這條路徑我們稱為主路徑。參數(shù)b,我們通過(guò)resize改變其大小,然后從側(cè)面切入到主路徑中去,從而影響特征的提取。下圖顯示了辨別器結(jié)構(gòu):

    請(qǐng)注意,全連接之后使用sigmoid激活函數(shù),這樣可以獲得概率值。

    SRGAN訓(xùn)練

    SRGAN的訓(xùn)練分三步完成。第一步,訓(xùn)練辨別器識(shí)別真樣本。這一步圖示如下:

    這一步的目的是用每一對(duì)模糊和清晰圖片訓(xùn)練辨別器,使得辨別器的輸出盡可能趨近于1。注意:清晰圖片對(duì)應(yīng)于參數(shù)a,模糊圖片對(duì)應(yīng)于參數(shù)b,辨別器的期望輸出是1。

    假設(shè)我們用函數(shù) disc(a,b) 表示辨別器的輸出(表示a為真實(shí)樣本的概率),則這一步的損失可以用交叉熵表示為:

    其中a和b分別表示真實(shí)的清晰圖片和對(duì)應(yīng)的模糊圖片。

    第二步,訓(xùn)練辨別器識(shí)別假樣本。這一步圖示如下:

    請(qǐng)注意:生成器在這一步中是固定不變的,只有辨別器才被優(yōu)化。這是因?yàn)檫@一步只是為了訓(xùn)練辨別器識(shí)別假樣本,也就是說(shuō)辨別器的期望輸出是0,所以就不能改動(dòng)生成器。否則就會(huì)導(dǎo)致生成器試圖生成讓辨別器輸出為0的圖片,這不是生成器所期望的。生成器應(yīng)該期望生成能讓辨別器以為是真(即辨別器輸出為1)的圖片。

    很多算法工程師不清楚在這一步訓(xùn)練中如何達(dá)到僅訓(xùn)練一個(gè)模塊(比如說(shuō)辨別器),而固定其他模塊(比如說(shuō)生成器)的目的。

    在Tensorflow中,一般地,我們可以調(diào)用函數(shù):

    來(lái)實(shí)現(xiàn)梯度的反向傳播和對(duì)模型參數(shù)的優(yōu)化。此時(shí)我們只需指定第二個(gè)參數(shù)varlist等于辨別器中所有可訓(xùn)練參數(shù)的列表(list)即可。其他未被指定的參數(shù)(比如生成器中的參數(shù))就不會(huì)被優(yōu)化,也就是說(shuō),被固定了。

    假設(shè)我們用函數(shù)gen()表示生成的輸出,則這一步辨別器的輸出是:

    由于這一步辨別器的期望輸出是0,所以這一步的損失可以用交叉熵表示為:

    第三步,訓(xùn)練辨別器識(shí)別假樣本。這一步圖示如下:

    請(qǐng)注意,在這一步訓(xùn)練中辨別器被固定住了,保持不變,被訓(xùn)練優(yōu)化的是生成器。因?yàn)檫@一步的目的是要讓生成器生成辨別器以為是真實(shí)圖片的圖片,所以辨別器的期望輸出是1。此時(shí)我們必須固定住辨別器,否則辨別器會(huì)變成這個(gè)樣子:不管生成器輸出什么樣的圖片,辨別器都盡可能輸出1。顯然,這不是我們所期望的。

    這一步訓(xùn)練的結(jié)構(gòu)跟第二步相同,不同的是固定的是什么,訓(xùn)練的是什么,以及辨別器的期望輸出不同。

    由于這一步辨別器的期望輸出是1,所以這一步的損失可以用交叉熵表示為:

    我們可以發(fā)現(xiàn),第二步和第三步訓(xùn)練的輸入數(shù)據(jù)都是b,網(wǎng)絡(luò)的輸出都是disc(gen(b),b), 但是期望輸出一個(gè)是0,另一個(gè)是1。對(duì)抗由此產(chǎn)生,最終的結(jié)果將達(dá)到納什均衡。理想情況下,disc(gen(b),b) 的結(jié)果既不是0也不是1,而是接近0.5。

    結(jié)束語(yǔ)

    我們有了三個(gè)訓(xùn)練步驟,有了三個(gè)損失函數(shù),并且知道每一步訓(xùn)練什么、固定什么,則依次循環(huán)執(zhí)行這三步訓(xùn)練就能達(dá)到實(shí)現(xiàn)超分模型的目的。

    本文是對(duì)GAN和SRGAN的一個(gè)簡(jiǎn)單說(shuō)明,是給初學(xué)者理解SRGAN模型看的,沒(méi)有涉及到GAN更高深的知識(shí)(比如WGAN和推土機(jī)距離等)。如有錯(cuò)漏之處希望給以批評(píng)指正。

    (免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
    任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )

    贊助商
    2020-03-10
    AI帶來(lái)的穿越,老電影重現(xiàn)新畫(huà)質(zhì)
    老照片、老電影總能讓人們的思緒飄回那些久遠(yuǎn)的年代,沉淀于其中,可與此同時(shí),模糊的畫(huà)面又不免給記憶蒙上了一層薄霧。

    長(zhǎng)按掃碼 閱讀全文