原標題:除了制造“逼真假臉”,GANs還在看不見的角落里悄悄搞事情
自2014年誕生之日起,GANs(Generative Adversarial Nets,生成對抗網(wǎng)絡)就一直是機器學習領域的“流量擔當”,過去的兩年間更是迎來了成果井噴。
有人還專門為它建立了一個GAN Zoo,用來收集所有已被命名的GAN,目前已經(jīng)有500多個了。欣賞一下這令人咋舌的增長曲線:
盡管GANs的進步是日新月異,但仔細觀察一下就會發(fā)現(xiàn),最廣為人知的吸睛案例,大都集中在娛樂領域,而且不乏吐槽之聲。
比如從去年年底英偉達推出的GAN,合成的人臉幾乎能夠以假亂真,一眾媒體直呼“可怕”。前不久它終于有了自己的名字“StyleGAN”,源代碼也免費公布,立馬又被愛搞事情的網(wǎng)友送到了風口浪尖上。
來自Uber的軟件工程師Philip Wang利用styleGAN做了一個網(wǎng)站,每次刷新都會生成一個“現(xiàn)實中不存在”的人臉,逼真得令人毛骨悚然。很快就有網(wǎng)友表示,看到了一張跟自己一樣的臉,然后她就真的不存在了……這個賽博朋克式的神展開,立馬讓大家?guī)肓吮弧凹倌槨敝涞目謶帧?/p>
當然,除了探討照片是否可信、帶來識別安全問題怎么辦這些問題之外,或許我們也應該關注一下,為什么GANs一路進化,大多數(shù)研究卻總是聚焦在換臉技術上呢?
這場熱鬧非凡的換臉游戲背后,恐怕隱藏著一個GANs從算法走向產(chǎn)業(yè)道路上最難突破的瓶頸。
GANs新成員:換臉技術哪家強?
GANs從出道那天開始,“圖像生成”就是最能打的一塊招牌。而在各種各樣GANs中,“新晉網(wǎng)紅”styleGAN,絕對是面部生成的技術擔當。
關于英偉達這個新模型,我們?nèi)ツ昃偷谝粫r間解讀過,在此不再贅述。簡單來說,就是讓生成器模仿風格遷移算法的方法,學會識別出更高級、也更有意義的特征變化(比如年齡、臉部細節(jié)等等),從而讓圖像生成效果更加逼真。
同時,styleGAN的識別效率也大幅度提升,能夠自動分離圖像中的變化,開發(fā)者能夠以直觀的方式控制合成結果。加上前不久英偉達開放了圖像數(shù)據(jù)集和styleGAN的源代碼,自然吸引了不少技術大佬們躍躍欲試。
有用它“造老婆”的,一位名叫roadrunner01的程序猿,用大量二次元少女的圖片訓練StyleGAN,各種風格的紙片人妹子任由選擇。
當然還有裝逼失敗的。由于準備不充分,靠StyleGAN生成假臉的網(wǎng)站“thispersondoesnotexist”就被群嘲了,因為網(wǎng)友在上面找到了幾乎和自己一樣的臉,就此掀起了一陣“刷新一次消失一個人類”的都市靈異文學創(chuàng)作熱情。真的是,沒有全球70億人的人臉數(shù)據(jù)集,就不要攬瓷器活兒啊。
不僅圖像能造假,視頻也沒逃過此劫。去年年初,基于GAN的視頻換臉術Deepfakes,就被用來制造了一大堆足以亂真的假視頻,奧巴馬、斯嘉麗·約翰遜、神奇女俠蓋爾加朵、楊冪、劉亦菲等中外名人紛紛成了假視頻的主角。
盡管GANs的進展很令人欣喜,但一個尷尬而無奈的現(xiàn)實也就此清晰地呈現(xiàn)在了它的進化之路上——絕大多數(shù)成果都聚焦在圖像生成上,并且常常以娛樂、夸張的形式出現(xiàn),“逆天”“以假亂真”“被色情”等新聞不絕于耳。
人臉生成的效果太好、門檻太低,正在挑戰(zhàn)著公眾的辨別能力,讓大眾對網(wǎng)絡內(nèi)容和圖像證據(jù)的信任進一步坍塌,而那些大眾期待的、GANs真正改變產(chǎn)業(yè)和生活的效用,卻仿佛集體失聲了。怎么回事?
除了“逼真假臉”,GANs還有哪些打開方式?
首先要替GANs澄清一下,作為一個能自我判別和推倒出新樣本的生成算法,它能應用的訓練場景和商業(yè)前景是非常大的。而且,正在勤勤懇懇地“為人民服務”,為不少產(chǎn)業(yè)的進化添磚加瓦。比如:
1.影視創(chuàng)作
創(chuàng)作是最考驗想象力和藝術張力的地方,也是越來越勞動密集型的產(chǎn)業(yè)之一。在工業(yè)制作體系成熟的好萊塢,一部電影從編劇到營銷團隊往往多大數(shù)千人。而GAN恰恰可以改變這樣昂貴而高風險的生產(chǎn)過程。
項目前期,GAN可以利用文字描述生成相匹配的逼真圖像,快速打破次元壁,高效而還原地生成電影腳本,避免因為畫風跑偏而收獲原著粉贈送的“人參萬兩”;
在后期剪輯上,IBM正在利用以GAN為基礎的AI算法,去識別視頻中的臺詞和場景的意義,根據(jù)角色的心情、劇情的復雜程度以及前后片段的關聯(lián)程度,快速生成電影宣傳片,大幅壓縮了制作成本和時間周期。
2.圖像修復
現(xiàn)實中,我們常常會面對一些歷史原因而辨識體驗較差的圖像,比如被損毀的文物殘片、消失了一半的古建筑、上個世紀創(chuàng)作的游戲或電影,對它們進行修復或復刻,往往只能依靠某些專精技術人員日以繼夜的努力?,F(xiàn)在在GAN的幫助下,可以更高效地還原和處理這些瑕疵部分。
比如在英偉達的一篇論文中,就闡述了它是如何用GAN訓練出的“圖像翻譯網(wǎng)絡”(Partial Convolutions)為圖像上的建筑和場景補上缺失部分的。
一些超經(jīng)典的游戲,比如《重返德軍總部》、《上古卷軸 III》、《馬克思·佩恩》等,都陸續(xù)被 ESRGAN(增強型超分辨率生成對抗網(wǎng)絡)進行了重置。畫面變得更加精美的同時,還忠實地保留了原來的藝術風格,以后玩家和劇迷們再也不用擔心心愛的作品被人工改得面目全非了。
(《馬克思·佩恩》原版截圖VSESRGAN重制后的截圖)
3.個性時尚導師
除了還原,GANs還具備超強的想象力,可以通過多元樣本進行判斷與生成,從而輸出個性化又風格統(tǒng)一的方案。比如亞馬遜和阿里巴巴都在打造的“時尚人工智能”(FashionAI),就是利用GANs實現(xiàn)的。加載了GANs的電商推薦系統(tǒng)不僅能夠向用戶提供個性化的時尚搭配建議,而且還能夠將二維商品圖轉化成3D試穿效果圖,從而幫助商家進行服裝銷售。
研究人員利用亞馬遜商城用戶在六種商品(男女款式的鞋類,上裝,下裝)的購買數(shù)據(jù)來分析其商品偏好,然后訓練出相應的GAN模型。阿里巴巴的新零售線下店,也是采用了該技術來向店內(nèi)顧客展示和推薦商品。
4.新成分預測
除了這些觸手可及的現(xiàn)實應用,GANs在產(chǎn)業(yè)端更值得期待的價值,還體現(xiàn)在新藥研發(fā)和材料學領域,比如用來生成新的藥學分子結構和合成新材料等等。
有數(shù)據(jù)統(tǒng)計,每種新藥研發(fā)大約需要10年時間。期間,制藥公司需要設計合成成千上萬的分子,然后一一進行生物學測試,成功率往往卻只有2萬至3萬分之一。有了GANs,就能相關信息對分子結構進行高精度的樣本預測,加快實驗進度的同時,全新的未知成分顯然更有可能幫助人類攻克懸而未決的醫(yī)學難題。
因此,盡管這一應用目前還停留在創(chuàng)意階段,但其背后的商業(yè)想象空間卻格外巨大。
目前來看,GANs正在一群產(chǎn)業(yè)巨頭們的支持下,開啟了更廣闊的應用場景探索之路。這場技術拉力賽,并不只有奇聞異事,而是在真槍實戰(zhàn)中打磨出了金子般的光芒。
為什么出風頭的總是“變臉”?
既然GANs已經(jīng)斬獲了這么多成績,為什么一提起來,大家想到的總是“照騙”“視騙”這些販賣焦慮的新聞呢?那些干實事的模型不配有姓名嗎?
客觀來說,一項新技術要證明自己的強大之處,用一些“逆天”“超越人類想象”之類夸張的效果來迅速被大眾所認知,這不難理解。
但GANs之所以被這些“造假”新聞淹沒,還要感謝將股價押注在AI身上的英偉達不斷造勢,而“以假亂真”“令人害怕”的新聞背后,更關系著媒體們無數(shù)爆款文的績效,在這樣的雙重推動下,“只知換臉,無論其他”的GANs自然愈發(fā)深入人心了。
而那些下沉在產(chǎn)業(yè)端的GANs應用,又為何都如此“謹小慎微”、罕見發(fā)聲呢?一方面GANs自身還有一些缺陷尚待解決,導致其成果并不穩(wěn)定。
比如模式坍塌 (Mode collapse)問題,在復雜且多模態(tài)的自然數(shù)據(jù)集中,生成器只能從相似樣本的模式集中生成樣本,這將直接限制結果的多樣性,從而影響使用。
另外,在GANs相關訓練中,很難精準地判斷合適能生成高質量的作品,現(xiàn)實中顯然不可能投入無限多的時間和資源去等待一個未知的訓練結果。因此,今天說到的應用案例,都更具示范價值和探索意義,距離大規(guī)模應用還有一段路要走。對于企業(yè)來說,貿(mào)然推出不成熟的產(chǎn)品反而會引發(fā)群嘲,自然更愿意低調行事、關門打磨產(chǎn)品了。
更重要的是,GANs需要大量商業(yè)數(shù)據(jù)的投喂,才能發(fā)揮出實驗室類似的效果。而無論是數(shù)據(jù)成本還是算力成本,都決定了GANs所代表的便利和可能性,目前只對一些產(chǎn)業(yè)巨頭有用。
這也是為什么,除了學界和個人開發(fā)者偶爾搞點“聳人聽聞”的大新聞,GANs至今還沒能在現(xiàn)實領域中遍地開花。
不過,娛樂往往是速朽的,“造假”恐怖事件玩得多了,大眾也會產(chǎn)生審美疲勞,最終很可能將一個特殊領域的潛在危險,變成對整個技術的泛在質疑。不要讓一切值得思考的,都成為娛樂的附庸。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準AI機器人
- 微信零錢通新政策:銀行卡轉入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領先技術與深度整合是關鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。