原標(biāo)題:膠囊網(wǎng)絡(luò):將CNN推下神壇的“天命之子”
前不久,圖靈獎(jiǎng)得主Geoffrey Hinton的第一篇論文被扒了出來,在推特上引發(fā)了不少關(guān)注。
當(dāng)然,讓大家激動(dòng)的并不是源自對“大神”科研處女作的好奇,也不是提出的算法有多么顛覆,而是Hinton 這位AI界的人形自走教科書,早在40年前這篇論文中,就提出了“讓AI具備空間感”的松弛算法,解題思路與2017年其提出的“膠囊網(wǎng)絡(luò)”不謀而合。
要知道,“膠囊網(wǎng)絡(luò)”早已是公認(rèn)將成為下一代深度學(xué)習(xí)基石、CNN“接班人”的神經(jīng)網(wǎng)絡(luò)。
經(jīng)歷了長達(dá)四十年的思考,“膠囊網(wǎng)絡(luò)”將會(huì)怎樣大顯神威,技術(shù)背后代表的未來能量才是讓網(wǎng)友們“鵝妹子嚶”的地方啊~
如果你還不太了解“膠囊網(wǎng)絡(luò)”,或是對其最新進(jìn)展不甚了了,那么,不妨跟隨這篇文章,來系統(tǒng)性地了解一下這個(gè)人工智能未來的“種子選手”。
神經(jīng)網(wǎng)絡(luò)“宮心計(jì)”:膠囊是如何“爭寵”的?
對AI發(fā)展略有了解的同學(xué)們可能都知道,Hinton被人所熟知,并獲得圖靈獎(jiǎng),主要?dú)w功于其在深度神經(jīng)網(wǎng)絡(luò)上的貢獻(xiàn)。
1986年,Hinton發(fā)表了《Learning representations by back-propagation errors》(通過反向傳播誤差來學(xué)習(xí)表征),作為這位圖靈獎(jiǎng)得主的代表作之一,標(biāo)志著反向傳播算法正式被引進(jìn)深度學(xué)習(xí),這對人工智能的應(yīng)用有著重大的意義。
反向傳播出現(xiàn)之前,多層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練主要是通過前向傳遞來輸入信號(hào),直至產(chǎn)生誤差,再進(jìn)行優(yōu)化。以梯度下降(Gradient Descent)為例,輸入數(shù)據(jù)每向前走一步,都沿著最陡峭的地方下腳,就這樣一步步走到山底(梯度的反方向)。因此,該算法可以直接將每層的誤差反饋給系統(tǒng),并進(jìn)行參數(shù)優(yōu)化。
但這種方式在應(yīng)對具有多個(gè)隱層的神經(jīng)網(wǎng)絡(luò)時(shí),就有些力不從心了。在下降時(shí)隱層中的誤差無法被直接反饋出來,因此其權(quán)重參數(shù)也就不能直接被優(yōu)化,這就給神經(jīng)網(wǎng)絡(luò)的性能表現(xiàn)帶來了極大的不穩(wěn)定性。
怎樣才能將隱層的誤差表示出來呢?反向傳播算法的出現(xiàn)是一場“及時(shí)雨”。
它的原理簡單來說,就是一旦下降時(shí)(即前向傳播)輸出層沒有得到適當(dāng)而明確的誤差參數(shù),那么反向傳播就會(huì)借助轉(zhuǎn)置權(quán)重矩陣,讓誤差可以被隱藏層感知到,進(jìn)而產(chǎn)生“間接誤差”。而隱藏層的權(quán)重矩陣就可以借助間接誤差進(jìn)行更新。這樣反復(fù)迭代,就能將包含隱藏層的多層神經(jīng)網(wǎng)絡(luò)誤差降到最小。
正是在此基礎(chǔ)上,卷積神經(jīng)網(wǎng)絡(luò)展現(xiàn)出了前所未有的性能。
輸入數(shù)據(jù)的特征經(jīng)過歸一化處理后,就會(huì)進(jìn)入隱含層中,完成卷積計(jì)算、池化、調(diào)參等一系列模擬神經(jīng)元的操作,再輸出成不同的識(shí)別效果。
這種分層認(rèn)知特征的學(xué)習(xí)能力,和人類大腦的思維方式高度相似。這也是為什么,卷積神經(jīng)網(wǎng)絡(luò)在機(jī)器視覺及很多問題上都取得了當(dāng)時(shí)最好的性能,成為應(yīng)用最廣泛的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
但是,受限于反向傳播的天然缺陷,卷積神經(jīng)網(wǎng)絡(luò)并不完美,黑箱性、高消耗、遷移能力差等諸多問題,一直為學(xué)界和產(chǎn)業(yè)界所詬病。這也是為什么,Hinton一直在尋找著CNN的替代者。
2011年,Hinton認(rèn)為目前的圖像識(shí)別方法在智力上表現(xiàn)不夠好,提出了“膠囊”的概念。數(shù)年之后,2017年10月,則在機(jī)器學(xué)習(xí)的頂級(jí)會(huì)議“神經(jīng)信息處理系統(tǒng)大會(huì)(NIPS)”上發(fā)表了題為《膠囊之間的動(dòng)態(tài)路由》的論文,提出了全新的深度學(xué)習(xí)方法——膠囊網(wǎng)絡(luò)(CapsNet)。
“膠囊”代表圖像中特定實(shí)體的各種特征,比如位置、大小、方向、速度、色調(diào)、紋理等等,作為一個(gè)單獨(dú)的邏輯單元存在。然后,使用一個(gè)協(xié)議路由算法,當(dāng)膠囊將自己學(xué)習(xí)并預(yù)測到的數(shù)據(jù)傳遞給更高層次的膠囊時(shí),如果預(yù)測一致,更高級(jí)別的膠囊變得活躍,這個(gè)過程就被稱作動(dòng)態(tài)路由。
隨著路由機(jī)制的不斷迭代,就能夠?qū)⒏鞣N膠囊訓(xùn)練成學(xué)習(xí)不同思維的單元。例如,讓神經(jīng)網(wǎng)絡(luò)識(shí)別面部,就將面孔的不同部分分別“路由”到能夠理解眼睛、鼻子、嘴、耳朵的膠囊里去。
換句話說,神經(jīng)膠囊就是一組被打包好的神經(jīng)元,它們在內(nèi)部進(jìn)行大量運(yùn)算,然后僅向上輸出一個(gè)結(jié)果——高維向量。
(膠囊網(wǎng)絡(luò)流程)
那么,膠囊網(wǎng)絡(luò),比常規(guī)的卷積神經(jīng)網(wǎng)絡(luò)好在什么地方?大約可以總結(jié)為三點(diǎn):
首先,卷積神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果是標(biāo)量,而膠囊網(wǎng)絡(luò)是帶有方向的向量。而向量存在的意義是,膠囊網(wǎng)絡(luò)不僅可以根據(jù)統(tǒng)計(jì)信息進(jìn)行特征檢測,比如根據(jù)眼睛鼻子嘴等五官識(shí)別出一張“臉”,還可以對特征進(jìn)行理解,如果五官不在其特定的區(qū)域了,比如嘴長到了額頭、眼睛長到了耳朵上,膠囊網(wǎng)絡(luò)卻不會(huì)像CNN一樣含糊放過。因?yàn)樗軌驒z測不同方向的同一個(gè)物體類別(例如,順時(shí)針旋轉(zhuǎn)),從而學(xué)習(xí)到基本的思維,知道到底什么樣子的五官才能被稱作是“臉”。
第二,卷積神經(jīng)網(wǎng)絡(luò)的每一層都需要做同樣的卷積運(yùn)算,因此需要相當(dāng)多的網(wǎng)絡(luò)數(shù)據(jù)才能學(xué)習(xí),否則就無法精準(zhǔn)地調(diào)參,非常耗時(shí)、低效且昂貴。比如讓它學(xué)會(huì)認(rèn)臉技能,需要投喂大量不同的變體,MNIST數(shù)據(jù)集就包含55,000個(gè)訓(xùn)練數(shù)據(jù),即每個(gè)數(shù)字單元都有5,500個(gè)樣本。
膠囊網(wǎng)絡(luò)則要求模型在膠囊中學(xué)習(xí)特征變量,最大化保留那些有價(jià)值的信息,因此它可以使用更少的訓(xùn)練數(shù)據(jù)就推斷出可能的變量,達(dá)到CNN的預(yù)期效果。這就使得它在人臉識(shí)別、圖像識(shí)別、字符識(shí)別等領(lǐng)域的落地更受歡迎了。
(MultiMNIST數(shù)據(jù)集中,膠囊網(wǎng)絡(luò)輸出性能遠(yuǎn)超CNN)
第三,卷積神經(jīng)網(wǎng)絡(luò)不能很好地處理模糊性,因?yàn)椴粩喑鼗瘯?huì)丟失許多重要的特征信息,因此對微小的變化不甚敏感,在完成語義分割等復(fù)雜任務(wù)時(shí),需要構(gòu)建復(fù)雜的體系結(jié)構(gòu)來解決信息丟失問題。也難怪Hinton會(huì)說出“CNN分類正確率很高,看似一個(gè)大好局面,實(shí)則是一場災(zāi)難”的話了。
但膠囊網(wǎng)絡(luò)不同,由于每個(gè)膠囊都攜帶了大量的信息,目標(biāo)位置、旋轉(zhuǎn)、厚度、傾斜、大小等詳細(xì)信息都被保存并平移給了上層膠囊,自然也就可以用簡單一致的架構(gòu)應(yīng)對不同的視覺任務(wù)。
聽起來是不是還蠻不錯(cuò)的,別激動(dòng),除此之外,膠囊網(wǎng)絡(luò)還有一個(gè)比較“形而上”的優(yōu)勢,那就是它的傳輸和運(yùn)算邏輯更符合人腦神經(jīng)元的工作方式,不同的膠囊可以攜帶不同屬性,就像人腦的不同區(qū)域負(fù)責(zé)不同的工作。因此,其智能化表現(xiàn)上更加優(yōu)秀,能夠舉一反三。
比如下面這些自由女神像,各種角度都能認(rèn)出來,對膠囊網(wǎng)羅來說非常簡單。而CNN在模擬人類神經(jīng)元這件事上,卻只能“有多少人工(數(shù)據(jù))就有多少智能”,真是高下立見啊。
膠囊神經(jīng)網(wǎng)絡(luò)想要上位,差在哪些地方?
被AI教父親口斷定沒有前途,一場神經(jīng)網(wǎng)絡(luò)界庶長子與嫡次子的奪位之戰(zhàn)即將拉開序幕……
顯然,又聰明又能干又會(huì)過日子的“膠囊網(wǎng)絡(luò)”才是民心所向,2018年2月該論文第一作者剛剛在GitHub開源了膠囊網(wǎng)絡(luò)的代碼,就吸引來了數(shù)萬人fork(復(fù)制源代碼在其上開發(fā))。
按理說,以AI算法的迭代速度,一年多時(shí)間怎么都?jí)蚍趸鯪個(gè)新模型了,比如AlphaGo開源并隱退后,很快又出現(xiàn)了強(qiáng)化版“師弟”AlphaGo Master,擊敗了世界排名第一的人類選手柯潔。五個(gè)月之后,更強(qiáng)的AlphaGo zero從零自學(xué)了40天,又打敗了AlphaGo Master版本。
既然如此,怎么膠囊網(wǎng)絡(luò)就是“雷聲大雨點(diǎn)小”呢?
顯然,不是“嫡次子”能力不行,也不是智囊團(tuán)不給力,而是想要真的把“ANN長子”拉下馬,勢必會(huì)遭遇若干阻礙,比如說:
1.模型訓(xùn)練的周期局限。由于需要在每個(gè)膠囊單元中完成計(jì)算(協(xié)議路由算法),導(dǎo)致其訓(xùn)練模型的時(shí)間更慢。在不同硬件和云服務(wù)器上的50迭代訓(xùn)練時(shí)間說明,與CNN相比,膠囊網(wǎng)絡(luò)模型需要更大的耐心。
2.學(xué)術(shù)起步階段的研究局限。目前針對膠囊網(wǎng)絡(luò)的研究大多集中在零樣本和少樣本任務(wù)中,而且,膠囊網(wǎng)絡(luò)在CIFAR10數(shù)據(jù)集、ImageNet等大圖像上的準(zhǔn)確性并沒有CNN的高。產(chǎn)業(yè)端自然不會(huì)在缺乏足夠?qū)嶒?yàn)例證、投資回報(bào)不明晰的前提下,貿(mào)貿(mào)然就選擇跟進(jìn)了。
3.膠囊網(wǎng)絡(luò)自身的性能局限。與CNN一樣,膠囊網(wǎng)絡(luò)也有其不完美之處,比如膠囊擁擠,即如果一個(gè)膠囊網(wǎng)絡(luò)彼此之間太接近,就沒有辦法區(qū)分出同一類型的兩個(gè)對象。因此在模型中,給定的位置上只能有一個(gè)給定類型的膠囊,這就大大局限了其現(xiàn)實(shí)中應(yīng)用的條件。
從某種程度上來說,膠囊網(wǎng)絡(luò)還是一個(gè)剛剛墜地的孩童,距離拿下CNN的位置還是非常遙遠(yuǎn)的。
但是也別急著失望,讓CNN在現(xiàn)階段發(fā)光發(fā)熱,同時(shí)繼續(xù)培養(yǎng)未來堪當(dāng)大任的接班人,這樣生生不息的AI未來也蠻值得期待的,“養(yǎng)成”也是一種樂趣嘛~
學(xué)而時(shí)習(xí)之:膠囊網(wǎng)絡(luò)的新發(fā)現(xiàn)
雖然現(xiàn)在的膠囊網(wǎng)絡(luò)還很弱小,但并不妨礙無數(shù)“最強(qiáng)大腦”拼命教它本領(lǐng)。那么近兩年來,膠囊網(wǎng)絡(luò)有哪些新的發(fā)現(xiàn)可以給大家匯報(bào)一下呢?
有幾個(gè)重要的成就值得說說:
1.通過膠囊網(wǎng)絡(luò)抵御對抗性攻擊
還是熟悉的配方,還是熟悉的味道。在膠囊網(wǎng)絡(luò)模型提出的一年之后,原作者團(tuán)隊(duì)(Sabour、Frosst 以及 Hinton)在2018年的機(jī)器學(xué)習(xí)安全研討會(huì)中展示了自己的新成果——膠囊網(wǎng)絡(luò)在抵御對抗性攻擊上的能力。
對抗性攻擊會(huì)對傳統(tǒng)的CNN產(chǎn)生較大影響,比如不同方向的圖片,CNN很容易辨認(rèn)不清,如果一些特征被放置在了錯(cuò)誤的地方,CNN也會(huì)被圖片所欺騙。這會(huì)引發(fā)一系列安全問題,比如自動(dòng)駕駛汽車搞混了真的人臉與打印的人臉。
對此,原團(tuán)隊(duì)提出了一種與攻擊獨(dú)立的檢測技術(shù)——DARCCC,它能夠識(shí)別出真實(shí)圖像和GAN生成的圖像在距離上的分布誤差,從而有效檢測出“對抗”圖像,防止系統(tǒng)被假圖片欺騙而導(dǎo)致錯(cuò)誤的分類。
(用真實(shí)數(shù)據(jù)和對抗樣本分別訓(xùn)練出的膠囊網(wǎng)絡(luò),后者重構(gòu)出的圖像更像“1”)
2. 膠囊網(wǎng)絡(luò)+圖卷積GCN的圖分類能力
圖分類是一個(gè)應(yīng)用非常廣泛的技術(shù),在分子表示、社會(huì)網(wǎng)絡(luò)分析、金融等領(lǐng)域,都需要從圖形中提取特征信息,并對其進(jìn)行結(jié)構(gòu)化的數(shù)據(jù)表示和分類。但是,已有的CNN分類算法在運(yùn)行過程中,往往需要固定大小的矩陣,但圖形節(jié)點(diǎn)和邊的數(shù)量卻可能存在很大的變化,給任務(wù)帶來很大的困難。
而判斷特征之間的相似性,正是膠囊網(wǎng)絡(luò)所擅長的。因此,有研究團(tuán)隊(duì)將膠囊網(wǎng)絡(luò)與圖卷積GCN相結(jié)合,開發(fā)出了新的圖分類模型??磕z囊網(wǎng)絡(luò)記住圖結(jié)構(gòu)中的豐富信息,以及圖的節(jié)點(diǎn)和邊等實(shí)體特征,將其轉(zhuǎn)化成向量。再將CNN和膠囊層結(jié)合在一起,從而提高分類性能。
實(shí)驗(yàn)結(jié)果表明,在所有7個(gè)基準(zhǔn)數(shù)據(jù)集上,膠囊網(wǎng)絡(luò)的加入確實(shí)效果優(yōu)于CNN分類器。不過,執(zhí)行速度也比CNN慢上八倍,同志仍需努力呀。
3.膠囊網(wǎng)絡(luò)+注意力機(jī)制=零樣本意圖識(shí)別
在少量樣本或無樣本情況下,對新的類別進(jìn)行理解,是困擾學(xué)界和產(chǎn)業(yè)界的老大難問題。比如在智能問答和對話系統(tǒng)中,如何快速識(shí)別明明確新用戶的對話和意圖,對其進(jìn)行正確分類和處理,就是提升智能對話、降低無效溝通的重要課題。
就在前不久,ACL 2018中就出現(xiàn)了相關(guān)研究,研究人員首先通過與訓(xùn)練方式提取文本信息,對其層次特征進(jìn)行向量化處理。然后利用膠囊動(dòng)態(tài)路由算法,將新的用戶意圖與已有用戶意圖之間的相似度進(jìn)行對比,再將已有用戶意圖上的信息遷移至新的用戶意圖分類上,從而實(shí)現(xiàn)對新意圖的預(yù)測。
在SNIPS-NLU和CVA兩個(gè)語音助手?jǐn)?shù)據(jù)集上,膠囊網(wǎng)絡(luò)的加入都讓語義理解能力有了一定的提升。
關(guān)于膠囊網(wǎng)絡(luò)的相關(guān)學(xué)術(shù)論文還有不少,比如基于膠囊網(wǎng)絡(luò)的手勢識(shí)別,正確率達(dá)到94.2%,能夠幫助聽障人群進(jìn)行更有效地溝通;以及在ICLR 2019上發(fā)表的圖片分類新框架膠囊圖神經(jīng)網(wǎng)絡(luò)(CapsGNN),也是將膠囊網(wǎng)絡(luò)與圖神經(jīng)網(wǎng)絡(luò)(GNN)結(jié)合的新模型。
如果說以卷積神經(jīng)網(wǎng)絡(luò)為尊,是現(xiàn)階段AI產(chǎn)業(yè)的“原教旨主義”,膠囊網(wǎng)絡(luò)顯然正在讓這一信仰土崩瓦解。不過,從實(shí)驗(yàn)室到真實(shí)的應(yīng)用體系中,想要真正取代CNN,還有千千萬萬特殊問題亟待處理。但如果把它當(dāng)做一個(gè)思路,與現(xiàn)有的深度學(xué)習(xí)模型相結(jié)合,那么現(xiàn)在,膠囊網(wǎng)絡(luò)就可以給予我們不少意外和驚喜。
這當(dāng)然僅僅是個(gè)開始,正如不斷手撕CNN的Hinton所總結(jié)的——科學(xué)是踩著葬禮前行的。站在前人的肩膀上前行,才能讓人工智能始終作為一種“殺手锏”式技術(shù),成為我們博弈未來的武器。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車整車股盤初強(qiáng)勢拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。