COCO 2017競賽,在曠視科技首席科學家、研究院院長孫劍博士的帶領下,曠視研究院一舉奪得三個冠軍:參與了COCO物體檢測、物體分割和人體關鍵點檢測三項任務的挑戰(zhàn),取得了兩項第一(物體檢測、人體關鍵點),一項第二(物體分割);還在Places語義分割環(huán)節(jié)戰(zhàn)勝谷歌奪得第一。孫劍博士也是深度殘差網絡ResNet作者之一,最近倍受關注的AlphaGo Zero的一個關鍵技術便是ResNet。
2017年11月8日,孫劍博士出席了由新智元舉辦的 AI World 2017世界人工智能大會上,并發(fā)表了《視覺端計算:從ResNet到ShuffleNet》的主題演講。
孫劍博士此前提到,曠視成功的秘訣是創(chuàng)新,不斷地創(chuàng)新,持續(xù)不斷地創(chuàng)新。在接受新智元專訪時,他分享了如何做到本質創(chuàng)新的秘訣:本質創(chuàng)新是希望能觸及問題的本質,但也分兩個層次。
“大層次來看,算法要解決問題,有兩種: 一種是定義問題、理解問題。今天,人工智能很多問題是不清楚的,因為人工智能屬于跨學科的研究,以機器學習為基礎,有計算機視覺、語音處理等等問題牽扯在一起,其中很多問題沒有定義清楚。所以在講算法創(chuàng)新的時候,首先要看需要解決什么問題。我認為最高層次的算法創(chuàng)新是對問題的理解以及新的看法。所以首先要理解清楚問題,才能夠有本質創(chuàng)新。換句話說,只有方向正確了,才可能做出好的算法,這是比較高的層次。
另外,對問題的理解需要挺長時間。如果想真正深刻理解一個問題的話,非常聰明的人可能要花兩三年,不聰明的人可能需要五年,這樣才可能對問題有非常深刻的理解。理解以前都做了什么?你現在做的這個東西是不是有意義的?這是上一層的算法創(chuàng)新,深入理解和清楚定義問題本質之后,算法才有意義。
下面一層的算法創(chuàng)新是說,今天在一定時期內發(fā)現了一個新問題,然后去找一個算法把這個問題又快又好地解決。
這里遵守兩條準則,第一條準則是這個算法必須有一定的推廣性,不能太特殊。比如說做物體識別,舉個例子,原來我們曾經做過貓頭檢測,利用貓的耳朵比較尖的特性做了算法,這個問題解決了,但沒有通用性,影響力就不大。
第二個原則就是別人會不會用、會不會重復使用你的算法。如果你是在學術界或者要公開算法的話,只有別人主動愿意用你的算法,才能形成網絡效應。你自己很看好,但是別人不看好,或者說別人并不去主動用你這個東西,說明你的這個東西沒有觸到用戶的痛點。其實,你的同行也是你算法的用戶,如果他們不得不主動使用你的算法,這就說明真正觸及到了問題的本質,這條是非常重要的。我們以前在大公司做的一些算法,今天還有很多人用。我們今天在Face++做的算法(ShuffleNet),第二天就有公開的開源社區(qū),去實現這個算法,他們在不少大公司和創(chuàng)業(yè)公司都第一時間用了這個算法。這就說明你的算法特別好用,這樣的東西就是本質性創(chuàng)新?!?/p>
曠視研究院院長的帶兵之道:讀《孫子兵法》,鼓勵出論文,不在乎數量
孫劍博士曾談到,在帶領團隊拿到COCO競賽冠軍方面,做好了三件事:建團隊、激勵團隊、培養(yǎng)團隊。在接受新智元專訪時,孫劍詳細分享了如何帶領好一個團隊,吸引更多的人才。
他說:“帶團隊這件事情其實是多層次的。我最近看《孫子兵法》上講的,為將者首先要智勇雙全,要仁、要嚴、要信,還要做到明,誰做得對、誰做得不對要非常明。大致就是建立一個很好的文化,建立一些大的框架,哪些是我們應該做的,哪些是不應該做的。要圍繞著我們公司的價值觀,我們公司價值觀叫“追求、極致、簡單、可靠”,這幾個字對一個團隊非常重要?!白非蟆O致”有兩個含義,一個是說我們要做到最好,另一個是說做這件事情的時候要付出最大的努力,把所有的潛力都發(fā)揮出來?!?/p>
“從人才觀上的話,我們當然是希望找最聰明的人,我們要求并不高,你只要數學還不錯就可以。你如果線性代數還可以,編程還可以的話就可以做這件事情。我們的環(huán)境非常扁平化,所有的數據代碼基本上都是共享的,所有的知識都是共通的,包括我們內部的MegBrain。你如果想了解每個細節(jié),就可以找MegBrain的開發(fā)者,他會給你講細節(jié),到底MegBrain怎么設計的、怎么優(yōu)化,你會學到這些東西,可以有一個很自由的空間來做這件事情。還有一個很大的因素,讓大家覺得創(chuàng)新是安全的,是他愿意冒風險去做的。我大多數時候都不會說不要做這個、不要做那個,而是說你試試看,這樣讓大家有一個安全的、愿意探索的環(huán)境,提高命中率?!?/p>
在AI人才非常稀缺的今天,孫劍表示,在研究院,我們鼓勵出論文。這在國內外的創(chuàng)業(yè)公司里面應該是少數現象。“因為很多優(yōu)秀人才希望他們的工作一部分可以被看到。我們通過這樣的方式吸引人才”,他說。
但是,曠視對論文數量沒有要求。“我們對任何的事情都沒有數量要求,哪怕你只有一篇論文,但只要滿足創(chuàng)新的兩條原則,第一它是通用的,第二別人愿意用,只要有一篇這樣的論文就可以。我以前自己做研究,每次會議投稿時會花很長時間只做兩篇論文,我自己主做一篇,另一篇讓學生做,或者跟別人一起做一篇。我們不追求數量,只要有一篇了不起的論文就可以?!?br/>
以下是曠視科技Face++首席科學家孫劍博士在新智元AI World 2017世界人工智能大會上的演講:
孫劍AI WORLD 2017世界人工智能大會演講:
《視覺端計算:從ResNet到ShuffleNet 》
孫劍:各位好,非常高興新智元提供了這樣一個機會把我們做計算機視覺研究的人聚在一起,也非常高興見到以前的老朋友,比如騰訊的賈佳亞博士,我們之前曾經一起做計算機圖形學和計算機攝影學。剛才賈佳亞展示了一張圖:那是2004年我們倆合作的第一篇siggraph論文。當時非常難,不亞于今天去 COCO 或者 ImageNet拿一個冠軍。今天到場的嘉賓中,華先勝博士也是我在微軟的同事。計算機視覺在深度學習的推動下,發(fā)生了天翻地覆的變化,今天也在此分享一些我最近的工作。
CV (計算機視覺)在 AI 中大概的位置我用這一張圖來表現,其實我標不同的方塊的顏色代表這個領域商業(yè)化的成熟度,這里語音和視覺是更接近商業(yè)化落地的,NLP和通用人工智能還有很長的路要走。
CV今天非?;馃崾且驗樗蟹浅6嗟膽?,從互聯網、安防、無人車、機器人到AR、VR等等,也允許大公司和創(chuàng)業(yè)公司在整個市場上并存。
做CV的話需要什么呢?既需要理論也需要創(chuàng)新,這里分享一下:上周日曠視科技成立了學術委員會,非常有幸請到了圖靈獎唯一一位華人得主姚期智先生擔任學術委員會首席顧問,幫我們在理論方面把關。
今天我會分享一下算法上面的工作。
計算方式的變革(或復興):神經網絡計算突破馮·諾依曼結構的體系瓶頸
在講計算機視覺之前,我想先講一下對算法尤其是計算的理解。我們今天用的計算機還是馮·諾依曼結構的計算機,它的計算機體系結構設計的思想是要把數據和程序同時放在內存里,好處是程序遇到不同的數據時可以改變程序,可以自適應地處理數據,這非常了不起,因為在這之前,如果不這樣的話,每一次不管是插線還是打孔,都很難去重新編程。后來圖靈也問了個問題:既然機器可以根據自動處理數據,那是不是機器就可以擁有智能。
但是今天我們用了很長時間的馮·諾依曼結構,很大一個局限是它有一個瓶頸:學術界叫做馮·諾依曼瓶頸,其實是說CPU和內存之間的帶寬是不夠的。雖然 CPU 可以加速,但是數據越來越大,就會堵在中間。怎么去突破這一個瓶頸,目前的傳統(tǒng)計算機結構是不能突破這一瓶頸的。
而我們大腦其實不是這樣的結構,大腦里面所有的計算和表示都是在一個并行的網絡里面運行的。
這跟我們今天做的神經網絡也非常類似,這是神經網絡的一個神經元或者多個神經元在做的一些處理,右邊是人腦神經元的一些類別,基本上一個神經元會接受相連接的幾百個、上千個神經元來的輸入,然后做一個決策:神經元到底是激活還是不激活。
所以如果我們看今天神經網絡的計算是在做什么呢?其實是在通過一個函數把一個高維激活向量變成另外一個高維激活向量。我們目前的神經網絡就是不停做這樣的變換,做一次、兩次,做很多次,以至于形成一個非常復雜的嵌套變換,這就是我們今天的神經網絡。
我們可以把它拆成三個因素,一個是表示這樣的激活向量,還有里面的標量非線性,還有權重矩陣,這是里面的三要素。激活向量其實是知識的表示,非線性是來表示這個神經元是激活還是不激活,這權重矩陣是通過監(jiān)督學習到的知識。
這一個方式有很多好的特性,比如說它是高度并行,內存帶寬可以非常大,還有一個優(yōu)點就是計算非常簡單,基本上就是矩陣乘,沒有有分枝判斷,沒有馮·諾依曼結構下的復雜計算,所以這一種計算在一定意義上可以突破馮·諾依曼結構的體系瓶頸,比如說右側是今天神經網絡的主要模式,左邊是以前的模式,可以看到計算可以提高帶寬10倍甚至上百倍。
這樣的計算,現在還有NVIDIA、AMD的GPU這樣的并行處理單元來加速,大家可以看到這個數字,120個TFLOP/S,這是今天 NVIDIA最好的顯卡能做到的計算力。大家可以比較一下去年GPU的顯卡還是Pascal 系列,是10個TFLOP/S,今年不管是 NVIDIA還是谷歌第二代的TPU,計算量提高了10倍、甚至20倍,這遠遠打破了摩爾定律,這是在訓練端或者服務器端。
在中國也有華為的Mate10的手機,第一款搭載了寒武紀的1A 神經網絡加速器的手機,可以在客戶端也能夠方便運用這樣的計算能力。所以我們自己做研究就會問一個問題,怎么樣去利用這樣的計算力?
我們在Face++很早就意識到計算帶來非常大的變革。我們做了一個曠視科技的Brain,就是為了神經計算,這里面最重要的東西是深度學習平臺,底層是NVIDIA 的引擎,右邊是我們GPU集群,最核心的深度學習平臺我們內部叫做Brain++,是整個系統(tǒng)管理存儲、標注、深度學習訓練、GPU虛擬化管理甚至模型的發(fā)布,整個一套軟件系統(tǒng)來管理我們所有數千塊的GPU。
曠視科技的Brain++ 內部有一個最重要的東西叫 MegBrain, 它對應的就是一些開源的或者大公司推出的深度學習引擎,比如TensorFlow和Caffe。MegBrain是我們自研的一個引擎,早在TensorFlow之前。據我所知,這是所有創(chuàng)業(yè)公司中唯一一家自研深度學習引擎并且全員使用的,我們內部已經到了7.0的版本。這兩個條件非常重要,既要自研又要全員使用,給我們帶來非常多的好處,所以我們要堅持使用自己的深度學習引擎。
4.6 億美元怎么花?
大家可能前兩天看了一些新聞關于Face++拿到了一些融資,那融資拿來怎么用呢?我們主要有兩個大的方向,一方面是繼續(xù)打造類似于Brain++的引擎需要更多的計算力,另外一個方面會在城市大腦上做一些商業(yè)的開拓。
為什么花這么多的資源來做這件事情呢?因為我們相信今天的算法是目前設計的,但是如果問一個問題,如果今天計算量就提高一萬倍,那你應該如何重新設計自己的算法。一萬倍聽上去很多,其實也不是很難達到。比方說去年到今年就從10 TFLOP/S 通過NVIDIA和Google的努力到120-180 TFLOP/S,其實達到了18倍的增速。從計算力來說,如果有500多塊卡,我們就達到了一萬倍的加速。這是我在Face++研究院非常嚴肅地在研究的一個問題。有了這樣的計算變化,那視覺計算產生了什么樣大的變化?
我可以回顧一下,計算機視覺到底要解決什么問題。剛才賈佳亞教授也非常詳細地解釋了視覺計算要處理的一些核心問題?;旧鲜且枋鲆粡垐D片里面都有什么東西,描述這張圖片里正在發(fā)生什么和將要發(fā)生什么。
我們自己將它定義成四個核心問題,分別是分類、檢測、分割,序列分析,分別對應圖象、區(qū)域、像素和視頻的處理,這是Face++研究院核心要做的事。
以前做這一些問題,大家是通過手工設計特征的方式加上一個標準的SVM的分類器,這其實也是在做非線性變換,但是問題是這樣的非線性變換做不了很多次,很多研究嘗試做三次、五次、十次,發(fā)現超過三次就不太有效了。另外就是手工設計特征,人工很難去設計很好的特征。
今天深度神經網絡可以做一個非常多次的非線性變換,可以逼近非常復雜的映射。更重要的是,里面的所有參數都是自動學到的,這是深度學習網絡目前的現狀和基本方式。
這個過程來之不易,里面經過了很多代人的研究。有很多認知邊界的突破,比如說很多人之前不相信深度神經網絡是好的,是有用的,認為它根本不可能被訓練起來,這個魔咒其實是通過這幾年的發(fā)展才慢慢破除的。
我們看一下神經網絡為什么叫深度學習,其實說神經網絡的層數非常多,它夠深,這是2012年Hinton和學生做的 AlexNet,一個八層的網絡,當時認為已經非常深了。論文里還有一段,專門說八層比五層深是有道理的,證明深度是有道理的。論文發(fā)布以后還有很多人挑戰(zhàn)說其實更淺的也能做出來,現在已經沒有人挑戰(zhàn)了。過兩年之后,牛津大學和谷歌分別開發(fā)出了它們的網絡,20層的網絡,性能提高非常多。這兩個網絡大概都是20層,這并不是巧合,到了20層以后系統(tǒng)就很難訓練起來。我們自己做了一些工作,確實發(fā)現是這樣的問題,當非線性系統(tǒng)非常復雜的時候,確實很難訓練它。
在2015年的時候,當時我還在微軟亞洲研究院,我們做了一個工作叫做 ResNet,第一次做了一個152層的網絡,它有效地解決了神經網絡訓練中的優(yōu)化問題。我先放一個以前同事做的動畫,給大家看一下152層網絡到底有多深。其中一個小橫桿是一層。
這網絡到底為什么能做成呢?其實核心是引用了一個殘差學習的概念,這概念就是說當網絡非常深的時候,你要做一個變換,相鄰兩層的變化差別是不大,那只去學習殘差會比直接學習映射會更容易,所以我們就設計了殘差學習的思想,實際上可以用一個非常簡單的跨層連接來實現,從而達到非常容易優(yōu)化的復雜的非線性動態(tài)系統(tǒng)。為什么網絡可以很好的訓練起來,我們自己相信的一個解釋是整個訓練過程是一個從淺到深的訓練動態(tài)。還有一個數學上比較嚴謹的解釋是它能夠很好的消除以前深度學習網絡反傳算法中梯度消失的問題,這是個非常嚴重的問題,當你層數非常深的時候,梯度會越來越小,以至于計算機的精度會表示不了,就無法訓練整個系統(tǒng)了,這個就在數學上保證了梯度不會變小。殘差網絡也代表微軟贏得了 ImageNet 2015年的冠軍,第一次超過了人類在圖像識別上的表現。
深度學習:破除魔咒之旅
ResNet 網絡說明了什么?它說明了我們走到今天這一步非常不容易的,Geoffrey Hinton總結了一下為什么深度學習做得越來越好,比如說計算量越來越強、數據越來越大,細節(jié)做的更對了。其實我想說的是殘差學習隱含了網絡結構需要對優(yōu)化友好才可以做好。
我也分享一下,在前不久 AlphaGo Zero系統(tǒng)里面第一次用不學習人類棋譜的方式來戰(zhàn)勝了人類,其中有兩個核心技術,一個是自我博弈的增強學習,另外一個它也用到了我們的ResNet,用了一個40層或者80層的網絡來完成對棋譜到底哪里下子、到底對當前棋局是贏還是輸的一個判斷。
深度神經網絡設計的演化非??欤覀兘o大家羅列了從2012年到2016年的一些代表性工作年。進展非常快以至于我們做的很多視覺計算任務取得了非常大的進展,例如Coco是目前物體檢測最重要的一個基準測試。
今年我們贏得了冠軍。 2015年到2017年僅僅兩年,Coco物體檢測的精度從37變到了52。 37這個數字是當時我們在微軟研究院做的一個工作,是當時COCO的第一名。再往前2014年微軟創(chuàng)建COCO的時候,當時的結果只有20多,如果用非深度學習方法可能不到20。我們今年也獲得了COCO Keypoint 競賽的冠軍,這個問題就是說如何把每一個人的身體骨架都很精確的用3D姿態(tài)恢復出來,這樣很容易分析這個人的動作。
另外我們還獲得了今年第一次舉辦的Places Instance Segmentation 的冠軍。這是大家努力的一個方向,模型越做越大、精度越做越高,所有訓練要求計算力越來越大。還有一個方向是說,計算量不夠的時候,應該去如何應用這個技術,將其商業(yè)化。
我們以前做研究就講究填補國家空白,其實左邊一個空白我們看到了,然后我們今年提出來一個網絡叫ShuffleNet,它是為了給定計算量下或者比較小的計算量下,特別是計算量只有5到10個的TFLOP/S的時候,特別是手機上你怎么做深度學習網絡的推斷。
這里是ShuffleNet的一些基本機構,左邊是最早的網絡,然后ResNet、然后Bottleneck,ResNet,還有 MobileNets,然后右邊是ShuffleNet。
核心思想就是把計算量最昂貴的1乘1的卷集分成很多組引入Shuffle 的一個操作,我們可以達到非常好的性能。例如說我們比傳統(tǒng)的AlexNet在同樣精度上可以快15到20倍,這速度并不是理論復雜度,而是真正在手機上的實測速度,理論復雜度比這還要小。
我們把這東西用在什么地方呢?第一我們用在FGPA(可編程門陣列)芯片上,中間是FGPA智能抓拍機,把這FGPA塞到相機里,就是智能的抓拍機。右邊視頻向大家展示一下成本非常便宜的FGPA上如何做智能人像抓拍,這智能人像抓拍機目前是業(yè)界第一款全畫幅、全幀率的人像抓拍機。這是保證視頻里人臉都不漏掉的重要因素。
我們還把Shufflenet用在手機上。iPhoneX 有3D人臉解鎖,其實我們也已經幫助安卓手機廠商,包括VIVO、小米還有錘子手機,都使用了Face++的人臉解鎖技術,其實就是Shufflenet背后提供的計算,能夠讓人臉解鎖在手機上的時間小于0.1秒,拿起手機只要看一下屏幕馬上就可以解鎖,這速度會帶來非常不一樣的體驗,大家有機會可以試試不同款的手機。
落地:城市大腦及其他
另外一個就是剛才華先勝博士講的城市大腦。以前我也玩游戲,玩的一個游戲叫《模擬城市》其實就是你怎么去構造、管理這個城市。今天,隨著人工智能和各種技術的發(fā)展,我們有機會去做真實的模擬城市的工作,右邊是我們做的計算機視覺方面的進展,是如何在一個城市里面把所有的人和車進行檢測跟蹤,把所有屬性都抽取出來,這是城市大腦傳感器最重要的一部分。
另外,視覺計算還有非常廣的商業(yè)用途,我們的一個產品就是用刷臉做身份認證的平臺,目前這個平臺叫FaceID,它是世界上最大的人臉識別云平臺。它在線上為中國上百家互聯網金融公司提供服務。右邊是很好的商業(yè)探索,今天帶手機而不掃二維碼也可以用人臉支付,這是杭州肯德基第一個線下用人臉支付的案例。
還包括我們今天的無人店和新零售的一些探索,這里面是一個視頻展示一下Face++的技術如何幫助新零售行業(yè)做更好的線下商業(yè)銷售。
最后總結一下,雖然我們做了很多商業(yè)上的應用,特別是把核心算法用起來。但是做計算機視覺和人工智能的人都知道,真正觸及人工智能冰山一角還是非常困難的。在這過程中,我們內部就講幾個字,做公司的話,“技術、商業(yè)、數據”這個循環(huán)要轉起來。同樣,對于做算法,“熱情、洞察、耐心”是我們最重要的三個方向。
人才是根本:巨大的腦力ALL IN,AI 潛力巨大
中間這一張照片是我一個朋友分享的,我用這張照片表示人工智能還是很遙遠,前面的路還不知道怎么走,但是我們非常有信心,信心來自于哪里呢?信心來自于人的智力投入,左邊這一張是去年GTC NVIDIA年會拍的照片,右邊是今年計算機視覺年會CVPR的照片,每一個會議參與者都超過了5千人,這標志著世界上所有最聰明的人都在做這一件事情,我相信所有人的聰明才智集合在一起,一定能夠非??焖俚赝苿舆@一件事情的發(fā)展。
最后我再回顧一下,上周日我們請了姚期智院士來擔任我們Face++學術委員會的首席顧問。我們探討的主題是人工智能的本質創(chuàng)新。探討了非常多的話題后,最后回到了根本問題:人才。我們分別讓每一個人回答了一下對于人才的最重要要求。姚院士說希望在我們公司里,所有的研究員都能夠人盡其用。我自己在曠視研究院,最大使命是創(chuàng)造一個好的環(huán)境,讓每一個人才人盡其用。印奇是我們的CEO,他的使命是為公司找到最大的人工智能應用場景,同時匯聚交叉學科的人才,因為我們知道人工智能不是只做計算機視覺或語音語意理解,而是做認知、做機器人,甚至腦科學的人都應該匯聚在一起,才真正有可能把人工智能的問題一點點理清楚,定義好問題才能更加踏實地向前走。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 保時捷中國區(qū)裁員風波:賠償標準引爭議,員工不滿成焦點
- 職場風向標揭秘:韌性公司榜單出爐,CEO林凡談企業(yè)必修基本功
- 北外報告:近九成入境旅客熱切期待嘗試‘碰一下’新支付方式,‘中國速度’引人矚目
- 華為邊緣云:邊緣云市場新星,上半年規(guī)模同比增長21%斬獲54.8億元市場佳績
- 生成式AI風暴:到2029年,百度引領的產業(yè)或將飆升至728億美元市場!
- 億緯鋰能:華中地區(qū)儲能巨擘,億緯鋰能超級工廠投產引領行業(yè)新紀元!
- 比亞迪新能源汽車銷量持續(xù)增長,中汽協(xié):11月同比增長47.4%!
- Alphabet首席投資官揭秘:谷歌人工智能搜索大賭局,引領未來科技浪潮!
- 華為:科技引領未來,創(chuàng)新照亮夢想之路
- 英偉達發(fā)布“NaVILA模型”:引領機器人步入自主導航新時代!
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。