近日,騰訊優(yōu)圖實(shí)驗(yàn)室總監(jiān)黃飛躍接受CSDN專訪,揭秘了騰訊優(yōu)圖八年間的研發(fā)和落地歷程,以及對(duì)計(jì)算機(jī)視覺(jué)的未來(lái)展望。以下為專訪內(nèi)容:
12 年前,清華大學(xué)博士畢業(yè)的黃飛躍加入騰訊剛成立不到一年的騰訊研究院,帶著 5 個(gè)人的小組,第一個(gè)項(xiàng)目是做一款名為“QQ影像”的桌面處理軟件,但由于團(tuán)隊(duì)都屬于 IT 直男,對(duì)于產(chǎn)品一竅不通,于是首個(gè)項(xiàng)目以并不盡如人意的結(jié)局告終。
12 年后,當(dāng)初的 5 人團(tuán)隊(duì)已經(jīng)擴(kuò)大到 數(shù)百人的規(guī)模,成為計(jì)算機(jī)視覺(jué)領(lǐng)域鼎鼎有名的優(yōu)圖實(shí)驗(yàn)室。但細(xì)算起來(lái),優(yōu)圖正式成立的時(shí)間其實(shí)在 2012 年,這一年,黃飛躍帶領(lǐng)的這支團(tuán)隊(duì)更名為“優(yōu)圖”,他作為優(yōu)圖團(tuán)隊(duì)的負(fù)責(zé)人,帶領(lǐng)這幫人成為國(guó)內(nèi)計(jì)算機(jī)視覺(jué)大規(guī)模應(yīng)用最早的一批從業(yè)者。
如今,做計(jì)算機(jī)視覺(jué)的人不會(huì)不認(rèn)識(shí)優(yōu)圖這個(gè)名字,尤其是人臉識(shí)別技術(shù)和產(chǎn)品,優(yōu)圖的名聲更是響亮。作為騰訊消費(fèi)互聯(lián)網(wǎng)業(yè)務(wù)背后的“隱形 AI 戰(zhàn)隊(duì)”,優(yōu)圖實(shí)驗(yàn)室與 騰訊 AI Lab 和微信 AI 團(tuán)隊(duì)一起,并列騰訊 AI 三大人工智能團(tuán)隊(duì),為包括 QQ、微信、騰訊微視等消費(fèi)互聯(lián)網(wǎng)產(chǎn)品提供技術(shù)支持。
優(yōu)圖在做什么?
2018 年,騰訊宣布戰(zhàn)略轉(zhuǎn)型升級(jí),擁抱產(chǎn)業(yè)互聯(lián)網(wǎng),優(yōu)圖從騰訊內(nèi)部的一個(gè)技術(shù)團(tuán)隊(duì)開(kāi)始走向前臺(tái),通過(guò)騰訊云等對(duì)外輸出視覺(jué) AI 能力。
黃飛躍對(duì)于優(yōu)圖的定位,就是一個(gè)計(jì)算機(jī)視覺(jué)相關(guān)技術(shù)的研發(fā)和落地的實(shí)驗(yàn)室,從最開(kāi)始的圖像壓縮,到后面的人臉識(shí)別,再往后的人體識(shí)別、OCR 等一系列技術(shù),優(yōu)圖從最初的圍繞騰訊公司內(nèi)部的需求提供技術(shù)支撐,到現(xiàn)在依托騰訊云等產(chǎn)品對(duì)外輸出產(chǎn)品和解決方案。
有人會(huì)好奇,優(yōu)圖到底都做了些什么。實(shí)際上,從騰訊內(nèi)部到 ToC,優(yōu)圖的AI技術(shù)早已滲透到我們的日常生活中,留心觀察的話會(huì)發(fā)現(xiàn),我們平常用到的微信刷臉支付、人臉識(shí)別對(duì)比、隨申碼、健康碼、微眾銀行等 App 的人臉核身等,背后都是優(yōu)圖在做技術(shù)支撐。比如在微信小程序申請(qǐng)民政服務(wù),檢測(cè)人臉時(shí)出現(xiàn)的藍(lán)色、綠色等不同顏色的光譜,其實(shí)就是在做活體檢測(cè),確認(rèn)是否是本人操作。
天天P圖
黃飛躍表示,最近一兩年,短視頻、泛娛樂(lè)場(chǎng)景的視覺(jué)AI需求比較旺盛,為此優(yōu)圖打造了一系列泛娛樂(lè)方面的解決方案,包括美顏美妝、人像分割、趣味合成和生成、人臉融合和變裝等,你平常打開(kāi)的美顏軟件,說(shuō)不定就有優(yōu)圖的存在。
讓筆者印象比較深刻的,還有在尋找走失兒童場(chǎng)景中,優(yōu)圖可以實(shí)現(xiàn)跨年齡人臉識(shí)別,一兩歲時(shí)丟失的嬰兒,丟失十幾年之后的兒童也能被精準(zhǔn)識(shí)別,這樣的“黑科技”也是優(yōu)圖研發(fā)的。
了解計(jì)算機(jī)視覺(jué)技術(shù)的人應(yīng)該知道,跨年齡人臉識(shí)別對(duì)于數(shù)據(jù)量和模型訓(xùn)練來(lái)說(shuō)都是巨大的挑戰(zhàn),為了充分的從數(shù)據(jù)中學(xué)習(xí)人臉自然的跨年齡變化規(guī)律,騰訊優(yōu)圖提出了基于 DDL(分布式蒸餾學(xué)習(xí)法則)學(xué)習(xí)策略的正則化遷移學(xué)習(xí)策略?;谠摬呗?,算法模型可充分進(jìn)行跨年齡人臉識(shí)別學(xué)習(xí),從而讓困難的跨年齡識(shí)別更加可靠和精準(zhǔn)。用這項(xiàng)技術(shù),騰訊成功幫助警方找回多名被拐超過(guò)十年的兒童。
“救人一命勝造七級(jí)浮屠”,可以造福、方便人類的事情,正是所有技術(shù)人的追求,因?yàn)檫@讓我們所做的事情變得有了意義。
優(yōu)圖的技術(shù)“家底”有多厚?
各種場(chǎng)景下的應(yīng)用, 當(dāng)然離不開(kāi)底層技術(shù)的支撐。從團(tuán)隊(duì)成立之初做圖片壓縮,到后來(lái)轉(zhuǎn)到人臉檢測(cè)和識(shí)別,優(yōu)圖不斷洞察新技術(shù)趨勢(shì),積淀下清晰的技術(shù)發(fā)展路線。
黃飛躍在清華大學(xué)讀研讀博時(shí),所學(xué)專業(yè)除了人臉識(shí)別和人臉檢測(cè)之外,還包括人頭 3D 重建、人體動(dòng)作識(shí)別等技術(shù)。黃飛躍回憶,那時(shí)候人臉識(shí)別與現(xiàn)在相比有著巨大的差異,十幾年前,火爆的專業(yè)是網(wǎng)絡(luò)工程等方向,計(jì)算機(jī)視覺(jué)方向在當(dāng)時(shí)是冷門。
黃飛躍也承認(rèn),當(dāng)時(shí)學(xué)術(shù)的不成熟導(dǎo)致整個(gè)計(jì)算機(jī)視覺(jué)產(chǎn)業(yè)鏈不完整。現(xiàn)在,我們已經(jīng)可以通過(guò)深度學(xué)習(xí)技術(shù),為很多計(jì)算機(jī)視覺(jué)問(wèn)題找到很好的解決方案,比如人臉檢測(cè)識(shí)別,我們能夠從幾百人的合照中找到 99% 甚至全部的人臉,有遮擋也可以做到,但在當(dāng)時(shí),深度學(xué)習(xí)還沒(méi)有起來(lái),大家更多的是做偏研究的事情,和實(shí)際業(yè)務(wù)結(jié)合較少,采集數(shù)據(jù)難度大,算法在實(shí)際應(yīng)用中效果差,只能在特定場(chǎng)景和小范圍內(nèi)做有限的應(yīng)用。
總之,當(dāng)時(shí)的計(jì)算機(jī)視覺(jué)研究環(huán)境很惡劣,人工智能仍處于發(fā)展瓶頸期,體系建設(shè)沒(méi)有展開(kāi)。2008 年,黃飛躍畢業(yè)時(shí)也曾糾結(jié)過(guò)去做老師還是進(jìn)公司,看了很多方向,選擇了加入剛成立不到一年的騰訊研究院,起初是跟著 leader,后來(lái)才帶領(lǐng)著 5 人小組,在迷茫中開(kāi)始視覺(jué)AI的探索之路。
因圖像壓縮技術(shù)聲名大噪
上文中也提到,最開(kāi)始,這支團(tuán)隊(duì)負(fù)責(zé)一款名叫“QQ 影像”的桌面處理軟件,這是一款和美圖秀秀類似的圖像管理編輯軟件,既有工程又有黃飛躍學(xué)習(xí)的視覺(jué)圖像處理的一系列的能力,所以他認(rèn)為這兩者的結(jié)合是一個(gè)機(jī)會(huì)。但這個(gè)項(xiàng)目做到 2011年,PC 端開(kāi)始向移動(dòng)端轉(zhuǎn)移,但 QQ 影像是 PC 軟件,所以失去優(yōu)勢(shì),加上團(tuán)隊(duì)都是技術(shù)人員,缺乏產(chǎn)品思維,導(dǎo)致產(chǎn)品發(fā)展不盡人意。
QQ 影像
2010 年,黃飛躍和團(tuán)隊(duì)遷往上海。2011 年下半年,黃飛躍發(fā)現(xiàn)“圖片二次壓縮”技術(shù)可能存在極大的價(jià)值,可以廣泛應(yīng)用到騰訊內(nèi)部的眾多業(yè)務(wù)中,比如圖片的存儲(chǔ)與傳輸,可有效減少存儲(chǔ)、降低帶寬流量,為公司節(jié)省巨額資金及存儲(chǔ)空間。隨著研究的深入和技術(shù)的不斷成熟,黃飛躍帶著團(tuán)隊(duì)開(kāi)始為騰訊內(nèi)部其他團(tuán)隊(duì)提供圖片二次壓縮技術(shù)——可以將圖片像素壓縮 20%-30%,大大降低帶寬成本。
此時(shí),團(tuán)隊(duì)更名為“優(yōu)圖”——這便是“優(yōu)圖實(shí)驗(yàn)室”的前身。
優(yōu)圖的圖片壓縮技術(shù)為騰訊創(chuàng)造了巨大的價(jià)值,也為優(yōu)圖帶來(lái)了聲望。
轉(zhuǎn)移到人臉檢測(cè)識(shí)別方向
2012 年下半年,優(yōu)圖把研究重心轉(zhuǎn)移到人臉檢測(cè)識(shí)別方向,開(kāi)始進(jìn)行人臉技術(shù)研發(fā)和儲(chǔ)備。此時(shí)正逢騰訊的組織架構(gòu)調(diào)整,原本隸屬于騰訊研究院的優(yōu)圖并到了騰訊社交網(wǎng)絡(luò)事業(yè)群旗下。
2013 上半年,優(yōu)圖開(kāi)始將人臉檢測(cè)技術(shù)輸出至 QQ 空間,同時(shí)將技術(shù)提供給推出爆款“武媚娘”妝容的“天天P圖”前身——“水印相機(jī)”團(tuán)隊(duì)。2014 年,QQ 空間“面孔墻”全量上線,這是業(yè)界最早在大規(guī)模社交網(wǎng)絡(luò)平臺(tái)中人臉識(shí)別技術(shù)的應(yīng)用。此時(shí),黃飛躍帶領(lǐng)的優(yōu)圖團(tuán)隊(duì)只有 20 人不到。
2014 年上半年開(kāi)始,黃飛躍帶領(lǐng)優(yōu)圖團(tuán)隊(duì)開(kāi)始探尋大量人臉識(shí)別應(yīng)用場(chǎng)景,和騰訊征信負(fù)責(zé)人挖掘人臉識(shí)別的一個(gè)創(chuàng)新應(yīng)用,即通過(guò)自拍照和身份證照片比對(duì),來(lái)確認(rèn)是否是用戶本人(人臉核身)。在成功打出微眾銀行這個(gè)線上人臉核身案例后,優(yōu)圖將技術(shù)逐漸開(kāi)放給內(nèi)部超過(guò) 50 個(gè)業(yè)務(wù),并在 QQ、QQ 空間、QQ 音樂(lè)、財(cái)付通、微眾銀行、天天 P 圖等明星產(chǎn)品中成功落地,也與滴滴、聯(lián)通等企業(yè)達(dá)成合作。
隨著業(yè)務(wù)的發(fā)展壯大,騰訊優(yōu)圖也從最開(kāi)始的 5 人團(tuán)隊(duì),成長(zhǎng)為現(xiàn)在的百人以上的規(guī)模。
2018 年 9 月 30 日,騰訊宣布組織架構(gòu)調(diào)整,隸屬于 SNG 的優(yōu)圖實(shí)驗(yàn)室調(diào)整歸屬于 CSIG 云與智慧產(chǎn)業(yè)事業(yè)群。優(yōu)圖開(kāi)始和云與智慧產(chǎn)業(yè)形成更密切的聯(lián)動(dòng)配合,通過(guò)騰訊云、微信等輸出視覺(jué)AI能力,在金融、零售、政務(wù)、社區(qū)、物流、文旅等領(lǐng)域落地解決方案。
以上就是優(yōu)圖實(shí)驗(yàn)室大致的技術(shù)發(fā)展路線,在這個(gè)過(guò)程中,黃飛躍帶領(lǐng)團(tuán)隊(duì)自主研發(fā)了很多創(chuàng)新性的計(jì)算機(jī)視覺(jué)技術(shù)和應(yīng)用。
人臉識(shí)別算法迭代
黃飛躍回憶,自 2012 年下半年將重點(diǎn)轉(zhuǎn)移到人臉識(shí)別上來(lái)之后,優(yōu)圖便開(kāi)始積累人臉相關(guān)技術(shù)。那時(shí),優(yōu)圖會(huì)使用一些傳統(tǒng)的分類 PCA 等方法做檢測(cè)識(shí)別,從而具備了基礎(chǔ)的人臉相關(guān)能力,包括人臉檢測(cè)、人臉五官定位、人臉識(shí)別這三要素。
2014 年以后,優(yōu)圖開(kāi)始跟進(jìn)深度學(xué)習(xí)相關(guān)技術(shù)潮流和趨勢(shì),最開(kāi)始是用深度學(xué)習(xí)對(duì)齊傳統(tǒng)的人臉?lè)椒ā?/p>
黃飛躍認(rèn)為,實(shí)際上人臉技術(shù)的演進(jìn)有這幾個(gè)點(diǎn),其一是活體檢測(cè),優(yōu)圖做了人臉安全與身份核驗(yàn)、紋理檢測(cè)、動(dòng)作識(shí)別,以及自主研發(fā)的反光活體技術(shù),即手機(jī)側(cè)終端隨機(jī)發(fā)出一系列不同的光,根據(jù)光照射用戶的情況,和攝像頭捕捉到的信息,判斷是真的人臉還是一張照片、面具還是視頻。這是人臉安全系列的技術(shù)演進(jìn)。
其二是人臉識(shí)別規(guī)模的大幅提升,從開(kāi)始的幾千到幾萬(wàn)的規(guī)模,現(xiàn)在到從數(shù)十億規(guī)模中做人臉檢測(cè),背后依靠的是深度學(xué)習(xí)技術(shù)。
第三個(gè)特點(diǎn)是要結(jié)合實(shí)際業(yè)務(wù)場(chǎng)景,比如在疫情期間的口罩檢測(cè),就需要做算法和場(chǎng)景交互的設(shè)計(jì)調(diào)整。
八年成長(zhǎng)路,不斷積累“雪中送炭”的能力
從騰訊內(nèi)部一個(gè)名不見(jiàn)經(jīng)傳的小組,到成長(zhǎng)為一個(gè)頗有名氣的AI實(shí)驗(yàn)室,優(yōu)圖花了八年時(shí)間,一路走來(lái)也并非一帆風(fēng)順,他們面臨的挑戰(zhàn)不僅來(lái)自技術(shù)層面,還有如何向公司證明技術(shù)的價(jià)值。
比如讓這支團(tuán)隊(duì)聲名鵲起的圖像壓縮技術(shù)發(fā)明之初,優(yōu)圖團(tuán)隊(duì)就面臨著如何說(shuō)服公司內(nèi)部客戶、合作伙伴和部門用這項(xiàng)技術(shù)的問(wèn)題,為了與 QQ 空間團(tuán)隊(duì)合作,他們要經(jīng)常跑到深圳,甚至長(zhǎng)期派駐人員了解對(duì)方的需求。當(dāng)時(shí),QQ 空間團(tuán)隊(duì)關(guān)注的技術(shù)點(diǎn)很多,如何讓圖片顯示更清晰,PC 端網(wǎng)頁(yè)的相冊(cè)照片如何更好地展示縮略圖等,都是他們關(guān)心的問(wèn)題,優(yōu)圖要做的不僅是要把技術(shù)“賣”給他們,還要根據(jù)需求給出具體的解決方案。好在團(tuán)隊(duì)成功完成任務(wù),度過(guò)了團(tuán)隊(duì)成立之初的第一個(gè)大關(guān)。
2014 年是優(yōu)圖的一個(gè)拐點(diǎn)。在這個(gè)時(shí)間段,雖然優(yōu)圖與 QQ 空間的合作已經(jīng)取得了一系列成果,優(yōu)圖研發(fā)推出的 QQ 空間面孔墻可以幫助用戶按照人的維度來(lái)管理自己的相冊(cè)、照片,整體的效果體驗(yàn),包括準(zhǔn)確度、指標(biāo)都不錯(cuò),但是實(shí)際上線之后,黃飛躍卻開(kāi)始思考另一個(gè)問(wèn)題:優(yōu)圖團(tuán)隊(duì)的價(jià)值在哪里?因?yàn)檫@個(gè)能力始終是錦上添花,并不是雪中送炭,離不開(kāi)的能力。于是,優(yōu)圖開(kāi)始挖掘一些剛需、有價(jià)值的點(diǎn)。
黃飛躍想到了人臉識(shí)別。那時(shí)候團(tuán)隊(duì)已經(jīng)開(kāi)始主打人臉識(shí)別相關(guān)技術(shù)的研發(fā),但是存在一定困難。2014 年下半年與微眾銀行的合作是一個(gè)契機(jī)。當(dāng)時(shí),微眾銀行開(kāi)業(yè),給自己的定位就是完全線下無(wú)網(wǎng)點(diǎn)銀行,沒(méi)有線下網(wǎng)點(diǎn),線上開(kāi)戶只能通過(guò)人臉核身。但當(dāng)時(shí)人臉核身技術(shù)層面上不成熟,這就給了優(yōu)圖難得的機(jī)遇,從 2014 年 9 月份開(kāi)始合作,到 2015 年微眾銀行正式上線,優(yōu)圖攻堅(jiān)了一系列難題,包括提高人臉活體的能力,防止人臉照片、視頻攻擊等,獲得了微眾的認(rèn)可,把真金白銀的業(yè)務(wù)交給優(yōu)圖。
八年走過(guò)來(lái),優(yōu)圖的發(fā)展路線愈發(fā)清晰,聚焦于最核心的能力,比如人臉識(shí)別、人臉檢測(cè)定位等,避免與其他團(tuán)隊(duì)的研發(fā)“撞車”;另外一方面,一些團(tuán)隊(duì)更多地側(cè)重在優(yōu)圖基礎(chǔ)能力之上做封裝,如與 PCG 合作力,優(yōu)圖負(fù)責(zé)提供人臉檢測(cè)配準(zhǔn)的基礎(chǔ)能力,PCG 在此之上研發(fā)美顏掛件等,提供美顏能力和解決方案。
計(jì)算機(jī)視覺(jué)迎來(lái)第二次高潮
以優(yōu)圖為代表,是國(guó)內(nèi)互聯(lián)網(wǎng)企業(yè)做計(jì)算機(jī)視覺(jué)技術(shù)研發(fā)與應(yīng)用開(kāi)發(fā)的縮影。在移動(dòng)互聯(lián)網(wǎng)時(shí)代,計(jì)算機(jī)視覺(jué)乘著東風(fēng),迎來(lái)第二次發(fā)展的高潮。
黃飛躍認(rèn)為,移動(dòng)互聯(lián)網(wǎng)與計(jì)算機(jī)視覺(jué)之間是相輔相成的關(guān)系,這其中有幾個(gè)原因,一個(gè)是正好深度學(xué)習(xí)的進(jìn)展和移動(dòng)互聯(lián)網(wǎng)發(fā)展的時(shí)間重合,移動(dòng)互聯(lián)網(wǎng)時(shí)代的特點(diǎn)是手機(jī)上的攝像頭,有了傳感器,數(shù)據(jù)越來(lái)越多,UGC 數(shù)據(jù)量急劇增加,帶來(lái)大量的需求和機(jī)會(huì),因此整個(gè)移動(dòng)互聯(lián)網(wǎng)的產(chǎn)業(yè)鏈、市場(chǎng)空間遠(yuǎn)遠(yuǎn)大于 PC 互聯(lián)網(wǎng),因?yàn)橛?jì)算終端無(wú)所不在,攝像頭獲取數(shù)據(jù)的設(shè)備無(wú)限大,市場(chǎng)很大會(huì)帶來(lái)更多發(fā)展的機(jī)會(huì),相關(guān)的企業(yè)也將越來(lái)越多。
然而,我們應(yīng)該清楚,計(jì)算機(jī)視覺(jué)技術(shù)現(xiàn)在還處于發(fā)展較前期的前階段,能夠解決一些問(wèn)題,但是更多地是做到識(shí)別模式,而不是理解,也就是偏感知層面,最終還需要向認(rèn)知層面努力,建立起對(duì)圖的深度理解,但目前從技術(shù)層面上來(lái)說(shuō)還沒(méi)有一個(gè)特別好的解決方案,跨越感知和認(rèn)知之間的鴻溝將是一個(gè)艱難的過(guò)程。
談到計(jì)算機(jī)視覺(jué)未來(lái)的發(fā)展趨勢(shì),黃飛躍表示優(yōu)圖將緊跟行業(yè)產(chǎn)業(yè)的趨勢(shì),目前他比較關(guān)注的是 5G,5G 將使流量帶寬越來(lái)越大,手機(jī)終端計(jì)算能力越來(lái)越強(qiáng),多媒體的處理、短視頻也可能出現(xiàn)更豐富的表現(xiàn)形式。另外,AR/VR、短視頻等也將成為計(jì)算機(jī)視覺(jué)應(yīng)用較多的場(chǎng)景。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )