原標(biāo)題:清華大數(shù)據(jù)論壇落幕 快手AI技術(shù)副總裁鄭文分享深度學(xué)習(xí)應(yīng)用
4月27日,清華大學(xué)108周年校慶之際,清華大學(xué)大數(shù)據(jù)研究中心、清華-快手未來(lái)媒體數(shù)據(jù)聯(lián)合研究院共同主辦《清華大數(shù)據(jù)論壇——深度學(xué)習(xí)技術(shù)與應(yīng)用》,清華大學(xué)師生、校友匯聚一堂,探討分享深度學(xué)習(xí)技術(shù)與應(yīng)用的最新進(jìn)展。
清華大學(xué)-快手未來(lái)媒體數(shù)據(jù)聯(lián)合研究院于2018年4月正式成立。作為清華大學(xué)校級(jí)科研機(jī)構(gòu),研究院充分利用清華大學(xué)的領(lǐng)先技術(shù)和快手多年的行業(yè)積累,面向多個(gè)領(lǐng)域開(kāi)展基礎(chǔ)和應(yīng)用研究、開(kāi)發(fā)、集成和快速迭代,共同探討一系列未來(lái)媒體課題,讓技術(shù)更好賦能用戶,實(shí)現(xiàn)人與人之間更精準(zhǔn)的連接。
軟件學(xué)院2001級(jí)的校友、清華-快手未來(lái)媒體數(shù)據(jù)聯(lián)合研究院副院長(zhǎng)、快手AI技術(shù)副總裁鄭文博士作了題為《深度學(xué)習(xí)在短視頻領(lǐng)域的應(yīng)用和展望》的分享。以下為演講的核心內(nèi)容。
作為一個(gè)日活超過(guò)1.6億的短視頻APP,快手的使命是“用科技提升每一個(gè)人獨(dú)特的幸福感”。這里有兩個(gè)關(guān)鍵詞,一是“每一個(gè)人”,這說(shuō)明快手的價(jià)值觀是非常普世的,但我們同時(shí)也強(qiáng)調(diào)每個(gè)人的幸福感是“獨(dú)特的”。光靠人工運(yùn)營(yíng)很難達(dá)到針對(duì)每個(gè)人的服務(wù),需要通過(guò)人工智能技術(shù),特別是近幾年有所突破的深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)。
目前快手是通過(guò)記錄來(lái)提升幸福感的,這可以從兩個(gè)方面來(lái)體現(xiàn)。首先,用戶希望能看到更廣闊的世界。第二,用戶也有分享自己,被更廣闊的世界看到的需求。
但是這里面臨一個(gè)挑戰(zhàn),現(xiàn)在快手累計(jì)擁有超過(guò) 80 億條視頻與數(shù)億用戶,在這兩個(gè)海量的數(shù)字面前,如何有效分配注意力?過(guò)去,注意力一般會(huì)集中在所謂的“爆款視頻”里,但在爆款視頻之下,還有大量可能包含了非常豐富的信息、類(lèi)別多樣化的內(nèi)容,這種“長(zhǎng)尾視頻”往往很難被別人注意到。如此,一些需求小眾,或者興趣比較細(xì)分的群體往往很難找到他們想要的內(nèi)容。
這個(gè)挑戰(zhàn)決定了我們必須要依賴(lài)于深度學(xué)習(xí)為主的AI技術(shù)解決該問(wèn)題,代替人工實(shí)現(xiàn)內(nèi)容匹配的分發(fā)。快手很早開(kāi)始就在AI相關(guān)技術(shù)方面做了很多積累,從視頻生產(chǎn)到分發(fā)每一個(gè)環(huán)節(jié)都有大量深度學(xué)習(xí)的應(yīng)用。
內(nèi)容生產(chǎn)
快手希望通過(guò) AI 技術(shù)使得記錄更加豐富有趣,基于這個(gè)目標(biāo),我們開(kāi)發(fā)了大量多媒體和 AI 技術(shù),比如背景分割、天空分割、頭發(fā)分割,人體關(guān)鍵點(diǎn)、人臉關(guān)鍵點(diǎn)、手勢(shì)關(guān)鍵點(diǎn)檢測(cè)等等,并將它們應(yīng)用在魔法表情中。
快手用戶跟中國(guó)互聯(lián)網(wǎng)用戶分布非常一致,中國(guó)互聯(lián)網(wǎng)用戶里面有很大一部分使用的手機(jī)都是中低端手機(jī),算力有限。而先進(jìn)的 AI 技術(shù)對(duì)設(shè)備的計(jì)算量的要求極高,為了讓先進(jìn)的技術(shù)被最多的用戶體驗(yàn)到,快手對(duì)底層平臺(tái)進(jìn)行定制化開(kāi)發(fā),基于快手自研的 YCNN 深度學(xué)習(xí)推理引擎及媒體引擎,讓上述技術(shù)在大多數(shù)機(jī)型上都能高效運(yùn)行,并針對(duì)不同機(jī)型、不同硬件進(jìn)行了適配和優(yōu)化。
快手也希望將內(nèi)容質(zhì)量變得更高,研發(fā)并應(yīng)用了很多圖像增強(qiáng)技術(shù)。例如,用戶在光線很暗的環(huán)境下拍攝,產(chǎn)出的視頻往往會(huì)丟失信息和細(xì)節(jié),通過(guò)暗光增強(qiáng)技術(shù),可以將這些細(xì)節(jié)恢復(fù)。
接下來(lái)是快手近期在內(nèi)容生產(chǎn)方面研發(fā)的一些具體的深度學(xué)習(xí)技術(shù)。三維人臉技術(shù)能夠針對(duì)單張人臉圖像恢復(fù)出人臉的三維信息,一方面可以實(shí)現(xiàn)對(duì)人臉的一些修改,比如打光、做一些表情、實(shí)現(xiàn)三維變臉特效;另一方面,通過(guò)三維人臉信息,我們可以提取出人的表情變化,然后把表情遷移到虛擬的卡通形象上,效果類(lèi)似于 iPhoneX 推出的 Animoji 功能,但 iPhoneX 有結(jié)構(gòu)光攝像頭,且運(yùn)行 Animoji 需要很強(qiáng)大的算力,我們通過(guò)技術(shù)研發(fā),在普通攝像頭、配置較低的手機(jī)上也能實(shí)現(xiàn)類(lèi)似功能。
剛才也提到了語(yǔ)義分割技術(shù),人像分割技術(shù)能把人像和背景區(qū)分開(kāi),分別對(duì)人像和背景做特效,或者進(jìn)行背景替換,還可以做人像虛化;頭發(fā)分割,可以把頭發(fā)區(qū)域分割出來(lái),做染發(fā)效果。天空分割技術(shù)則可以讓天空區(qū)域變得更加超現(xiàn)實(shí)、更加夢(mèng)幻。
人體姿態(tài)估計(jì)則是預(yù)測(cè)人的關(guān)節(jié)點(diǎn)位置,利用這一技術(shù),我們可以給人體肢體上加特效,或者修改人的體型,做美體瘦身功能。此外,我們還能重構(gòu)出人體的三維信息,用于控制卡通形象。
手勢(shì)檢測(cè)是把各種特定的不同手形檢測(cè)出來(lái),實(shí)現(xiàn)「控雨」等玩法。另外還有 AR 相機(jī)姿態(tài)估計(jì),背后是快手自研的 3D 引擎,并在其基礎(chǔ)上添加編輯器模塊、渲染模塊、肢體模塊、聲音模塊等,來(lái)實(shí)現(xiàn)模型精致而自然的光感、材質(zhì)。
在音視頻方面,我們應(yīng)用了很多智能算法,比如需要視頻盡可能清晰,但同時(shí)也要求傳輸流暢,這就需要針對(duì)視頻復(fù)雜度做一些自適應(yīng)優(yōu)化。另外,我們也會(huì)對(duì)圖像進(jìn)行分析,比如視頻里面人臉的區(qū)域往往對(duì)大家的觀感影響最大,我們會(huì)把人臉的區(qū)域檢測(cè)出來(lái),將碼率做得更高,使得整體觀感獲得很大的提升。
我們也會(huì)檢測(cè)圖像質(zhì)量,比如視頻生產(chǎn)過(guò)程中存在一些導(dǎo)致圖像質(zhì)量較低的因素,如拍攝沒(méi)有對(duì)好焦,鏡頭長(zhǎng)期沒(méi)有擦拭,或者視頻經(jīng)過(guò)多次上傳和壓縮而產(chǎn)生塊狀瑕疵。我們會(huì)把這些問(wèn)題通過(guò) AI 算法檢測(cè)出來(lái),一方面提醒用戶拍攝的時(shí)候注意這些問(wèn)題,另一方面在做視頻推薦時(shí)也會(huì)對(duì)高質(zhì)量視頻進(jìn)行一些傾斜。
內(nèi)容理解
內(nèi)容生產(chǎn)環(huán)節(jié)完成后,視頻會(huì)被上傳到后端服務(wù)器,這里我們需要對(duì)視頻內(nèi)容進(jìn)行更深層次的理解。視頻的內(nèi)容理解會(huì)用在很多方面,比如內(nèi)容安全、原創(chuàng)保護(hù)、推薦、搜索、廣告等等,這里大概分為兩個(gè)階段。
首先是感知階段,機(jī)器會(huì)從人臉、圖像、音樂(lè)、語(yǔ)音四個(gè)維度對(duì)視頻信息進(jìn)行理解。
人臉是一個(gè)很重要的維度,因?yàn)槿四樛巳怂P(guān)心的最主要的部分,我們會(huì)對(duì)人臉區(qū)域進(jìn)行檢測(cè),識(shí)別年齡、性別、表情等。
另外一個(gè)維度是圖像層面,我們會(huì)對(duì)圖像進(jìn)行分類(lèi),如圖像的場(chǎng)景是什么;此外也會(huì)檢測(cè)圖像中有哪些物體,還會(huì)進(jìn)行圖像質(zhì)量評(píng)估,以及利用 OCR 技術(shù)從圖像中提取文字。
音樂(lè)是影響視頻感染力很重要的一部分,我們可以從視頻里識(shí)別出音樂(lè)類(lèi)型,甚至可以對(duì)音樂(lè)進(jìn)行結(jié)構(gòu)化分析,分離伴奏和歌唱部分。
語(yǔ)音也是視頻非常重要的維度,往往從圖像中可能并不能很好地得到視頻所傳達(dá)的信息,這時(shí)候語(yǔ)音就非常重要,我們會(huì)把語(yǔ)音識(shí)別出來(lái)轉(zhuǎn)化成文字,也會(huì)通過(guò)語(yǔ)音去識(shí)別人物的身份、年齡、性別等等。
第二個(gè)階段是推理階段,我們會(huì)把這些不同維度的信息進(jìn)行多模態(tài)融合,推理出更高層次的語(yǔ)音信息,或者對(duì)視頻進(jìn)行情感識(shí)別。我們也用到知識(shí)圖譜技術(shù),把視頻里的知識(shí)存儲(chǔ)在知識(shí)圖譜里表達(dá)出來(lái)。通過(guò)知識(shí)圖譜的推理,能夠得到一些更高層、更深入的信息。
在內(nèi)容理解方面我們也做了一些比較具體的技術(shù),如快手開(kāi)發(fā)了一套視頻標(biāo)簽系統(tǒng),可以對(duì)視頻里出現(xiàn)的大多數(shù)內(nèi)容和場(chǎng)景進(jìn)行分類(lèi)。在快手語(yǔ)音識(shí)別功能模塊,我們采用深度學(xué)習(xí)算法,結(jié)合上下文語(yǔ)境模塊,使得識(shí)別精度得到很大提升。
一方面,我們需要理解視頻內(nèi)容,另一方面,我們也需要對(duì)用戶進(jìn)行理解,包含用戶公開(kāi)的年齡、性別等信息以及用戶在實(shí)時(shí)使用快手時(shí)產(chǎn)生一些行為數(shù)據(jù)。這些數(shù)據(jù)都會(huì)傳送到后端的深度學(xué)習(xí)模型里,訓(xùn)練出對(duì)用戶理解的向量。通過(guò)這些向量,我們可以預(yù)測(cè)用戶的興趣以及他與其他用戶之間的關(guān)系。
最后我們得到對(duì)用戶的描述以及對(duì)視頻的理解,用戶和視頻之間的匹配就會(huì)產(chǎn)生萬(wàn)億級(jí)別特征的大數(shù)據(jù),這個(gè)大數(shù)據(jù)會(huì)被用在實(shí)時(shí)在線的推薦系統(tǒng)里,預(yù)測(cè)用戶會(huì)對(duì)什么樣的視頻感興趣。另外我們也會(huì)對(duì)社區(qū)里的內(nèi)容進(jìn)行排序,比如前面提到如何分配注意力,我們希望注意力分配的差距不要太大,所以會(huì)根據(jù)基尼系數(shù)調(diào)整視頻內(nèi)容的分配情況。此外,還會(huì)考慮到內(nèi)容的安全性、多樣性以及原創(chuàng)保護(hù)等因素。
最后,我們也希望跟高校、學(xué)界的老師同學(xué)進(jìn)一步加強(qiáng)深度合作,充分利用快手的海量數(shù)據(jù)和強(qiáng)大算力,共同推進(jìn)深度學(xué)習(xí)技術(shù),挖掘未來(lái)更多的可能性,提升大眾幸福感,這也是成立清華大學(xué)-快手未來(lái)媒體數(shù)據(jù)聯(lián)合研究院的愿景,謝謝大家。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋(píng)果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢(qián)通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱(chēng)塔塔集團(tuán)將收購(gòu)和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營(yíng)
- 蘋(píng)果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過(guò)熱挑戰(zhàn),交付延期引發(fā)市場(chǎng)關(guān)注
- 馬斯克能否成為 AI 部部長(zhǎng)?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無(wú)人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測(cè)量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開(kāi)展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車(chē)整車(chē)股盤(pán)初強(qiáng)勢(shì)拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。