視覺常識推理VCR (Visual Commonsense Reasoning )是人工智能領域的前沿熱點問題,我國《新一代人工智能發(fā)展規(guī)劃》中也將從處理類型單一的數(shù)據(jù)到跨媒體認知、學習和推理的“跨媒體智能”納入五大智能方向。
近日,騰訊微視視頻理解團隊在多模態(tài)理解領域最權威排行榜之一VCR任務中榮登榜首。該團隊提出的BLENDer(BimodaL ENcoDer)模型超越百度、谷歌、微軟、Facebook等多家研究機構的模型效果,一舉成為單、多模型的三項指標第一,值得注意的是,BLENDer僅憑單模型效果便超越了此前榜單上的多模型最好效果,賦予了機器更強大的理解和認知能力,并深度應用到短視頻領域。
趕超百度、谷歌等,騰訊微視AI團隊登頂VCR榜首
VisualCommonsense Reasoning (VCR)任務于2018年由華盛頓大學的研究人員首次提出,任務旨在將圖像和自然語言理解二者結合,驗證多模態(tài)模型高階認知和常識推理的能力,讓機器擁有“看圖說話”的能力, 例如VCR能夠通過圖片中人物的行為,進一步推理出其動機、情緒等信息。VCR榜單是多模態(tài)理解領域最權威的排行榜之一,也是當前圖像理解和多模態(tài)領域層次最深、門檻最高的任務之一,吸引了微軟、谷歌、Facebook、百度、UCLA等國內外公司和研究機構紛紛參與。
此次拔得頭籌的單模型BLENDer來自于騰訊微視視頻理解團隊,超越上一屆榜首百度團隊的多模態(tài)預訓練模型 ERNIE-ViL-large成為新的VCR榜單霸主。
據(jù)相關負責人介紹,BLENDer模型已經(jīng)應用到騰訊微視產(chǎn)品中,賦予了平臺更強大的認知能力,使得包含文本、音頻、視頻等多種媒體信息在內的短視頻內容,能夠更好的做到分類和識別,更加精準理解和挖掘這些海量的跨媒體信息。例如當騰訊微視用戶創(chuàng)作視頻后平臺可識別內容并精準推薦適合的話題,也能根據(jù)內容屬性快速推薦給感興趣的用戶,增強創(chuàng)作內容的曝光。
騰訊微視視頻理解團隊提出的單模型BLENDer,是基于前沿的視覺語言Bert模型,將整個學習過程分成三個階段,最終將任務的三項問答準確率一舉提高到了81.6, 86.4, 70.8的水平,僅是BLENDer單模型上的表現(xiàn)已經(jīng)超過此前各業(yè)界公司和研究機構的多模型融合效果。
在BLENDer模型中,第一階段以NLP中的Bert模型為起點,結合海量數(shù)據(jù)中抽取得到的數(shù)百萬張圖片和對應描述文本作為BLENDer的輸入進行多模態(tài)訓練;第二階段,在視覺常識推理數(shù)據(jù)集上學習電影中的場景和情節(jié),使模型在新數(shù)據(jù)上獲得更好的遷移能力;第三階段,引入最終問答任務,讓BLENDer利用已有的知識和常識對現(xiàn)有問題進行人物-人物、人物-場景之間關系的挖掘和關聯(lián)進行推理,得到最終的答案。
騰訊微視將人工智能技術賦能短視頻
一直以來,騰訊微視高度關注技術研發(fā),騰訊微視視頻理解團隊更是長期深耕多模態(tài)語義理解領域,持續(xù)進行技術突破和落地,將相關技術應用在海量圖像、視頻、文本等跨媒體信息的認知推理中。
同時,騰訊微視團隊也不斷從業(yè)務出發(fā)探索前沿領域,并將人工智能技術應用到短視頻生態(tài)中,貫穿內容創(chuàng)作、內容審核以及內容分發(fā)的各個環(huán)節(jié)。
在內容創(chuàng)作環(huán)節(jié),騰訊微視將3D人臉、人體、GAN等AI技術結合AR技術輔助用戶進行內容創(chuàng)作,讓創(chuàng)作過程更加便捷、有趣和普惠;在視頻審核環(huán)節(jié),騰訊微視借助圖像檢測、分類、多模態(tài)理解等AI技術精準識別視頻內容,提升審核效率,使得用戶生產(chǎn)的內容最快時間觸達消費者,目前騰訊微視內容處理效率已取得業(yè)界領先水平;而在視頻分發(fā)環(huán)節(jié),騰訊微視借助AI技術從非結構化的圖像、音頻、文本數(shù)據(jù)中提取結構化信息輸出,如標簽、特征等,支撐分發(fā)精準匹配用戶。
未來,人工智能將具備更加多元、深度的交流學習能力,而技術的創(chuàng)新和精進將進一步推動AI技術在短視頻業(yè)務中智能交互場景的落地。
(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )