自疫情爆發(fā)以來,從省市級(jí)媒體到地方縣級(jí)融媒體平臺(tái),都紛紛啟用相芯科技的AI虛擬主播投入到疫情報(bào)道的實(shí)戰(zhàn)中來。虛擬主播是相芯科技對(duì)AI數(shù)字人的探索以及應(yīng)用的一部分,正在不斷改變智能媒體的時(shí)代。那么什么是AI數(shù)字人?這項(xiàng)技術(shù)是如何實(shí)現(xiàn)的?它還有哪些可拓展的實(shí)際落地場景?大家可以通過相芯科技CTO秦昊在達(dá)摩院AI Inside同行者大會(huì)中對(duì)AI數(shù)字人的技術(shù)分享,了解一下。
演講嘉賓簡介:秦昊,相芯科技CTO
摘要:在人工智能高速發(fā)展的今天,越來越多的AI技術(shù)開始與計(jì)算機(jī)圖形技術(shù)結(jié)合解決實(shí)際應(yīng)用問題。AI數(shù)字人技術(shù)由人工智能與CG技術(shù)結(jié)合而成,用于提供仿真的人機(jī)問答服務(wù),并在視覺通道上優(yōu)化人機(jī)交互體驗(yàn)。相芯科技CTO秦昊在達(dá)摩院AI Inside同行者大會(huì)中通過企業(yè)在AI數(shù)字人方面的探索及相關(guān)應(yīng)用的案例分享展現(xiàn)AI數(shù)字人技術(shù)的進(jìn)展及應(yīng)用。
以下內(nèi)容根據(jù)演講視頻以及PPT整理而成。
本文將站在應(yīng)用角度為大家展示相芯科技聯(lián)合阿里云TTS開發(fā)的AI數(shù)字人應(yīng)用案例。
AI數(shù)字人
AI數(shù)字人的概念起源于2017年SIGGRAPH大會(huì)上,眾多學(xué)術(shù)機(jī)構(gòu)合作推出了一款A(yù)I數(shù)字人Virtual Mike。通過融合當(dāng)時(shí)尖端的渲染技術(shù)與動(dòng)作捕捉技術(shù)大會(huì)打造了一個(gè)惟妙惟肖的實(shí)時(shí)虛擬角色。經(jīng)過兩三年的發(fā)展,互聯(lián)網(wǎng)行業(yè)中開始出現(xiàn)數(shù)字人技術(shù)應(yīng)用的案例,如百度公司與浦發(fā)銀行共同打造的AI數(shù)字人“小浦”可以作為銀行的數(shù)字員工為相關(guān)用戶提供業(yè)務(wù)咨詢及簡單業(yè)務(wù)辦理的服務(wù)。
AI數(shù)字人技術(shù)為用戶提供了全新基于視覺通道的人機(jī)交互界面。該界面通過融合CG技術(shù)、語音技術(shù)及自然語言處理等多種技術(shù),為使用者打造出類似人與人交互的操作體驗(yàn)。企業(yè)通過切換數(shù)字人背后的知識(shí)庫或AI模塊使其可以支撐不同的業(yè)務(wù)場景,如在媒體播報(bào)領(lǐng)域、個(gè)人助理領(lǐng)域及業(yè)務(wù)咨詢等領(lǐng)域數(shù)字人技術(shù)均有不俗的表現(xiàn)。
虛擬主播云平臺(tái)
相芯科技公司基于與阿里云的合作在很多領(lǐng)域開始進(jìn)行AI數(shù)字人技術(shù)的應(yīng)用落地。相芯科技的AI數(shù)字人技術(shù),只需要輸入一段文字,就可以全自動(dòng)地合成整個(gè)人的說話,包含動(dòng)作、形態(tài)、情緒的視頻。公司搭建的虛擬主播云平臺(tái)如下圖所示。在平臺(tái)編輯界面中,用戶可以對(duì)虛擬人物的角色、對(duì)話內(nèi)容腳本及相關(guān)人物動(dòng)作進(jìn)行選擇,并通過阿里云的云服務(wù)器進(jìn)行渲染和視頻合成,就能快速生成數(shù)字人的視頻,用戶可以自行將視頻下載,并進(jìn)行分發(fā)。
虛擬主播及虛擬機(jī)器人
下圖所示為公司虛擬主持人模塊的架構(gòu)。公司將相關(guān)腳本輸入,通過TTS語音技術(shù)完成人物語音的合成,在STA(Speech-to-Animation)模塊中進(jìn)行動(dòng)畫及視頻合成,最后生成相關(guān)的虛擬視頻。企業(yè)同時(shí)對(duì)互動(dòng)助手、虛擬機(jī)器人技術(shù)架構(gòu)進(jìn)行了開發(fā)。在數(shù)據(jù)輸入部分,系統(tǒng)通過接入自然語言處理等模塊完成了機(jī)器人問答系統(tǒng)的搭建,以此支持?jǐn)?shù)字人與用戶的實(shí)時(shí)交互功能。
語音技術(shù)合作伙伴—阿里云TTS
STA業(yè)務(wù)打造的虛擬主播與虛擬客服,都離不開語音合成技術(shù)TTS的支持。企業(yè)對(duì)市面上提供TTS服務(wù)的公司進(jìn)行調(diào)研對(duì)比后,選擇了阿里云TTS作為合作伙伴。企業(yè)通過與阿里云TTS的合作,為數(shù)字人角色搭建了真實(shí)自然的語音模型,并陸續(xù)在進(jìn)行更深層次的技術(shù)合作。
STA算法流程
下圖所示為STA(Speech-to-Animation)算法流程示意圖。企業(yè)將文本數(shù)據(jù)與語音數(shù)據(jù)共同作為算法數(shù)據(jù)導(dǎo)入算法模塊中,算法將會(huì)對(duì)語音數(shù)據(jù)中的情緒及語速等因素進(jìn)行分析,以此合成出數(shù)字人說話的口型、發(fā)音及與用戶的對(duì)話情景等數(shù)據(jù),通過分析出的數(shù)據(jù)驅(qū)動(dòng)數(shù)字人表現(xiàn)出自然生動(dòng)的畫面。
圖形合成模塊
企業(yè)經(jīng)過一系列探索,目前已擁有了完備的數(shù)字人表現(xiàn)及部署方案。從3D卡通形象到高精度虛擬人形象企業(yè)均可提供良好的塑造技術(shù)支持。企業(yè)可以使用不同的虛擬人物完成不同業(yè)務(wù)場景下對(duì)虛擬人物的需求,包括且不限于支持智能手機(jī)、終端及大屏上數(shù)字人的問答業(yè)務(wù)、支持云渲染實(shí)現(xiàn)高質(zhì)量視頻合成等業(yè)務(wù)場景。
照片級(jí)人像合成技術(shù)
企業(yè)由SIGGRAPH大會(huì)論文成果設(shè)計(jì)實(shí)現(xiàn)的照片級(jí)人像合成技術(shù)效果如下圖所示。使用者在左側(cè)輸入表情時(shí),右側(cè)的目標(biāo)照片上的人物可以實(shí)時(shí)做出惟妙惟肖的表情。該技術(shù)能非常細(xì)膩地合成人物臉上每處細(xì)節(jié)(如法令紋、牙齒等),使觀看者感受到照片像現(xiàn)實(shí)人物一樣在做動(dòng)作。
該技術(shù)背后為企業(yè)基于生成對(duì)抗網(wǎng)絡(luò)所開發(fā)的技術(shù)架構(gòu)。由于生成對(duì)抗網(wǎng)絡(luò)技術(shù)最大的難點(diǎn)在于它生成的結(jié)果的不可控性,考慮到數(shù)字人場景需要極其精準(zhǔn)掌控人物的發(fā)音狀態(tài)表現(xiàn),開發(fā)團(tuán)隊(duì)創(chuàng)新性的構(gòu)建了兩個(gè)階段的人像合成算法架構(gòu)。算法首先通過三維的數(shù)據(jù)重建與數(shù)據(jù)理解將圖像變形到開發(fā)團(tuán)隊(duì)預(yù)設(shè)的表情上,之后算法通過生成對(duì)抗網(wǎng)絡(luò)技術(shù)對(duì)虛擬人物在細(xì)節(jié)上進(jìn)行修補(bǔ)與還原。在這種方案下,生成對(duì)抗網(wǎng)絡(luò)本身可以專注于人物細(xì)節(jié)的修補(bǔ),免去了其處理圖片形變與位移所需的精力,使算法可以良好的控制虛擬人物表情變化,真實(shí)的還原人物細(xì)節(jié)。
下圖為企業(yè)照片級(jí)人像合成技術(shù)的效果。左上方在人在做一些表情,來控制其他照片,使這五張照片也可以合成出非常真實(shí)的表情,包括牙齒、嘴巴內(nèi)部、法令紋等細(xì)節(jié)都能合成得非常真實(shí),很難判別出真假。
虛擬主播案例
目前AI數(shù)字人技術(shù)不僅可以在高精度虛擬人物合成場景中進(jìn)行應(yīng)用,同時(shí)也多樣型的數(shù)字人解決方案開始在各行各業(yè)的業(yè)務(wù)場景中落地提供相應(yīng)服務(wù)。下圖所示為企業(yè)基于AI數(shù)字人技術(shù)設(shè)計(jì)開發(fā)的虛擬主播應(yīng)用案例。對(duì)于報(bào)社、電視臺(tái)及媒體等業(yè)務(wù)方而言,虛擬主播技術(shù)很好的滿足了業(yè)務(wù)方在自動(dòng)化視頻生成、媒體內(nèi)容生成方面的業(yè)務(wù)需求,成為了融媒體時(shí)代新聞媒體的傳媒利器。同時(shí)虛擬主播技術(shù)也被應(yīng)用于新媒體之中,業(yè)務(wù)方通過打造公司專屬的虛擬主播形象既可以實(shí)現(xiàn)與觀眾的情感互動(dòng)也保證了公司本身的傳媒影響力,避免了出現(xiàn)以往公眾影響力集中在新聞主播身上的情況。
虛擬機(jī)器人案例
企業(yè)在具有將強(qiáng)的互動(dòng)性虛擬機(jī)器人和互動(dòng)助手在技術(shù)上也在進(jìn)行相關(guān)探索。通過STA技術(shù),企業(yè)將虛擬人物與問答系統(tǒng)整合。在用戶使用系統(tǒng)進(jìn)行交互時(shí),系統(tǒng)將展現(xiàn)出更為具象的虛擬人物進(jìn)行交流互動(dòng)。比如公司通過與汽車企業(yè)合作研制的車機(jī)虛擬助手目前已實(shí)現(xiàn)量產(chǎn)車上的部署。公司同時(shí)積極探索數(shù)字人技術(shù)在線下場景中的應(yīng)用,通過在銀行大廳、地鐵售票處、醫(yī)院、法庭及企業(yè)展廳中部署AI數(shù)字人系統(tǒng)。同時(shí)公司可以實(shí)現(xiàn)讓智能音箱升級(jí)為具有具像化形象的智能系統(tǒng)。公司為不同業(yè)務(wù)的用戶群體提供了更為高效便利的咨詢服務(wù)及良好的交互體驗(yàn)。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 為什么年輕人不愛換手機(jī)了
- 柔宇科技未履行金額近億元被曝已6個(gè)月發(fā)不出工資
- 柔宇科技被曝已6個(gè)月發(fā)不出工資 公司回應(yīng)欠薪有補(bǔ)償方案
- 第六座“綠動(dòng)未來”環(huán)保公益圖書館落地貴州山區(qū)小學(xué)
- 窺見“新紀(jì)元”,2021元宇宙產(chǎn)業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機(jī)打造全新一代屏幕壓感
- 清潔家電新老玩家市場定位清晰,攜手共進(jìn),核心技術(shù)決定未來
- 新思科技與芯耀輝在IP產(chǎn)品領(lǐng)域達(dá)成戰(zhàn)略合作伙伴關(guān)系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。