7月7日,華為開發(fā)者大會(huì)2023 ( Cloud ) 在東莞拉開帷幕?;诒P古大模型能力,華為云MetaStudio數(shù)字內(nèi)容生產(chǎn)線全新升級(jí),推出數(shù)字人模型生成服務(wù)和模型驅(qū)動(dòng)服務(wù),旨在通過(guò)數(shù)字人服務(wù)和技術(shù)賦能,賦能千行百業(yè)提升數(shù)字內(nèi)容創(chuàng)作體驗(yàn)和效率。
AIGC正在重構(gòu)數(shù)字內(nèi)容生產(chǎn)模式,重新定義內(nèi)容力
當(dāng)前,數(shù)字人逐漸成為3D互聯(lián)網(wǎng)時(shí)代各類應(yīng)用的核心入口,進(jìn)入千行百業(yè)。大家常見(jiàn)的數(shù)字人抖音直播,營(yíng)業(yè)廳的數(shù)字人客服,還有各類綜藝節(jié)目如湖南臺(tái)《你好星期六》節(jié)目的綜藝虛擬主持人小漾等等,多種場(chǎng)景應(yīng)用層出不窮,新形象不斷呈現(xiàn)。
在數(shù)字內(nèi)容產(chǎn)業(yè),內(nèi)容力決定了企業(yè)的競(jìng)爭(zhēng)力,它由生產(chǎn)力、創(chuàng)造力和知識(shí)力逐步疊加和演進(jìn)而成。PGC時(shí)代,頭部電影中有90%的內(nèi)容是通過(guò)計(jì)算機(jī)來(lái)生成的。生產(chǎn)力,也就是算力的強(qiáng)度決定了內(nèi)容力;UGC時(shí)代,超過(guò)90%的數(shù)字內(nèi)容由個(gè)人用戶產(chǎn)生,創(chuàng)作者來(lái)自于千行百業(yè)。在生產(chǎn)力基礎(chǔ)上,增加了創(chuàng)造力,也就是行業(yè)的廣度,共同決定內(nèi)容力;當(dāng)前,我們已經(jīng)進(jìn)入AI時(shí)代,AIGC正在重構(gòu)數(shù)字內(nèi)容生產(chǎn)模式。到2030年,90%的內(nèi)容將通過(guò)AI產(chǎn)生。在生產(chǎn)力和創(chuàng)造力的基礎(chǔ)上,進(jìn)一步增加了知識(shí)力,也就是模型的深度,共同決定內(nèi)容力。
人人都需要自己獨(dú)一無(wú)二的個(gè)性化的數(shù)字人
華為云MetaStudio數(shù)字內(nèi)容生產(chǎn)線,基于華為云盤古基礎(chǔ)大模型能力、渲染引擎和實(shí)時(shí)音視頻能力,使用PB級(jí)的音視頻數(shù)據(jù)進(jìn)行訓(xùn)練,構(gòu)建了數(shù)字人通用大模型,包括數(shù)字人形象、動(dòng)作、表情、口型、聲音等;每個(gè)用戶還可以結(jié)合個(gè)人數(shù)據(jù)進(jìn)行訓(xùn)練,構(gòu)建自己的數(shù)字人個(gè)性化大模型。數(shù)字人生成后,用戶通過(guò)文字、語(yǔ)音、視頻等方式生產(chǎn)驅(qū)動(dòng)向量信息,從而驅(qū)動(dòng)數(shù)字人生成高清視頻。
通過(guò)發(fā)布現(xiàn)場(chǎng)的演示我們可以看到,用戶可通過(guò)多種方式生成數(shù)字人模型:
輸入文字生成數(shù)字人:輸入文本,描述希望生成的數(shù)字人樣子,10秒生成模型。比如通過(guò)Prompt文本輸入,目前支持可選50多項(xiàng)參數(shù)來(lái)生成數(shù)字人形象,生成時(shí)間僅需10秒,而行業(yè)的一些大模型需要30秒或者更長(zhǎng)的時(shí)間。
也可以上傳圖片生成數(shù)字人:只需要上傳一張照片,根據(jù)照片中的個(gè)人特征,生成不同類型的數(shù)字人,比如風(fēng)格化和美型數(shù)字人,這個(gè)時(shí)間僅需30秒。
或者用戶只需要拍攝一段5分鐘的視頻,也能生成個(gè)性化數(shù)字人模型,包含用戶自己的表情、口型、動(dòng)作特征,整個(gè)模型訓(xùn)練過(guò)程只需要1個(gè)小時(shí)。而業(yè)界一般需要訓(xùn)練12個(gè)小時(shí)以上?;趥€(gè)性化模型生成的數(shù)字人,將保留用戶的個(gè)性化形象、表情、動(dòng)作、聲音和口型信息。生成數(shù)字人后,可以通過(guò)對(duì)話完成對(duì)數(shù)字人的二次編輯和背景融合,比如發(fā)型、配飾、服裝等,真正做到每個(gè)人的數(shù)字人都獨(dú)一無(wú)二。
多模態(tài)數(shù)字人模型驅(qū)動(dòng),數(shù)字人在各行業(yè)多場(chǎng)景中應(yīng)用
數(shù)字人生成后,預(yù)訓(xùn)練模型對(duì)輸入的驅(qū)動(dòng)方式進(jìn)行分析,從多模態(tài)信息中通過(guò)深度編碼器提取特征向量信息,驅(qū)動(dòng)生成數(shù)字人的表情、口型、肢體動(dòng)作參數(shù),并最終生成高清視頻。
驅(qū)動(dòng)的方式也有多種,文字驅(qū)動(dòng)可基于識(shí)別文字的語(yǔ)義和情感,實(shí)現(xiàn)數(shù)字人動(dòng)作和文字的精準(zhǔn)匹配。通過(guò)多語(yǔ)言泛化技術(shù),一種語(yǔ)言、一次訓(xùn)練,即可使用多種語(yǔ)言驅(qū)動(dòng)數(shù)字人。除此之外,現(xiàn)在業(yè)界大部分?jǐn)?shù)字人都是站在固定點(diǎn)講解,無(wú)法支持移動(dòng),華為云通過(guò)2D視頻,以及2D/3D數(shù)據(jù)的聯(lián)合訓(xùn)練,實(shí)現(xiàn)數(shù)字人走動(dòng)、側(cè)身、手勢(shì)的精確驅(qū)動(dòng)。
多模態(tài)的數(shù)字人實(shí)時(shí)驅(qū)動(dòng)服務(wù),可以廣泛應(yīng)用到各種各樣的行業(yè)場(chǎng)景,比如直播、在線教育、在線客服、線上會(huì)議等。例如會(huì)議場(chǎng)景,通常我們默認(rèn)都是關(guān)閉視頻入會(huì),一是大多數(shù)人長(zhǎng)時(shí)間面對(duì)鏡頭感覺(jué)不自然、二是在辦公室公共環(huán)境、酒店、家里等場(chǎng)合涉及隱私,不愿意打開攝像頭,三是在運(yùn)動(dòng)的時(shí)候不方便打開攝像頭。這種情況下,可以通過(guò)自己的數(shù)字人加入會(huì)議,展現(xiàn)形象的同時(shí)又保護(hù)了隱私,不再只顯示簡(jiǎn)單的姓名信息,實(shí)現(xiàn)有溫度的交互體驗(yàn)。會(huì)議過(guò)程會(huì)通過(guò)攝像頭進(jìn)行驗(yàn)證,確保是本人參會(huì)。實(shí)時(shí)驅(qū)動(dòng)的時(shí)延在100ms以內(nèi),就跟我們現(xiàn)在開視頻會(huì)議一樣,沒(méi)有明顯延遲感覺(jué)??梢哉f(shuō),華為云MetaStudio數(shù)字人服務(wù)重塑了云會(huì)議的體驗(yàn)。
同樣的,數(shù)字人在其他行業(yè)應(yīng)用也可以一樣簡(jiǎn)單、快速的集成數(shù)字人實(shí)時(shí)通信與互動(dòng)能力,實(shí)現(xiàn)有溫度的交互體驗(yàn)。華為云MetaStudio數(shù)字內(nèi)容生產(chǎn)線全新升級(jí),通過(guò)盤古大模型的賦能,讓數(shù)字人具備個(gè)性化外形和靈魂,每個(gè)人都擁有個(gè)性化的數(shù)字人。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )