精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

直播
榜單
7x24h快訊

極客網(wǎng) > 7x24h快訊 > 極客快訊 >

一張照片驅(qū)動(dòng)數(shù)字人出門問問推出新照片數(shù)字人引擎WetaAvatar 4.0

人閱讀
2024-04-28 11:28:16
來源：西盟科技資訊
相關(guān)關(guān)鍵詞
- 出門問問

隨著AIGC時(shí)代的到來，數(shù)字人生成技術(shù)正逐漸成為焦點(diǎn)。出門問問自主研發(fā)的照片數(shù)字人引擎，憑借持續(xù)的技術(shù)創(chuàng)新，讓用戶僅需一張照片就能快速生成可以說話、講故事的動(dòng)態(tài)視頻。目前，這一引擎已成功應(yīng)用于國內(nèi)產(chǎn)品「奇妙元」以及國際產(chǎn)品「DupDub」。

出門問問不斷迭代照片數(shù)字人引擎

圖片10.png

自2023年推出WetaAvatar 3.0數(shù)字人系統(tǒng)及其照片數(shù)字人引擎以來，出門問問憑借其易用性和生動(dòng)的生成效果，迅速贏得了用戶的青睞，進(jìn)行了形式豐富的內(nèi)容創(chuàng)作。為了進(jìn)一步提升用戶體驗(yàn)，我們推出了最新一代的照片數(shù)字人引擎——WetaAvatar 4.0-Talking Photo。這一版本不僅優(yōu)化了視頻生成的清晰度和真實(shí)感，還顯著加快了合成過程。同時(shí)，我們也在積極開發(fā)照片數(shù)字人實(shí)時(shí)對話引擎，不斷推動(dòng)技術(shù)創(chuàng)新的邊界。

在新一代照片數(shù)字人引擎WetaAvatar 4.0-Talking Photo中，用戶可以體驗(yàn)到以下優(yōu)化：

合成速度翻倍：合成速度顯著提升，大幅縮短等待時(shí)間。

背景渲染優(yōu)化：視頻背景渲染精準(zhǔn)，與原圖色彩無縫匹配。

人物背景分離增強(qiáng)：確保人物與背景之間的高度解耦，提升視頻質(zhì)量。

牙齒與嘴型精準(zhǔn)復(fù)現(xiàn)：細(xì)節(jié)處理更出色，確保牙齒和嘴型的真實(shí)性和自然性。

大模型賦能自然語音輸出

圖片11.png

用戶僅需提供文本內(nèi)容，便可借助出門問問的MeetVoice Pro語音大模型，生成自然流暢的語音輸出。之后，結(jié)合我們的數(shù)字人系統(tǒng)，這些語音將被轉(zhuǎn)化為精確同步的嘴形動(dòng)作和自然的表情變化，創(chuàng)造出動(dòng)作流暢、表現(xiàn)力豐富的數(shù)字人視頻，為用戶提供一種全新的互動(dòng)體驗(yàn)和內(nèi)容創(chuàng)作方式。

圖片12.png

兩大技術(shù)模塊促成高質(zhì)量效果

圖片13.png

WetaAvatar 4.0-Talking Photo是一個(gè)高效的雙模塊引擎，專為生成逼真的照片數(shù)字人視頻而設(shè)計(jì)，包含兩個(gè)核心組件：運(yùn)動(dòng)預(yù)測模塊和人臉驅(qū)動(dòng)模塊。運(yùn)動(dòng)預(yù)測模塊:此模塊利用先進(jìn)的語音分析技術(shù)，從輸入的語音中提取關(guān)鍵參數(shù)，這些參數(shù)隨后用于精確生成與之匹配的嘴型動(dòng)畫。這個(gè)過程涉及到復(fù)雜的算法，能夠確保嘴型與語音的節(jié)奏和強(qiáng)度完美同步，從而創(chuàng)造出自然流暢的說話效果。人臉驅(qū)動(dòng)模塊：此模塊則進(jìn)一步增強(qiáng)了視頻的真實(shí)感。它結(jié)合了預(yù)先生成的驅(qū)動(dòng)視頻和用戶輸入的靜態(tài)圖片，通過算法生成一個(gè)全面的運(yùn)動(dòng)場。這個(gè)運(yùn)動(dòng)場不僅包含了嘴型變化，還能夠模擬出豐富的面部表情和微妙的肌肉運(yùn)動(dòng)。隨后，這個(gè)運(yùn)動(dòng)場可以用來驅(qū)動(dòng)輸入圖片，生成具有高度表現(xiàn)力和動(dòng)態(tài)變化的數(shù)字人視頻?；谝陨蟽蓚€(gè)模塊，在新一代Talking Photo引擎中，不論是人物正臉或側(cè)臉驅(qū)動(dòng)，其表現(xiàn)均優(yōu)于前代，技術(shù)指標(biāo)Sync-C的數(shù)值普遍高于WetaAvatar 3.0-Talking Photo引擎。

Sync-C (SyncNet Confidence)：使用預(yù)訓(xùn)練的衡量音畫同步性的模型 SyncNet 計(jì)算的音畫同步置信度。相同的驅(qū)動(dòng)音頻和驅(qū)動(dòng)視頻，數(shù)值越高越好。

更多創(chuàng)作形式盡在探索

目前，「奇妙元」平臺(tái)已經(jīng)搭載WetaAvatar 4.0-Talking Photo引擎，用戶能夠釋放創(chuàng)意潛力，將風(fēng)格各異的人物照片驅(qū)動(dòng)，生成高質(zhì)量的動(dòng)態(tài)視頻，實(shí)現(xiàn)人物自然地說話、講述，甚至唱歌的視頻效果。

「奇妙元」支持對皮克斯風(fēng)格照片進(jìn)行人物驅(qū)動(dòng)，效果與真實(shí)人物幾乎無異。

如照片中的人物有胡子等面部遮擋物，「奇妙元」依然能夠精準(zhǔn)捕捉面部特征，保證圖像生成的準(zhǔn)確性。

對于年代久遠(yuǎn)的老照片，「奇妙元」能夠進(jìn)行精準(zhǔn)上色和高清渲染處理，進(jìn)而驅(qū)動(dòng)照片中的人物，讓這些珍貴的記憶煥發(fā)出新的活力。

展望未來

出門問問技術(shù)團(tuán)隊(duì)致力于推動(dòng)數(shù)字人技術(shù)的發(fā)展，目前正專注于基于WetaAvatar 4.0-Talking Photo的實(shí)時(shí)照片對話引擎的研發(fā)工作，預(yù)計(jì)不久將投入使用。我們不僅注重技術(shù)的創(chuàng)新，更著眼于提升用戶體驗(yàn)，旨在通過生成更真實(shí)的表情和豐富的動(dòng)作，打造出具有高度情感表現(xiàn)力的照片數(shù)字人。隨著大模型時(shí)代的到來，出門問問數(shù)字人團(tuán)隊(duì)也將持續(xù)深入探索基于大模型的數(shù)字人生成技術(shù)，以Sora模型的問世為里程碑，期待在大模型的加持下，創(chuàng)造出更加生動(dòng)、真實(shí)的數(shù)字人，為用戶提供更加豐富和深入的交互體驗(yàn)。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

極客觀察

贊助商

簡版
原版
投稿
回頂部