近日,國內(nèi)AR頭部企業(yè)Rokid正式發(fā)布自研XR數(shù)字人技術(shù),支持用戶“捏”出專屬數(shù)字人形象,同時(shí),該技術(shù)還將對(duì)行業(yè)開放,支持第三方XR開發(fā)者通過SDK集成,接入數(shù)字人引擎服務(wù),開發(fā)屬于自己的數(shù)字人形象和體系。目前,該技術(shù)已正式接入Rokid Air App(v1.8.7版本)中,多人在線協(xié)同應(yīng)用MSpace也已實(shí)現(xiàn)支持多個(gè)用戶以數(shù)字人形象同時(shí)在線進(jìn)行會(huì)議、觀影等交互活動(dòng),打造更廣泛的在線交互場景。
自由“捏”臉設(shè)計(jì),讓用戶都能成為元宇宙“女媧”
在設(shè)計(jì)上,Rokid 自研XR數(shù)字人在寫實(shí)風(fēng)格與卡通風(fēng)格中進(jìn)行了平衡。通過采用五頭身比例,讓數(shù)字人的面部特征與表情動(dòng)作更加突出和生動(dòng),同時(shí)也更具親和力,可廣泛適配各年齡段人群并被應(yīng)用在XR 的社交、游戲、工作,以及商超、展陳、導(dǎo)覽等場景。同時(shí),Rokid自研XR數(shù)字人還分別設(shè)計(jì)了眉毛、眼睛、鼻子、嘴巴、臉型以及服裝組合,通過五官和服裝的自由搭配組合,可以讓用戶“捏”出更具個(gè)性的數(shù)字人形象。
在打造個(gè)性化形象的同時(shí),Rokid還在效果呈現(xiàn)和所需資源消耗方面進(jìn)行了平衡。通過采用更少的網(wǎng)格面來表現(xiàn),Rokid自研XR數(shù)字人技術(shù)大大降低了資源消耗和硬件負(fù)荷,以便實(shí)現(xiàn)在算力有限的硬件上,如AR眼鏡、手機(jī)端等同時(shí)驅(qū)動(dòng)大量數(shù)字人,進(jìn)而推動(dòng)數(shù)字人在多人在線的同屏社交場景使用。
目前,Rokid自研XR數(shù)字人已基本滿足亞裔人群特征。未來Rokid還將推出更多的五官分類組合和動(dòng)作,更多樣的膚色、發(fā)型、發(fā)色以及不同地域風(fēng)格的服裝、道具等,讓不同的國家和地區(qū)的用戶都可以創(chuàng)作出具備獨(dú)有特征、妝容、服裝以及道具的數(shù)字人。
讓數(shù)字人聽音而動(dòng),自研音頻驅(qū)動(dòng)技術(shù)突破行業(yè)難題
數(shù)字人的模型有了,該如何讓數(shù)字人動(dòng)起來?
目前,業(yè)內(nèi)一般通過面部捕捉的方式來采集面部動(dòng)畫的數(shù)據(jù),從而讓數(shù)字人“動(dòng)”起來,例如ARkit,F(xiàn)aceware,DynamicXYZ等,就是通過捕捉演員的表情動(dòng)作,然后再映射到高精度的3D角色面部上。
面部捕捉的方式雖然解決了數(shù)字人表情靈動(dòng)的問題,但在現(xiàn)實(shí)應(yīng)用中,如AR眼鏡等設(shè)備并不支持面部捕捉。同時(shí),線上會(huì)議等場景還需要數(shù)字人能實(shí)時(shí)生成動(dòng)畫,面部捕捉的方式并不適用。因此,讓數(shù)字人的表情幀和聲音幀同頻,嘴部動(dòng)畫的實(shí)時(shí)生成就成為了行業(yè)難題。
對(duì)此,Rokid技術(shù)團(tuán)隊(duì)拿出了最新研發(fā)成果——ASR(自動(dòng)語音識(shí)別技術(shù))到音素+bs系數(shù)的音頻驅(qū)動(dòng)方案。
通過ASR(自動(dòng)語音識(shí)別技術(shù))到音素+bs系數(shù)的音頻驅(qū)動(dòng)方案,無需額外的攝像頭對(duì)表情動(dòng)作進(jìn)行捕捉,Rokid自研XR數(shù)字人就能實(shí)現(xiàn)口型與表情動(dòng)作與真人同步匹配。
同時(shí),不同于業(yè)界目前普遍采用的ASR(自動(dòng)語音識(shí)別技術(shù))將語音識(shí)別成文字,然后通過TTS(從文本到語音)輸出音素+bs系數(shù)的音頻驅(qū)動(dòng)方案,Rokid自研XR數(shù)字人采用的音頻驅(qū)動(dòng)方案,基于多年積累的ASR技術(shù),省掉了將語音識(shí)別成文字,再由文字輸出音素的環(huán)節(jié),在保持識(shí)別準(zhǔn)確度不低于行業(yè)標(biāo)準(zhǔn)的情況下,以更短的識(shí)別路徑、更低的延遲(相對(duì)業(yè)界降低延遲30%)、更低性能要求的驅(qū)動(dòng)方案實(shí)現(xiàn)了數(shù)字人聲音幀和表情幀的絕對(duì)同步。
此外,在移動(dòng)端,Rokid自研XR數(shù)字人解決方案單幀處理時(shí)間實(shí)現(xiàn)了低于3ms/frame,且CPU占用率能保證的在10%以下。
降低接入門檻,Rokid自研XR數(shù)字人技術(shù)將對(duì)外開放
一個(gè)行業(yè)的繁榮通常離不開兩個(gè)要素的躍遷:第一是生產(chǎn)效率的提升,第二是應(yīng)用成本的降低。這樣的邏輯在三次工業(yè)革命中得到了淋漓盡致的詮釋,同樣也適用XR數(shù)字人生態(tài)的建設(shè)。因此,在不斷優(yōu)化數(shù)字人性能的同時(shí),Rokid自研XR數(shù)字人技術(shù)還將對(duì)外開放,讓更多XR行業(yè)開發(fā)者都能參與到元宇宙數(shù)字人生態(tài)建設(shè)中。
一方面,Rokid自研XR數(shù)字人作為YodaOS-XR的系統(tǒng)形象,將支持第三方XR開發(fā)者通過SDK集成,接入數(shù)字人引擎服務(wù),開發(fā)屬于自己的數(shù)字人形象和體系。另一方面,Rokid還將推出數(shù)字人管理平臺(tái),支持XR開發(fā)者可以通過數(shù)字人管理平臺(tái)進(jìn)行數(shù)字人形象、服裝、道具等設(shè)計(jì),以數(shù)字人引擎共同豐富元宇宙生態(tài)。
數(shù)字人作為人們?cè)谠钪嬷写┧蟮耐ㄐ凶C和身份標(biāo)識(shí),賦予了人們對(duì)數(shù)字人的無盡想象,也在無形中加速著XR數(shù)字人產(chǎn)品的演進(jìn)。XR數(shù)字人的繁榮需要“先行者”們持續(xù)嘗試,不斷沉淀,Rokid也希望通過對(duì)XR數(shù)字人技術(shù)的開放,與XR行業(yè)開發(fā)者、用戶一起讓人類對(duì)數(shù)字人的美好想象逐步成為現(xiàn)實(shí)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )