在2021年10月22日華為開(kāi)發(fā)者大會(huì)的直播中,有一位紅衣女孩一直在直播屏幕左下角,兢兢業(yè)業(yè)地為整場(chǎng)大會(huì)做實(shí)時(shí)手語(yǔ)翻譯。這位紅衣女孩是HMS Core團(tuán)隊(duì)的手語(yǔ)數(shù)字人,她基于團(tuán)隊(duì)最新研發(fā)的手語(yǔ)服務(wù),可以完成實(shí)時(shí)手語(yǔ)翻譯,生成包括身體姿態(tài)、手部動(dòng)作以及面部表情的手語(yǔ)。有了她,聽(tīng)障手語(yǔ)使用者也可以“聽(tīng)”懂HDC大會(huì),獲取到更多感興趣的資訊。這是華為首次采用AI全程手語(yǔ)直播,引發(fā)了線上線下觀眾和媒體的關(guān)注。
一個(gè)美好的愿望
手語(yǔ)項(xiàng)目起源于一款在2018年推出的應(yīng)用StorySign,這是一個(gè)將歐美流行兒童書(shū)籍轉(zhuǎn)化成手語(yǔ)動(dòng)畫(huà),幫助有聽(tīng)力障礙的兒童學(xué)習(xí)閱讀的App。StorySign的推出為眾多聽(tīng)障兒童打開(kāi)了連接世界的一扇窗,也給他們的家庭帶去了溫暖。發(fā)布一段時(shí)間后,StorySign逐步上架了71本兒童讀物,支持了英、法、德等15種語(yǔ)言的手語(yǔ),但同時(shí)項(xiàng)目也遇到瓶頸:想要普及手語(yǔ),讓更多的人學(xué)習(xí)更豐富的手語(yǔ),就要有充足的手語(yǔ)動(dòng)畫(huà)作為手語(yǔ)學(xué)習(xí)的資源。但如何更快速地生成豐富的手語(yǔ)動(dòng)畫(huà)呢?
StorySign集成了HMS Core的OCR(Optical Character Recognition, 光學(xué)字符識(shí)別)技術(shù),這是一種基于深度學(xué)習(xí),將圖片上的文字智能識(shí)別成文本的AI技術(shù)。那么,既然AI可以智能識(shí)別圖片上的文字, AI能不能做手語(yǔ)翻譯呢?給AI一段話,它如果可以自動(dòng)翻譯成手語(yǔ)動(dòng)畫(huà),大家就可以跟著AI學(xué)習(xí)手語(yǔ)了,甚至AI也能成為聾人與健聽(tīng)人之間的實(shí)時(shí)翻譯官,這樣AI造福的不僅僅是兒童的閱讀場(chǎng)景,更是更廣泛的聽(tīng)障群體!
為了讓AI手語(yǔ)翻譯通過(guò)HMS Core能力開(kāi)放出去,讓開(kāi)發(fā)者去集成,進(jìn)而服務(wù)到全球4.6億的聽(tīng)障人群。首先要面對(duì)的難題便是 - AI能不能做手語(yǔ)翻譯,從文字智能生成手語(yǔ)動(dòng)畫(huà)?HMS Core組建了覆蓋AI手語(yǔ)翻譯所需要的3D數(shù)字人建模、自然語(yǔ)言理解、計(jì)算機(jī)視覺(jué)、3D動(dòng)畫(huà)、圖形渲染、移動(dòng)端Android開(kāi)發(fā)、云側(cè)服務(wù)化等眾多關(guān)鍵技術(shù)專家團(tuán)隊(duì),并邀請(qǐng)到國(guó)內(nèi)權(quán)威手語(yǔ)語(yǔ)言學(xué)專業(yè)教授作為項(xiàng)目顧問(wèn),攜手共同攻關(guān)智能實(shí)時(shí)手語(yǔ)翻譯項(xiàng)目。
算法和數(shù)據(jù)的雙重挑戰(zhàn)
手語(yǔ)翻譯項(xiàng)目啟動(dòng)后,團(tuán)隊(duì)通過(guò)查閱大量文獻(xiàn)和專利,快速對(duì)行業(yè)內(nèi)相關(guān)技術(shù)進(jìn)行了調(diào)研,一起梳理出了幾大難題。首先,要考慮到手語(yǔ)動(dòng)作對(duì)于精度的高要求,1厘米指尖位置的誤差就可能表示完全不同的意思。其次,中文和手語(yǔ)成對(duì)的大規(guī)模高質(zhì)量手語(yǔ)語(yǔ)料極難獲取,無(wú)法在短時(shí)間內(nèi)找到這么多專業(yè)的手語(yǔ)老師來(lái)提供語(yǔ)料。第三,手語(yǔ)作為獨(dú)立的語(yǔ)言,有其自身的語(yǔ)法及語(yǔ)序,中文與手語(yǔ)的語(yǔ)法及語(yǔ)序存在差異。例如中文“我沒(méi)有帶身份證”,對(duì)應(yīng)的手語(yǔ)語(yǔ)序?yàn)?ldquo;身份證/我/帶/沒(méi)有”。最后,手語(yǔ)不僅包括手部動(dòng)作,還包含身體姿態(tài)及面部表情和口動(dòng),多模態(tài)數(shù)據(jù)的協(xié)同生成很重要。
通過(guò)對(duì)這些難題的逐一分析與解決方案的討論,手語(yǔ)團(tuán)隊(duì)輸出了一種基于文本的多模態(tài)數(shù)字人動(dòng)作和表情生成方案。這個(gè)方案由手語(yǔ)轉(zhuǎn)寫(xiě)模塊和手語(yǔ)動(dòng)作表情生成模塊組成,融合了手語(yǔ)語(yǔ)言學(xué)領(lǐng)域知識(shí),并且能夠有效解決高質(zhì)量動(dòng)捕數(shù)據(jù)較少的問(wèn)題。
算法方案確定后,手語(yǔ)團(tuán)隊(duì)迎來(lái)了更大的挑戰(zhàn)——數(shù)據(jù)。在人工智能領(lǐng)域,有句話是“兵馬未動(dòng),糧草先行”,對(duì)手語(yǔ)翻譯項(xiàng)目來(lái)說(shuō),“糧草”就是手語(yǔ)數(shù)據(jù)獲取問(wèn)題,包括手語(yǔ)轉(zhuǎn)寫(xiě)數(shù)據(jù)和3D動(dòng)作數(shù)據(jù)。如何制定合理的轉(zhuǎn)寫(xiě)方案?什么樣的動(dòng)作捕捉設(shè)備采集的數(shù)據(jù)可以滿足手語(yǔ)項(xiàng)目的商用要求?
轉(zhuǎn)寫(xiě)是一件需要緊密結(jié)合語(yǔ)言學(xué)和計(jì)算機(jī)學(xué)的工作。為此,技術(shù)專家們與手語(yǔ)顧問(wèn)緊密配合,投入到手語(yǔ)語(yǔ)言學(xué)知識(shí)學(xué)習(xí)中,經(jīng)過(guò)了大量的討論,制定適合項(xiàng)目的手語(yǔ)轉(zhuǎn)寫(xiě)標(biāo)準(zhǔn)。語(yǔ)言本是一件語(yǔ)感驅(qū)動(dòng)的事,而計(jì)算機(jī)則是講究規(guī)則的。為了將手語(yǔ)語(yǔ)言學(xué)的知識(shí)總結(jié)成計(jì)算機(jī)能表達(dá)出的規(guī)則,團(tuán)隊(duì)里的人工智能專家們和手語(yǔ)顧問(wèn)對(duì)轉(zhuǎn)寫(xiě)規(guī)則進(jìn)行了多次討論,反復(fù)修改優(yōu)化了20多個(gè)版本,最終完成了適合項(xiàng)目要求的定制化轉(zhuǎn)寫(xiě)方案。
在動(dòng)作捕捉數(shù)據(jù)方面,通過(guò)多方調(diào)研以及對(duì)動(dòng)捕設(shè)備現(xiàn)場(chǎng)考察,過(guò)數(shù)十種之后,手語(yǔ)團(tuán)隊(duì)發(fā)現(xiàn)發(fā)現(xiàn),動(dòng)捕數(shù)據(jù)采集情況遠(yuǎn)比想象的復(fù)雜得多。在動(dòng)捕采集的過(guò)程中,可能引入誤差的原因有很多,例如動(dòng)捕服不夠貼身、動(dòng)捕人員身型比例與手語(yǔ)數(shù)字人比例不一致等,導(dǎo)致動(dòng)捕的原始數(shù)據(jù)無(wú)法直接使用。因此,手語(yǔ)團(tuán)隊(duì)立刻組建動(dòng)作修復(fù)小組,加快動(dòng)捕數(shù)據(jù)的采集進(jìn)度,使項(xiàng)目得以穩(wěn)步推進(jìn)。
手語(yǔ)數(shù)字人和開(kāi)發(fā)者大會(huì)的故事
隨著數(shù)據(jù)采集進(jìn)度的推進(jìn)和AI算法模型的迭代優(yōu)化,手語(yǔ)服務(wù)的工程化也同步進(jìn)展順利。手語(yǔ)翻譯團(tuán)隊(duì)在短短一周的時(shí)間內(nèi)就寫(xiě)完了移動(dòng)端SDK開(kāi)發(fā)代碼,并且順利地完成了端云聯(lián)調(diào)。同時(shí),在嘗試了多種不同的解決方案后,手語(yǔ)翻譯團(tuán)隊(duì)通過(guò)旋轉(zhuǎn)角直接驅(qū)動(dòng)骨骼的方式,避免在驅(qū)動(dòng)后數(shù)字人動(dòng)作的微小差別導(dǎo)致手語(yǔ)意思相差甚遠(yuǎn),讓手語(yǔ)數(shù)字人能夠準(zhǔn)確地完成手語(yǔ)動(dòng)作
一切就緒,手語(yǔ)服務(wù)準(zhǔn)備開(kāi)放首版本,在HDC交出一份滿意的答卷。手語(yǔ)團(tuán)隊(duì)決定讓手語(yǔ)數(shù)字人全程支持開(kāi)發(fā)者大會(huì)直播演講。這個(gè)挑戰(zhàn)可想而知,華為開(kāi)發(fā)者大會(huì)上直播,觀看的人數(shù)非常龐大。如果手語(yǔ)數(shù)字人可以登上這個(gè)舞臺(tái),在直播時(shí)為聽(tīng)障朋友們提供手語(yǔ)翻譯,所有觀看直播的人都會(huì)注意到這個(gè)會(huì)打手語(yǔ)的紅衣女孩。這無(wú)疑可以吸引更多人來(lái)關(guān)注聽(tīng)障人士,也就可以吸引到更多開(kāi)發(fā)者借助手語(yǔ)服務(wù)來(lái)為聽(tīng)障手語(yǔ)使用者提供服務(wù)。
手語(yǔ)服務(wù)是從文本生成手語(yǔ),直播時(shí)算法的輸出嚴(yán)重依賴于語(yǔ)音識(shí)別的結(jié)果,語(yǔ)音識(shí)別的準(zhǔn)確性如何保障?HDC大會(huì)演講中包含大量中英文混合的技術(shù)名詞,怎么讓手語(yǔ)數(shù)字人打出這些詞?把整套驅(qū)動(dòng)和渲染方案搬到自研引擎上能否兼容?面對(duì)這些棘手的問(wèn)題,手語(yǔ)團(tuán)隊(duì)組建了HDC大會(huì)直播攻關(guān)小組,一部分成員攻關(guān)算法,在優(yōu)化手語(yǔ)生成算法模型以覆蓋HDC大會(huì)可能會(huì)出現(xiàn)的科技語(yǔ)料;另一部分成員攻關(guān)直播時(shí)云上語(yǔ)音識(shí)別、文字轉(zhuǎn)手語(yǔ)算法部署以及3D模型驅(qū)動(dòng)問(wèn)題,以保證直播時(shí)手語(yǔ)數(shù)字人能順利識(shí)別到話筒中的聲音并打手語(yǔ)。在不到一個(gè)月的時(shí)間里做足了充足的準(zhǔn)備。
在HDC2021如約舉辦的當(dāng)天。手語(yǔ)團(tuán)隊(duì)的伙伴們?cè)诤笈_(tái)緊張地守著直播畫(huà)面,他們緊緊盯著直播屏幕左下角的紅衣女孩,擔(dān)心手語(yǔ)數(shù)字人出現(xiàn)任何故障。所幸在整場(chǎng)直播中,她表現(xiàn)得游刃有余,非常驚艷!這一刻,團(tuán)隊(duì)所有人的心情都是一樣的:不懈的努力沒(méi)有白費(fèi),手語(yǔ)數(shù)字人終于在HDC這個(gè)大舞臺(tái)上被大家看見(jiàn)了!
這是國(guó)內(nèi)首次由數(shù)字虛擬人物進(jìn)行的實(shí)時(shí)大會(huì)直播手語(yǔ)翻譯,這一切都得益于華為自研的AI算法以及渲染技術(shù),讓大會(huì)直播實(shí)時(shí)手語(yǔ)翻譯在完全無(wú)需真人的情況下得以實(shí)現(xiàn)。這套基于云技術(shù)的語(yǔ)音識(shí)別、手語(yǔ)生成、驅(qū)動(dòng)渲染的手語(yǔ)翻譯方案經(jīng)過(guò)HDC2021得到了驗(yàn)證,它不僅準(zhǔn)確呈現(xiàn)了手語(yǔ)動(dòng)作,也解決了手語(yǔ)翻譯目前普遍的的一個(gè)技術(shù)難點(diǎn)——表情系統(tǒng)。表情的出現(xiàn)讓手語(yǔ)數(shù)字人能夠更加完整準(zhǔn)確地表達(dá)手語(yǔ)含義,目前手語(yǔ)服務(wù)已支持輸出10種不同的表情類型。相信在不久的將來(lái),這套方案可以被搬上媒體內(nèi)容制作中,聽(tīng)障朋友們也可以獲取更多的社會(huì)資訊。
技術(shù)傳遞溫度
全球有4.6億聽(tīng)障人群,當(dāng)前的中文手語(yǔ)生成遠(yuǎn)遠(yuǎn)不足以覆蓋這些人群。未來(lái),HMS Core手語(yǔ)團(tuán)隊(duì)將持續(xù)優(yōu)化手語(yǔ)翻譯效果和手語(yǔ)數(shù)字人渲染效果,同時(shí)也將構(gòu)建英文手語(yǔ)生成能力,將手語(yǔ)服務(wù)全球化,以服務(wù)更多的聽(tīng)障人群。
相信在不久的將來(lái),手語(yǔ)數(shù)字人可以在更多的場(chǎng)合和大家見(jiàn)面,她可以出現(xiàn)在電視新聞節(jié)目的手語(yǔ)翻譯小窗口中,為大家翻譯新聞;也可以在大家乘坐地鐵、飛機(jī)的時(shí)候,可以用手語(yǔ)為聽(tīng)障朋友們播報(bào)安全須知;甚至,在一些特殊教育學(xué)校里,她可以做一位手語(yǔ)老師,教聽(tīng)力障礙的同學(xué)們學(xué)習(xí)手語(yǔ)……。懷揣著這個(gè)美好的愿望, HMS Core團(tuán)隊(duì)基于手語(yǔ)服務(wù)能力正在打造StorySign2.0 APP,希望能帶給聽(tīng)障人士更多的溫度。
正如HDC大會(huì)上的一句話:沒(méi)有人能夠熄滅滿天星光,每一位開(kāi)發(fā)者,都是華為要匯聚的星星之火。目前,手語(yǔ)數(shù)字人已經(jīng)通過(guò)HMS Core手語(yǔ)服務(wù)向開(kāi)發(fā)者全面開(kāi)放,讓更多的應(yīng)用開(kāi)發(fā)者都可以通過(guò)調(diào)用我們的手語(yǔ)服務(wù)SDK,快速實(shí)現(xiàn)手語(yǔ)實(shí)時(shí)翻譯,打造各類手語(yǔ)App,為聽(tīng)障人士提供更加多樣化的服務(wù)。手語(yǔ)服務(wù)團(tuán)隊(duì)希望和開(kāi)發(fā)者一起,共筑華為移動(dòng)服務(wù)的滿天星光,打造一個(gè)溝通無(wú)障礙的世界。
文章轉(zhuǎn)自《華為人》
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )