近幾年,隨著圖像處理、語音合成、語音識(shí)別、語義理解、多語種等多項(xiàng)人工智能技術(shù)不斷發(fā)展,AI虛擬人開始在各行各業(yè)落地應(yīng)用,各大公司爭相布局。這背后,其實(shí)是AI虛擬人多模態(tài)交互技術(shù)正在成為大趨勢。
多模態(tài)融合視覺、聽覺、文本等多種模態(tài)信息,能夠打破單模態(tài)輸入輸出限制,從而更貼近人類真實(shí)使用習(xí)慣。對于AI交互產(chǎn)品來說,只有綜合利用多模態(tài)信息才能更準(zhǔn)確地理解人類行為。但現(xiàn)階段受限于語義鴻溝、異構(gòu)鴻溝、數(shù)據(jù)缺失等原因,多模態(tài)研究還有一定難度,如何將多模態(tài)技術(shù)應(yīng)用于實(shí)際產(chǎn)品仍然困擾著許多開發(fā)者。
本次訊飛開放平臺(tái)樂享A.I.技術(shù)沙龍成都專場,致力于為開發(fā)者們提供破解多模態(tài)技術(shù)落地難題的思路參考?;顒?dòng)現(xiàn)場吸引了眾多開發(fā)者參與,來自科大訊飛的多位分享嘉賓與成都的開發(fā)者伙伴齊聚一堂,圍繞“A.I.虛擬人多模態(tài)創(chuàng)新交互”主題,展開了面對面的深入探討與實(shí)操模擬。
沙龍開場,訊飛開放平臺(tái)總經(jīng)理張斌發(fā)表了開場致辭。他表示,成都是一個(gè)擁有巨大潛力和機(jī)會(huì)的城市,因此它對于很多企業(yè)來說有非常大的魅力。電子信息產(chǎn)業(yè)是成都的支柱產(chǎn)業(yè),今年2月份成都剛剛成為第二批國家人工智能應(yīng)用先導(dǎo)區(qū),這體現(xiàn)了成都在人工智能行業(yè)中的重要地位。在訊飛開放平臺(tái)上超過210萬開發(fā)者中,來自成都的開發(fā)者數(shù)量也居于各大城市前列。因此科大訊飛希望通過本場沙龍活動(dòng)與成都的開發(fā)者們建立更好的聯(lián)系,一起共建人工智能生態(tài)。
語音合成領(lǐng)域發(fā)展趨勢深度洞察
如今,智能語音已經(jīng)成為新交互模態(tài)必不可少的技術(shù)之一,其中,語音合成能力讓產(chǎn)品走向“開口說話”的階段。在未來越來越多的個(gè)性化場景下,語音合成可能會(huì)往哪些方向發(fā)展?訊飛AI研究院副院長江源在語音合成領(lǐng)域從事了十多年的研究,他以“未來個(gè)性場景下語音合成發(fā)展趨勢”為主題,與現(xiàn)場開發(fā)者分享了他對于語音合成領(lǐng)域技術(shù)發(fā)展趨勢的深度洞察。
江源指出,未來面對越來越豐富的個(gè)性化場景,語音合成技術(shù)的發(fā)展方向?qū)⒅饕扇齻€(gè)訴求牽引,分別是音色、情感和多語種。
首先,大家都想要擁有一個(gè)獨(dú)一無二的聲音來代表自己、代表品牌形象,因此如何便捷高效地定制個(gè)性化音色是非常大的訴求。在這方面,科大訊飛已經(jīng)能夠提供非常成熟的解決方案和產(chǎn)品,做到品牌個(gè)性化、應(yīng)用個(gè)性化和用戶個(gè)性化,這背后主要依靠的是訊飛自研的基于聽感量化的混合數(shù)據(jù)多層級建模方案。
其次是自如的情感表達(dá),傳統(tǒng)的語音合成只要求做到信息播報(bào),讓聽眾聽清就可以,現(xiàn)在隨著技術(shù)的進(jìn)步,機(jī)器合成的聲音已經(jīng)可以比較好地貼近真人的聲音,大家對于聲音和效果的要求也更多了,比如希望機(jī)器合成的聲音更好聽、更悅耳、更符合當(dāng)前的使用場景,這就要求機(jī)器能夠更好地表達(dá)交互之間情感的細(xì)微變化。情感也是未來人機(jī)交互中很重要的特性,關(guān)系到人工智能是否可以跨越鴻溝實(shí)現(xiàn)真正的智能。目前科大訊飛正在圍繞可控情感語音合成技術(shù)和可控文本情感預(yù)測技術(shù)做一些研究和探索。
最后是方言語種的多元需求,這主要是為了幫助我們更好地保護(hù)地域性的語言和文化,以及更好地走向全球化。
訊飛A.I.虛擬人方案及應(yīng)用解讀
目前,AI主播、AI偶像等等AI虛擬人場景已經(jīng)成為各大公司重點(diǎn)布局的方向,這一場景背后從視頻圖像到智能語音技術(shù)缺一不可。訊飛的AI虛擬人方案有哪些技術(shù)創(chuàng)新點(diǎn)?訊飛怎么解決AI虛擬人在內(nèi)容和交互上的問題?訊飛有聲平臺(tái)業(yè)務(wù)部總經(jīng)理郜靜文在以“A.I.虛擬人內(nèi)容生產(chǎn)和多模態(tài)交互”為主題的分享中,詳細(xì)介紹了訊飛A.I.虛擬人的方案及應(yīng)用。
科大訊飛自成立以來就一直在從事A.I.虛擬人相關(guān)技術(shù)的研究,語音合成、語音識(shí)別、語義理解、圖像理解等技術(shù)都為A.I.虛擬人多模態(tài)技術(shù)奠定了基礎(chǔ)。郜靜文在演講中分享了A.I.虛擬人應(yīng)用的發(fā)展歷程,20世紀(jì)80年代,研究人員開始嘗試將虛擬人物引入到現(xiàn)實(shí)世界中,虛擬數(shù)字人步入萌芽階段;21世紀(jì)初,傳統(tǒng)手繪逐漸被CG、動(dòng)作捕捉等技術(shù)取代,虛擬數(shù)字人步入探索階段;近五年,得益于深度學(xué)習(xí)算法的突破,虛擬數(shù)字人制作過程有效簡化,開始步入初級階段;互聯(lián)網(wǎng)、終端屏等技術(shù)的飛速發(fā)展和海量音視頻內(nèi)容產(chǎn)出的需求,又進(jìn)一步推動(dòng)了A.I.虛擬人技術(shù)的發(fā)展,現(xiàn)如今,虛擬數(shù)字人正朝著智能化、便捷化、精細(xì)化、多樣化成長。
訊飛A.I.虛擬人技術(shù)架構(gòu)的最底層是基礎(chǔ)數(shù)據(jù),包括業(yè)務(wù)知識(shí)和形象庫、聲音庫;往上一層是包括圖像識(shí)別、語義理解、3D人臉識(shí)別、語音驅(qū)動(dòng)口唇、語音合成、語音識(shí)別、人臉視頻合成、肢體動(dòng)作合成等在內(nèi)的核心技術(shù);再往上是基于核心技術(shù)打造出的2D真人、3D卡通、3D真人等虛擬形象。基于這些技術(shù)最后呈現(xiàn)給開發(fā)者的主要是三大類業(yè)務(wù)產(chǎn)品:播報(bào)系統(tǒng),實(shí)現(xiàn)了文字到音頻以及文字到虛擬形象的輸出,也結(jié)合了相關(guān)的視頻處理文件的多軌能力,能夠支持輸入文字以后自動(dòng)輸出需要的視頻,目前這套系統(tǒng)已經(jīng)有一百多個(gè)媒體和企業(yè)在使用;多模態(tài)交互系統(tǒng),可以應(yīng)用在金融行業(yè)的視頻客服或視頻面試中;軟硬件一體的A.I.虛擬人一體化解決方案,可以放在展廳、大堂做一些交互和客服的工作,減少開發(fā)者和企業(yè)的開發(fā)成本。
郜靜文在現(xiàn)場發(fā)布了科大訊飛A.I.虛擬人生態(tài)平臺(tái),希望能有更多技術(shù)合作伙伴共同參與到虛擬人的研發(fā)和平臺(tái)建設(shè)中來。她表示,訊飛將在這個(gè)平臺(tái)中提供更多技術(shù)服務(wù)、SaaS服務(wù)和行業(yè)解決方案,與合作伙伴共建A.I.虛擬人生態(tài)圈。同時(shí),訊飛對外開放2項(xiàng)定制能力,分別是A.I.音庫自訓(xùn)練平臺(tái)和A.I.虛擬人服務(wù)調(diào)用,支持公有云調(diào)用、私有化部署。訊飛希望能與合作伙伴共同豐富虛擬人內(nèi)容和服務(wù),共創(chuàng)共贏。
訊飛開放平臺(tái)產(chǎn)品矩陣
訊飛近幾年一直重點(diǎn)發(fā)力平臺(tái)+賽道的戰(zhàn)略,而平臺(tái)屬性對于生態(tài)建設(shè)來說必不可少,訊飛開放平臺(tái)也承載著訊飛在AI生態(tài)建設(shè)的野心。訊飛開放平臺(tái)產(chǎn)品運(yùn)營總監(jiān)汪艦為現(xiàn)場開發(fā)者介紹了訊飛開放平臺(tái)目前可以提供哪些技術(shù)產(chǎn)品和解決方案,以及訊飛通過什么樣的思路來優(yōu)化這些產(chǎn)品。
訊飛開放平臺(tái)成立于2010年,是基于科大訊飛國際領(lǐng)先的人工智能研究成果建設(shè)的AI技術(shù)與生態(tài)服務(wù)平臺(tái),面向用戶提供語音識(shí)別、語音合成、語義理解、文字識(shí)別、人臉識(shí)別等AI技術(shù)授權(quán)。截至目前,訊飛開放平臺(tái)已經(jīng)擁有330萬生態(tài)合作伙伴,對外開放了433項(xiàng)AI能力及解決方案,全球使用訊飛開放平臺(tái)技術(shù)能力的終端設(shè)備累計(jì)已經(jīng)超過31億。
汪艦表示,一項(xiàng)技術(shù)在實(shí)驗(yàn)室誕生要走過的路,遠(yuǎn)遠(yuǎn)小于這項(xiàng)技術(shù)從實(shí)驗(yàn)室走出來進(jìn)入大家的生活場景要走的路。語音識(shí)別技術(shù)是訊飛的強(qiáng)項(xiàng),但同樣也會(huì)收到很多客戶和使用者反饋的各種問題,為了解決這些問題,訊飛研發(fā)團(tuán)隊(duì)做了非常多努力。解決語音識(shí)別問題的核心是提高識(shí)別率,第一步是做好聲學(xué)前端處理,通過聲源定位、噪聲抑制、回聲消除等技術(shù),從硬件上解決識(shí)別中的噪聲問題;第二步可以通過算法層面的聲學(xué)模型定制和語言模型定制來提高識(shí)別率;第三步可以借助多模態(tài)技術(shù),讓機(jī)器一邊聽一邊看,通過捕捉主要說話人來提高識(shí)別率。
對于訊飛開放平臺(tái)的基本理念,汪艦也進(jìn)行了解讀,他指出,開放平臺(tái)的源頭是數(shù)據(jù),在很多場景下,數(shù)據(jù)來自各個(gè)行業(yè)的開發(fā)者和數(shù)據(jù)擁有者;拿到數(shù)據(jù)之后首先會(huì)進(jìn)行數(shù)據(jù)標(biāo)注,然后放到訊飛提供的機(jī)器學(xué)習(xí)引擎中去訓(xùn)練,最終輸出一個(gè)引擎模型,訊飛會(huì)提供引擎部署服務(wù),可以將這個(gè)引擎放到訊飛的開發(fā)平臺(tái)上做云端的調(diào)用或本地化部署。
除了精彩的大咖分享環(huán)節(jié)之外,沙龍最后還安排了Workshop實(shí)操接入環(huán)節(jié),現(xiàn)場由訊飛有聲平臺(tái)研發(fā)工程師呂磊手把手現(xiàn)場教學(xué),帶領(lǐng)開發(fā)者體驗(yàn)訊飛AI虛擬人接入實(shí)踐,基于訊飛開放平臺(tái)能力,不同行業(yè)的開發(fā)者都能快速開發(fā)出可以滿足特定場景需求的A.I.虛擬人。
雖然成都專場活動(dòng)已經(jīng)落下帷幕,但訊飛開放平臺(tái)樂享A.I.技術(shù)沙龍系列活動(dòng)才只是剛剛開始。接下來,訊飛開放平臺(tái)樂享A.I.技術(shù)沙龍系列活動(dòng)將繼續(xù)向全國各大重點(diǎn)城市出發(fā),圍繞AI熱點(diǎn)能力分享、行業(yè)應(yīng)用探究和Workshop技術(shù)實(shí)踐等豐富形式,與各地開發(fā)者展開實(shí)地面對面交流,為大家提供最新的人工智能理念、產(chǎn)品技術(shù)、解決方案和實(shí)踐經(jīng)驗(yàn)。
下一站,樂享A.I.技術(shù)沙龍將會(huì)走進(jìn)哪個(gè)城市呢?讓我們拭目以待!(通訊員:陳彤)
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )