原標(biāo)題:那些可鹽可甜的AI聲音,可能都是出自于這家公司
今天,獵豹移動董事長兼CEO傅盛在抖音上分享了一個很有意思的視頻:
他與一個“AI版傅盛”上演了一場“超級模仿秀”,這個AI不僅說話聲音聽起來和他一模一樣,還能表演“八百標(biāo)兵奔北坡”這樣高難度順口溜。
更為關(guān)鍵的是,這一整場嬉笑幽默的多輪人機對話,傅盛只錄入了10段真人語音。
這意味著,隱藏在智能語音背后的TTS技術(shù),正在悄無聲息地發(fā)生重大升級。
而事實上,人類與AI的對話頻率,正在進(jìn)入一個前所未有的大爆炸時代。
無論是智能手機里的語音助手、有買有送的智能音箱,還是千嬌百媚的智能機器人或者地圖導(dǎo)航,總有一款聲音萌動你心。
這些生活中隨處可見的聲線,背后其實都是靠一項核心技術(shù)來支撐的:語音合成TTS( Text-To-Speech),即將文字轉(zhuǎn)化為聲音。
在一般情況下TTS并不受到廣泛關(guān)注。很多智能語音相關(guān)產(chǎn)品的發(fā)布會上,它甚至不會占用超過一頁PPT的篇幅。但實際上,TTS對于整個AI語音交互的體驗觸發(fā),起到了決定性的作用:用戶聽到什么聲音,直接影響到AI在他心中的“三次元化”形象。
比如我一個朋友就是因為志玲姐姐嗲嗲的配音,成為了高德地圖的死忠粉。而在經(jīng)典的AI電影《Her》里,人工智能系統(tǒng)OS1就擁有斯嘉麗約翰遜的迷人聲線,讓男主人公為之傾倒,一段人與AI的虐戀就此展開。
語音合成,為機器注入了一種人格化的魅力,也讓人類更愿意與之建立親密關(guān)系。這也意味著,在商業(yè)價值都要靠黏住用戶來實現(xiàn)的當(dāng)下,TTS能力將成為各個語音場景輸贏的命脈。
盡管企業(yè)對TTS的需求是如此迫切,但從學(xué)術(shù)到產(chǎn)業(yè)應(yīng)用之間,TTS依然存在著大片的技術(shù)空白。相近的技術(shù)原理和前沿算法探索之后,每家公司的解決方案、解決能力都千差萬別。二者疊加之下,導(dǎo)致TTS變成了一個巨大的賽場。
比如有的語音系統(tǒng)需要靠真人花費幾個月錄制大量語料堆砌而成,而獵戶星空只需要聽10段話就可以復(fù)制一個和真人聲音一樣的機器人。
本文希望剖析這個并不為大眾熟知的賽道,透視一下是什么決定了機器如何說話,決定了用戶耳朵的體驗與舒適度,又有哪些玩家憑借TTS撬開了智能語音的富礦。
那場極速的溫柔:讓機器聽上去像人,是AI公司的首要奔跑方向
最近,網(wǎng)上流行起了一種新的搞笑玩法:扮演機器。比如,用百度翻譯的語音包跟游戲中的隊友說話,濃烈的機械味怕是會被隊友忍不住一槍爆頭。
與此同時,一個娘化的AI形象“絆愛”也迅速走紅,被粉絲們親切地稱為“愛醬”。它有著少女一樣的形象,能夠像人類一樣交流,言語之間還會時不時流露出作為AI的志得意滿。
對過度機械的語音無情調(diào)侃,為高度人性化的語音瘋狂打Call,可以說是普通人對TTS的下限與上限最為直接的反應(yīng)了。
從中不難看出,TTS的核心賽道,就在于如何讓機器的聲音聽上去韻律自然、情感充沛。說白了,就是如何在機器聲音中注入人性。
這個聽起來很模糊的需求,現(xiàn)實中只能通過TTS多個技術(shù)層次的逐步通關(guān)來實現(xiàn)。
綜合整個流程來看,目前有兩方面的工作是AI公司努力的核心方向:
一、用心的語料庫,正在成為TTS發(fā)動機
如何用更少的語料合成更自然的高質(zhì)量語音,可能是未來TTS的技術(shù)攻堅方向。
目前看來,更有情感表現(xiàn)力和精準(zhǔn)韻律的聲音,一定是通過龐大精準(zhǔn)的語料庫直接拼接產(chǎn)生的。
這背后隱藏的,是AI公司正在比拼構(gòu)建語料庫的投入成本與產(chǎn)品精神。
比如蘋果就請來了專業(yè)配音員蘇珊·貝內(nèi)特(Susan Bennett)為Siri錄制原始語料,而微軟小娜Cortana的聲音則來自演員簡·泰勒(Jen Taylor),曾為《光暈》游戲中的角色Cortana配音。
國內(nèi),高德則邀請了林志玲、郭德綱、TFBOYS、羅永浩、黃曉明、高曉松等眾多流量擔(dān)當(dāng)來錄制導(dǎo)航語音包。
而用戶們在小米音箱、喜馬拉雅音箱、美的音箱等智能硬件上聽到的AI女聲,更是沒少在語料上下“笨功夫”。
其基礎(chǔ)語音是獵豹移動旗下的人工智能公司獵戶星空從300個女聲中海選,邀請了100名核心用戶,以及整個公司上至高層、下至基層員工進(jìn)行投票后,選出的最溫暖的聲音。
為了能讓AI聲音更為流暢自然地進(jìn)行中英文混說,獵戶星空專門找了一個和中文聲源發(fā)音很像的女孩子來錄制英語語料包,終于讓機器講中英文告別了“尬說”時代。前不久,獵戶星空還選出了最萌童聲,讓兒童類語音產(chǎn)品有了更高品質(zhì)的聲音可以選擇。
目前看來,獵戶星空是將用戶的聽覺體驗放在整個產(chǎn)品生命周期的核心去做全盤考慮。
從大量發(fā)音人的挑選,語料的精心打磨,以及對用戶場景的深度適配,如此復(fù)雜嚴(yán)苛的產(chǎn)品打磨,直接為獵戶星空在TTS領(lǐng)域占據(jù)了獨特的產(chǎn)業(yè)身位。
二、用算法探索“聽著舒服”的邊界
解決了基礎(chǔ)音源和龐大語料庫還遠(yuǎn)遠(yuǎn)不夠。今天的TTS領(lǐng)域,普遍前進(jìn)方向是基于相似的模型,在細(xì)節(jié)上帶來TTS效果優(yōu)化。
這個領(lǐng)域構(gòu)成了AI技術(shù)公司在TTS上的算法優(yōu)勢,百度、微軟等都在重磅押注。
簡單來說,就是通過系統(tǒng)對輸入的文本進(jìn)行分析,獲得合成語音的基本單元信息,從標(biāo)注好的語音庫中挑選出最合適的語音單元,根據(jù)需求進(jìn)行一定的修改和調(diào)整后,經(jīng)過波形拼接的方式獲得合成的語音。
目前,DeepMind 最新的深度生成模型 WaveNet ,已經(jīng)能夠模擬任何人類的語音,并且將機器語音合成的表現(xiàn)與人類之間水平的差距至少縮減了 50%。
獵戶星空TTS團(tuán)隊也在不斷探索端到端技術(shù)的算法升級。
比如搭建了遠(yuǎn)超行業(yè)平均水平的標(biāo)注體系,從聲韻母層、音節(jié)層、詞層、韻律詞層、短語層和語句層6個層級,進(jìn)行特征單元的提取,從而使合成后的語音在上下文韻律信息及準(zhǔn)確度上都更加完善,聽起來自然,也就更符合真人的發(fā)音習(xí)慣。
算法越強大,機器表現(xiàn)當(dāng)然就更加自然。因此,好的TTS算法,如今正成為區(qū)分語音合成領(lǐng)域產(chǎn)業(yè)地位的核心因素。
這種產(chǎn)品驅(qū)動下的數(shù)據(jù)積累與技術(shù)攻堅的融合優(yōu)勢,正讓獵戶星空TTS不斷收到來自華為、小米、錘子、美的、喜馬拉雅等高科技企業(yè)的橄欖枝,更容易幫助獵豹移動建立產(chǎn)業(yè)上游區(qū)位。
訓(xùn)練成本之爭:AI界的另一個方法,是讓機器用你的聲音開口
TTS的另一個賽道,是如何讓機器學(xué)習(xí)用戶的聲音。
讓更多的明星,甚至普通人的聲音都可以在終端設(shè)備中蘇醒,這個技術(shù)能力具有廣泛的市場想象力。
但是,常見的地圖導(dǎo)航軟件中郭德綱、林志玲等明星的聲音,往往是通過大量語料的錄入和拼接來完成的。錄入時間過長不說,還需要在專業(yè)指導(dǎo)下完成。合作的明星往往需要錄制幾千句,時間跨度更是長達(dá)幾個月,耗資不菲。
而即便如此,也難以覆蓋全部細(xì)分應(yīng)用領(lǐng)域。在某些銜接處,往往會出現(xiàn)機械拼湊的生澀感。不但阻礙了明星聲音進(jìn)入泛化設(shè)備場景,更讓普通人對錄入自己的聲音望而卻步。
所以如何降低訓(xùn)練成本,用更少的語料達(dá)成聲音學(xué)習(xí)和語音生成,是這條賽道的關(guān)鍵。
最近,百度就發(fā)布了自己在語音合成方面的最新成果,可以通過“語音克隆”模仿數(shù)千個不同的聲音,每個說話者需要不到一個半小時就能完成數(shù)據(jù)訓(xùn)練。
獵戶星空的TTS技術(shù)則更為激進(jìn),只需要用戶花費5分鐘錄制10段話,之后系統(tǒng)就能自動用一段時間合成一個覆蓋常用領(lǐng)域的語音包,并且音色和真人一樣自然。
這到底是怎么做到的?
簡單來說,獵戶星空TTS技術(shù)團(tuán)隊用一個端到端的深度學(xué)習(xí)TTS模型TACOTRON,將文本分析、聲學(xué)模型、音頻合成等模塊進(jìn)行大語料庫的打包訓(xùn)練,以這樣的語音庫作為基礎(chǔ)模型,就可以在10段話中提取出發(fā)音人的語音特征,然后通過world聲碼器合成出音色相同的語音。
不難想象,這一技術(shù)落地商用之后,不僅明星的音源采集成本會大大降低,普通人也可以輕松生成獨屬于自己的個性化語音包,甚至可以跟擁有親人、戀人、愛豆聲音的機器人隨時互動聊天,想想還真有點小激動呢。
總結(jié)一下,目前TTS領(lǐng)域的現(xiàn)狀是,傳統(tǒng)的語料對數(shù)據(jù)的要求太大,往往需要消耗大量人力物力,短期內(nèi)根本無法被大規(guī)模復(fù)制。但個性化語音背后隱藏的,又是一個龐大的交互需求。
試想一下,如果一個聊天機器人具有了真人的語氣、生動的表達(dá),是不是能訓(xùn)練出一個很高仿的AI?它可以是一位好久不見的朋友、一個會講故事的媽媽,或者是一位即將逝去的親人最后的剪影。
這個技術(shù)的“處女地”一旦被撬動,很多智能語音軟硬件體驗上的困擾都將迎刃而解。
因此,建立在數(shù)據(jù)與算法優(yōu)勢上的少語料分析能力,也成為TTS賽場上重要的彎道技巧,只把少數(shù)企業(yè)推向更廣闊的市場。
工程化與商業(yè)入口:TTS的產(chǎn)業(yè)地緣爭奪
說了這么多不難看出,TTS是一項“可甜可鹽”的技術(shù)。
它看似存在感很低,卻讓許多站在金字塔頂端的高科技企業(yè)操碎了心;要用最前沿的技術(shù)矩陣才能攻克,最終還是要到真實瑣碎的人間煙火中千錘百煉。
而它的終極目標(biāo),還是通過智能設(shè)備與生活場景相聯(lián)接,建立服務(wù)市場。
所以一場圍繞TTS的爭奪戰(zhàn),不僅僅是技術(shù)競速。最重要的競爭指標(biāo),是企業(yè)的工程化完成能力與市場信賴度。
比如說,如果某些新技術(shù)只停留在實驗室階段,放到真實的音箱、電視產(chǎn)品上根本不是那么回事兒,或者說優(yōu)化程度很有限,不但合作伙伴要背鍋,“狼來了”聽多了,消費者的熱情也會被消耗殆盡。
目前百度和科大訊飛在國內(nèi)難解難分,微軟憑借具有號召力的技術(shù)表現(xiàn)力占得一席之地,谷歌則是遠(yuǎn)在天邊的“技術(shù)明燈”。但普通人能在哪里用到它們,還真是個謎。重技術(shù)突破而輕應(yīng)用、輕市場,恐怕是當(dāng)前TTS升級階段的主要矛盾。
當(dāng)然了,對于那些擁有產(chǎn)業(yè)落地能力和用戶信任底氣的玩家來說,現(xiàn)在又是跑馬圈地最好的時候。
比如中國消費者非常熟悉的獵戶星空最溫暖的AI女聲,就成為越來越多智能硬件的“助攻”。除了粉絲眾多的小米音箱、小豹音箱、喜馬拉雅音箱、美的音箱,剛剛發(fā)布的華為智能音箱小藝也應(yīng)用了這個溫暖的AI女聲。
憑借技術(shù)優(yōu)勢和對產(chǎn)品細(xì)節(jié)、用戶體驗的細(xì)心打磨,獵豹移動旗下的人工智能公司獵戶星空正在成為TTS這個AI細(xì)分市場的最快速上升品牌。
這或許也顯露出了TTS目前最需要做的,不是“居廟堂之高”,反而應(yīng)該將技術(shù)突破盡快投擲于現(xiàn)實,與用戶共舞,與產(chǎn)業(yè)磨合。
從大環(huán)境來看,TTS的應(yīng)用場景非常豐富。出行、購物、娛樂、育兒、智能手機等等等等,都是能夠大顯身手的地方。用戶的耐心也還在培養(yǎng)期,體驗不盡如人意,也只會被友善的調(diào)侃一下。
一些技術(shù)廠商之所以無法跑通這條康莊大道,一方面是產(chǎn)業(yè)下沉能力,習(xí)慣了在技術(shù)上九天攬月,對工程化產(chǎn)品缺乏耐心細(xì)致的打磨;
另一方面是大眾認(rèn)知斷層,在消費層面缺乏有力的品牌支持和心智保障,出現(xiàn)了“叫好不叫座”的尷尬情況。
而有說服力的AI硬件產(chǎn)品,與廣泛的產(chǎn)業(yè)合作基礎(chǔ),讓獵戶星空的TTS技術(shù)能力得到了全方位釋放,讓其在商業(yè)與工程化的賽道中具有更強的地緣優(yōu)勢。獵戶星空讓TTS快速落地,恰恰說明,TTS的應(yīng)用價值,決定了它是一個非常廣泛的通用型技術(shù),考驗的正是企業(yè)無短板的綜合能力。
一個人機共生的美好圖景,正在從TTS中醒來。從TTS到泛AI交互市場,絕對是一個值得長期思考的命題。
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準(zhǔn)AI機器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團(tuán)將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。