9月28日,京東智能在北京京東JD+智能奶茶館舉辦“遇見未來(lái)-智能語(yǔ)音進(jìn)化論”主題分享活動(dòng),旨在通過(guò)對(duì)智能語(yǔ)音技術(shù)、應(yīng)用場(chǎng)景及未來(lái)趨勢(shì)的分析和討論助推行業(yè)發(fā)展。
會(huì)上,靈隆科技首席科學(xué)家湯博士就智能語(yǔ)音技術(shù)的歷史及行業(yè)的發(fā)展進(jìn)程進(jìn)行了生動(dòng)的解析,同時(shí),科大訊飛云平臺(tái)事業(yè)部商務(wù)總監(jiān)湯熙、北京小魚兒科技合伙人兼銷售市場(chǎng)副總裁李傳剛、北京方正信息技術(shù)有限公司數(shù)碼外設(shè)事業(yè)部總經(jīng)理余斌、京東智能市場(chǎng)總監(jiān)李俊周等行業(yè)大咖也對(duì)智能語(yǔ)音的現(xiàn)狀及未來(lái)趨勢(shì)進(jìn)行了圓桌分享。
靈隆科技首席科學(xué)家湯博士
以下是靈隆科技首席科學(xué)家湯博士“智能語(yǔ)音的前世今生”演講實(shí)錄
從一個(gè)參與者角度,對(duì)人工智能尤其是語(yǔ)音的發(fā)展過(guò)程還是比較清楚的,今天我就來(lái)跟大家分享一下,我的一些感悟。
這個(gè)題目是《智能語(yǔ)音的前世今生》。我們都知道,語(yǔ)音交互是一個(gè)很自然的一種需求,人們以前從鍵盤輸入到鼠標(biāo),之后是語(yǔ)音,還有圖象。2000年左右,比爾蓋茨說(shuō)語(yǔ)音交互會(huì)是下一代的主要交互手段,我個(gè)人覺得可能不是主要,而是主要之一,用戶對(duì)于語(yǔ)音自然交互的需求是確實(shí)存在的。
大家都在講,到底什么是語(yǔ)音技術(shù)?其實(shí)語(yǔ)音技術(shù)包含了很多小門類,比如說(shuō)最主要的是語(yǔ)音識(shí)別-ASR,第二個(gè)是語(yǔ)音合成-TTS,這是目前知道的最多的兩種語(yǔ)音技術(shù)。除此之外還有別的語(yǔ)音技術(shù):語(yǔ)音轉(zhuǎn)換,聲紋識(shí)別,聽音識(shí)歌,語(yǔ)音標(biāo)準(zhǔn)化判斷等等。
1、語(yǔ)音識(shí)別是什么
我這次重點(diǎn)講的是語(yǔ)音識(shí)別和合成。首先講語(yǔ)音識(shí)別,最早的語(yǔ)音識(shí)別應(yīng)該是50年代的貝爾實(shí)驗(yàn)室Audry系統(tǒng),能識(shí)別十個(gè)英文數(shù)字,在科技史上大家都知道,有兩個(gè)著名的實(shí)驗(yàn)室,一個(gè)是貝爾實(shí)驗(yàn)室,一個(gè)是施樂(lè)公司的實(shí)驗(yàn)室。貝爾的人當(dāng)初就是覺得有趣就做了這個(gè)研究,但光是好玩、有趣還不能推動(dòng)這個(gè)行業(yè)的發(fā)展,美國(guó)空軍在60年代初提出了需求,那個(gè)時(shí)候進(jìn)入了噴氣式飛機(jī)的超音速時(shí)代,在飛行中會(huì)出現(xiàn)超過(guò)了7個(gè)G的過(guò)載,那個(gè)時(shí)候因?yàn)榭箟悍男阅苓€不適很好,飛行員身體被壓著,無(wú)法對(duì)飛機(jī)進(jìn)行有效操控,這個(gè)時(shí)候美國(guó)空軍就提出一個(gè)需求:能不能用語(yǔ)音來(lái)控制飛機(jī)?也正因?yàn)檫@個(gè)原因,從那個(gè)時(shí)候一直到現(xiàn)在,美國(guó)國(guó)防部的DARPA都一直在支持語(yǔ)音技術(shù)的研究,到現(xiàn)在應(yīng)該是50多年了。
所以從60年代開始大家開始做各種各樣的語(yǔ)音識(shí)別的研究,提出了各種各樣的方案,這時(shí)候做的比較成熟一點(diǎn)的是小詞匯表的孤立詞識(shí)別,支持一些命令詞的識(shí)別,這就是當(dāng)時(shí)的水平。
到了70、80年代就出現(xiàn)了很大的兩個(gè)進(jìn)步,語(yǔ)音識(shí)別中有很多技術(shù)問(wèn)題,其中的兩個(gè)主要問(wèn)題是語(yǔ)音模型和語(yǔ)言模型的建立,在70年代有很大的突破,IBM,提出了用HMM來(lái)解決語(yǔ)音模型的問(wèn)題,取得了很好的效果。而在80年代提N元統(tǒng)計(jì)模型也被提出,用來(lái)解決語(yǔ)言模型的問(wèn)題,這兩個(gè)方法成為了此后30年語(yǔ)音識(shí)別技術(shù)的主流方法。
在90年代初,卡耐基梅隆大學(xué)的李開復(fù)博士領(lǐng)頭開發(fā)了Sphinx系統(tǒng),這是一個(gè)歷史性的進(jìn)步,這是HMM和N元模型結(jié)合在一起語(yǔ)音識(shí)別系統(tǒng),它是第一個(gè)非特定人大詞匯量的語(yǔ)音識(shí)別系統(tǒng)。
這個(gè)系統(tǒng)是由大學(xué)開發(fā)出來(lái)的實(shí)驗(yàn)性系統(tǒng),運(yùn)行在服務(wù)器上,其實(shí)用價(jià)值有限。1997年IBM,推出了第一款商品化的語(yǔ)音識(shí)別系統(tǒng)ViaVoice,預(yù)裝在當(dāng)時(shí)的主流PC機(jī)上,有十幾種語(yǔ)言的版本,那時(shí)候非常轟動(dòng),可以說(shuō)90年代是語(yǔ)音識(shí)別技術(shù)發(fā)展的第一次高潮,有大量公司投入這個(gè)領(lǐng)域,如微軟、Nuance、Intel、Motorola、Nokia、Sun、Dragon。
2、第一次高潮后的低谷:標(biāo)志是大量公司紛紛退出這個(gè)領(lǐng)域
接下來(lái)是高潮后的低潮。2002-2011年。當(dāng)時(shí)遇到的主要問(wèn)題是語(yǔ)音技術(shù)本身遇到瓶頸,對(duì)于以朗讀方式輸入正規(guī)文本的語(yǔ)音識(shí)別率相當(dāng)高,但是對(duì)于日常口語(yǔ)化的輸入則識(shí)別率不高;另外當(dāng)時(shí)對(duì)用戶體驗(yàn)不夠重視,沒有從用戶的需求出發(fā)研發(fā)合適的產(chǎn)品。
很多在當(dāng)初投入語(yǔ)音研發(fā)的公司都退出了這個(gè)領(lǐng)域,比如說(shuō)我們知道的摩托羅拉、英特爾、諾基亞,甚至開山鼻祖IBM,都紛紛退出這個(gè)行業(yè)的研究。
這個(gè)行業(yè)也有堅(jiān)守者,誰(shuí)呢?微軟,還有一些后來(lái)新起的互聯(lián)網(wǎng)公司對(duì)這個(gè)領(lǐng)域很感興趣,開始投入谷歌、Siri、百度加入了這個(gè)領(lǐng)域,另外一些科技企業(yè)也投入這個(gè)領(lǐng)域的研究,如訊飛。
但是在這個(gè)所謂的低潮期階段,研究人員也沒有閑著,做了一個(gè)非常重要的兩件事,一件是開源工具,比如劍橋大學(xué)開發(fā)的HTK,后來(lái)又有了Kaldi, Julius等工具,有了這些工具,讓語(yǔ)音技術(shù)能夠迅速的擴(kuò)散。一個(gè)受過(guò)良好訓(xùn)練的研究生,大概三個(gè)月的時(shí)間就可以掌握這套工具,并且可以使用它來(lái)建立比較簡(jiǎn)單的系統(tǒng)。
另一件重要的事情就是數(shù)據(jù)準(zhǔn)備,語(yǔ)音技術(shù)的開發(fā)需要大量的訓(xùn)練數(shù)據(jù)最開始的時(shí)候,都是個(gè)公司自己去收集,費(fèi)時(shí)費(fèi)力。后來(lái)成立了LC—STAR、TC-STAR等技術(shù)數(shù)據(jù)聯(lián)盟,通過(guò)這個(gè)聯(lián)盟,數(shù)據(jù)得到了分享,這也為技術(shù)的擴(kuò)散打下了良好的基礎(chǔ)。
另外,這個(gè)時(shí)期出現(xiàn)了一個(gè)影響深遠(yuǎn)的發(fā)現(xiàn):深度神經(jīng)網(wǎng)絡(luò)(DNN)。2006年Hinton提出了深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法。它解決了多層神經(jīng)網(wǎng)絡(luò)的有效學(xué)習(xí)方法,而且學(xué)習(xí)算法的收斂性和層數(shù)無(wú)關(guān)。
2011年微軟把它成功的進(jìn)行了英文語(yǔ)音識(shí)別,2012年訊飛、百度先后把DNN用于中文語(yǔ)音識(shí)別,這就導(dǎo)致了今天第二次語(yǔ)音識(shí)別的高潮的來(lái)臨。
我今天主要談?wù)Z音識(shí)別技術(shù),DNN帶動(dòng)的人工智能領(lǐng)域的其它發(fā)展,那是另外的話題不在此展開。第二次高潮啟動(dòng)后,大量公司加入了該領(lǐng)域進(jìn)行研究和開發(fā)。比如Amazon,云知聲。
3、語(yǔ)音合成是什么?
我們?cè)僦v語(yǔ)音合成。語(yǔ)音合成的三個(gè)標(biāo)準(zhǔn),第一是可懂、第二是自然、第三是有情感,我們中文叫抑揚(yáng)頓挫,是三個(gè)不同的層次。目前來(lái)說(shuō),可懂已經(jīng)不是問(wèn)題了,目前的語(yǔ)音合成水平基本上做到自然這個(gè)層次,機(jī)械味不是那么濃,現(xiàn)在突破的主要方向是在情感方面進(jìn)行進(jìn)一步研究和探索。
語(yǔ)音合成的領(lǐng)域,其實(shí)起步也比較早,有的人認(rèn)為是200年前歐洲開發(fā)出用機(jī)械方式模擬人聲是最早的語(yǔ)音合成,但是如果從現(xiàn)代技術(shù)的角度來(lái)說(shuō),一般來(lái)說(shuō)認(rèn)為是從50年代開始,大家開始研究用計(jì)算機(jī)技術(shù)來(lái)做語(yǔ)音合成。
最早的方法是采用參數(shù)合成的方法。大家知道人的發(fā)聲原理,為什么能發(fā)出聲音來(lái)?三個(gè)環(huán)節(jié),一個(gè)是振動(dòng)源。第二是聲帶,第三是聲道,人們?cè)O(shè)想分別用不同的數(shù)學(xué)公式來(lái)模擬這三個(gè)環(huán)節(jié)。然后把這三個(gè)環(huán)節(jié)串接起來(lái)就能模擬人的發(fā)聲。根據(jù)這個(gè)原理,7、80年代人們發(fā)明了各種共振峰合成器,這個(gè)方法的優(yōu)勢(shì)是占用資源小,但缺點(diǎn)是可懂度低。
到了90年代,波形拼接方法被提出。大家發(fā)現(xiàn),參數(shù)合成方法怎么改進(jìn)都無(wú)法提高性能,大家就改用粗暴的方式,以中文為例,帶聲調(diào)的拼音音節(jié)有1400多個(gè),每種都錄幾十個(gè)樣本,使用的時(shí)候就把最合適的樣本調(diào)出來(lái)并拼起來(lái),形成語(yǔ)音,這種方式,很粗暴,但是有效。這里要提到科大訊飛,1999年科大訊飛成立,最開始就是使用波形拼接的方法。這種方式要提高性能,音庫(kù)越大越好,當(dāng)時(shí)最大的可能要幾十個(gè)G,在當(dāng)時(shí)一般計(jì)算機(jī)都達(dá)不到這個(gè)要求,只能在電信級(jí)別的服務(wù)器上運(yùn)行。
大家開始設(shè)想,把語(yǔ)音識(shí)別的使用的一些方法運(yùn)用到合成中, 人們把HMM模型引入,用來(lái)訓(xùn)練語(yǔ)音庫(kù),這樣大大減少了語(yǔ)音庫(kù)的大小,這樣就形成了可訓(xùn)練的語(yǔ)音合成方法。目前這個(gè)方法是語(yǔ)音合成產(chǎn)品的主流方法,占用空間大概在幾十M,其性能不遜于波形拼接方法。
從2014年開始,大家開始把深度神經(jīng)網(wǎng)絡(luò)也用在參數(shù)語(yǔ)音合成里,最新的報(bào)道DeepMind用深度神經(jīng)網(wǎng)絡(luò),提出了語(yǔ)音合成質(zhì)量的自然度,號(hào)稱是提高了50%。
當(dāng)然,和語(yǔ)音識(shí)別一樣,也開發(fā)了很多的開源工具,比如Festival,這也帶來(lái)了語(yǔ)音合成技術(shù)的快速擴(kuò)散。
4、智能語(yǔ)音是什么?
前面講的是語(yǔ)音技術(shù),現(xiàn)在大家說(shuō)的更多的是智能語(yǔ)音。什么是智能語(yǔ)音?我個(gè)人理解,從兩個(gè)方向來(lái)理解,一個(gè)是說(shuō)在語(yǔ)音技術(shù)當(dāng)中加入了智能的因素,比如說(shuō)前面提到的DNNN,所以說(shuō)語(yǔ)音技術(shù)智能了。
第二個(gè)是語(yǔ)音識(shí)別技術(shù)加上了自然語(yǔ)言理解,語(yǔ)音識(shí)別只是把語(yǔ)音變成了文字,要理解文字后面的意思是什么,就需要自然語(yǔ)言理解,所以說(shuō)目前來(lái)說(shuō),如果要做語(yǔ)音產(chǎn)品,光有語(yǔ)音識(shí)別技術(shù)是不夠的,還需要自然語(yǔ)言理解,能理解你說(shuō)的話,那才叫智能語(yǔ)音。
自然語(yǔ)言處理是自然語(yǔ)言處理的一個(gè)分類。
自然語(yǔ)言理解目前來(lái)說(shuō)有三種方法,第一是基于規(guī)則,就是找很多的語(yǔ)言學(xué)家來(lái)歸納總結(jié)語(yǔ)言規(guī)則,所以在剛開始的時(shí)候,在國(guó)內(nèi)做自然語(yǔ)言理解的,不是中科院系統(tǒng)在做,而是社科院系統(tǒng)在做,他們有很多語(yǔ)言學(xué)家,他們總結(jié)了很多的語(yǔ)言規(guī)則出來(lái)。
但近些年,隨著計(jì)算機(jī)的大幅發(fā)展,用統(tǒng)計(jì)方法來(lái)分析語(yǔ)言成為了主流,并產(chǎn)生了一門交叉學(xué)科,叫計(jì)算語(yǔ)言學(xué)。這樣,很多不具有專業(yè)的語(yǔ)言學(xué)知識(shí)的計(jì)算機(jī)研究人員,都可以從事語(yǔ)言理解的研究。
還有一種方法,就是知識(shí)圖譜的方法,它把規(guī)則和統(tǒng)計(jì)方法綜合起來(lái)。
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購(gòu)和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營(yíng)
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過(guò)熱挑戰(zhàn),交付延期引發(fā)市場(chǎng)關(guān)注
- 馬斯克能否成為 AI 部部長(zhǎng)?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無(wú)人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測(cè)量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車整車股盤初強(qiáng)勢(shì)拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。