在1952年的貝爾研究所,Davis等人研制了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。1960年英國(guó)的Denes等人研制了第一個(gè)計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)。
大規(guī)模的語(yǔ)音識(shí)別研究始于上世紀(jì)70年代以后,并在小詞匯量、孤立詞的識(shí)別方面取得了實(shí)質(zhì)性的進(jìn)展。上世紀(jì)80年代以后,語(yǔ)音識(shí)別研究的重點(diǎn)逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語(yǔ)音識(shí)別。
同時(shí),語(yǔ)音識(shí)別在研究思路上也發(fā)生了重大變化,由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)思路開(kāi)始轉(zhuǎn)向基于統(tǒng)計(jì)模型的技術(shù)思路。此外,業(yè)內(nèi)有專(zhuān)家再次提出了將神經(jīng)網(wǎng)絡(luò)技術(shù)引入語(yǔ)音識(shí)別問(wèn)題的技術(shù)思路。
上世紀(jì)90年代以后,在語(yǔ)音識(shí)別的系統(tǒng)框架方面并沒(méi)有什么重大突破。但是,在語(yǔ)音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。比如,DARPA是在上世界70年代由美國(guó)國(guó)防部遠(yuǎn)景研究計(jì)劃局資助的一項(xiàng)計(jì)劃,旨在支持語(yǔ)言理解系統(tǒng)的研究開(kāi)發(fā)工作。進(jìn)入上世紀(jì)90年代,DARPA計(jì)劃仍在持續(xù)進(jìn)行中,其研究重點(diǎn)已轉(zhuǎn)向識(shí)別裝置中的自然語(yǔ)言處理部分,識(shí)別任務(wù)設(shè)定為“航空旅行信息檢索”。
我國(guó)的語(yǔ)音識(shí)別研究起始于1958年,由中國(guó)科學(xué)院聲學(xué)所利用電子管電路識(shí)別10個(gè)元音。由于當(dāng)時(shí)條件的限制,中國(guó)的語(yǔ)音識(shí)別研究工作一直處于緩慢發(fā)展的階段。直至1973年,中國(guó)科學(xué)院聲學(xué)所開(kāi)始了計(jì)算機(jī)語(yǔ)音識(shí)別。
進(jìn)入上世紀(jì)80年代以來(lái),隨著計(jì)算機(jī)應(yīng)用技術(shù)在我國(guó)逐漸普及和應(yīng)用以及數(shù)字信號(hào)技術(shù)的進(jìn)一步發(fā)展,國(guó)內(nèi)許多單位具備了研究語(yǔ)音技術(shù)的基本條件。與此同時(shí),國(guó)際上語(yǔ)音識(shí)別技術(shù)在經(jīng)過(guò)了多年的沉寂之后重又成為研究的熱點(diǎn)。在這種形式下,國(guó)內(nèi)許多單位紛紛投入到這項(xiàng)研究工作中去。
1986年,語(yǔ)音識(shí)別作為智能計(jì)算機(jī)系統(tǒng)研究的一個(gè)重要組成部分而被專(zhuān)門(mén)列為研究課題。在“863”計(jì)劃的支持下,中國(guó)開(kāi)始組織語(yǔ)音識(shí)別技術(shù)的研究,并決定了每隔兩年召開(kāi)一次語(yǔ)音識(shí)別的專(zhuān)題會(huì)議。自此,我國(guó)語(yǔ)音識(shí)別技術(shù)進(jìn)入了一個(gè)新的發(fā)展階段。
自2009年以來(lái),借助機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究的發(fā)展以及大數(shù)據(jù)語(yǔ)料的積累,語(yǔ)音識(shí)別技術(shù)得到突飛猛進(jìn)的發(fā)展。
將機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究引入到語(yǔ)音識(shí)別聲學(xué)模型訓(xùn)練,使用帶RBM預(yù)訓(xùn)練的多層神經(jīng)網(wǎng)絡(luò),提高了聲學(xué)模型的準(zhǔn)確率。在此方面,微軟公司的研究人員率先取得了突破性進(jìn)展,他們使用深層神經(jīng)網(wǎng)絡(luò)模型(DNN)后,語(yǔ)音識(shí)別錯(cuò)誤率降低了30%,是近20年來(lái)語(yǔ)音識(shí)別技術(shù)方面最快的進(jìn)步。
2009年前后,大多主流的語(yǔ)音識(shí)別解碼器已經(jīng)采用基于有限狀態(tài)機(jī)(WFST)的解碼網(wǎng)絡(luò),該解碼網(wǎng)絡(luò)可以把語(yǔ)言模型、詞典和聲學(xué)共享音字集統(tǒng)一集成為一個(gè)大的解碼網(wǎng)絡(luò),提高了解碼的速度,為語(yǔ)音識(shí)別的實(shí)時(shí)應(yīng)用提供了基礎(chǔ)。
隨著互聯(lián)網(wǎng)的快速發(fā)展,以及手機(jī)等移動(dòng)終端的普及應(yīng)用,可以從多個(gè)渠道獲取大量文本或語(yǔ)音方面的語(yǔ)料,這為語(yǔ)音識(shí)別中的語(yǔ)言模型和聲學(xué)模型的訓(xùn)練提供了豐富的資源,使得構(gòu)建通用大規(guī)模語(yǔ)言模型和聲學(xué)模型成為可能。
在語(yǔ)音識(shí)別中,訓(xùn)練數(shù)據(jù)的匹配和豐富性是推動(dòng)系統(tǒng)性能提升的最重要因素之一,但是語(yǔ)料的標(biāo)注和分析需要長(zhǎng)期的積累和沉淀,隨著大數(shù)據(jù)時(shí)代的來(lái)臨,大規(guī)模語(yǔ)料資源的積累將提到戰(zhàn)略高度。
現(xiàn)如今,語(yǔ)音識(shí)別在移動(dòng)終端上的應(yīng)用最為火熱,語(yǔ)音對(duì)話(huà)機(jī)器人、語(yǔ)音助手、互動(dòng)工具等層出不窮,許多互聯(lián)網(wǎng)公司紛紛投入人力、物力和財(cái)力展開(kāi)此方面的研究和應(yīng)用,目的是通過(guò)語(yǔ)音交互的新穎和便利模式迅速占領(lǐng)客戶(hù)群。(雨田整理) 相關(guān)產(chǎn)品 siri
Siri技術(shù)來(lái)源于美國(guó)國(guó)防部高級(jí)研究規(guī)劃局所公布的CALO計(jì)劃:一個(gè)讓軍方簡(jiǎn)化處理一些繁復(fù)庶務(wù),并具學(xué)習(xí)、組織以及認(rèn)知能力的數(shù)字助理,其所衍生出來(lái)的民用版軟件Siri虛擬個(gè)人助理。
Siri成立于2007年,最初是以文字聊天服務(wù)為主,隨后通過(guò)與語(yǔ)音識(shí)別廠(chǎng)商N(yùn)uance合作,Siri實(shí)現(xiàn)了語(yǔ)音識(shí)別功能。2010年,Siri被蘋(píng)果以2億美金收購(gòu)。
Siri成為蘋(píng)果公司在其產(chǎn)品iPhone和iPad Air上應(yīng)用的一項(xiàng)語(yǔ)音控制功能。Siri可以令iPhone和iPad Air變身為一臺(tái)智能化機(jī)器人。Siri支持自然語(yǔ)言輸入,并且可以調(diào)用系統(tǒng)自帶的天氣預(yù)報(bào)、日程安排、搜索資料等應(yīng)用,還能夠不斷學(xué)習(xí)新的聲音和語(yǔ)調(diào),提供對(duì)話(huà)式的應(yīng)答。
Google Now
Google Now是谷歌隨安卓4.1系統(tǒng)同時(shí)推出的一款應(yīng)用,它可以了解用戶(hù)的各種習(xí)慣和正在進(jìn)行的動(dòng)作,并利用所了解的資料來(lái)為用戶(hù)提供相關(guān)信息。
今年3月24日,谷歌宣布Google Now語(yǔ)音服務(wù)正式登陸Windows和Mac桌面版Chrome瀏覽器。
Google Now的應(yīng)用會(huì)更加方便用戶(hù)收取電子郵件,當(dāng)你接收到新郵件時(shí),它就會(huì)自動(dòng)彈出以便你查看。Google Now還推出了步行和行車(chē)?yán)锍逃涗浌δ?,這個(gè)計(jì)步器功能可通過(guò)Android設(shè)備的傳感器來(lái)統(tǒng)計(jì)用戶(hù)每月行駛的里程,包括步行和騎自行車(chē)的路程。
此外,Google Now增加了一些旅游和娛樂(lè)特色功能,包括:汽車(chē)租賃、演唱會(huì)門(mén)票和通勤共享方面的卡片;公共交通和電視節(jié)目的卡片進(jìn)行改善,這些卡片現(xiàn)在可以聽(tīng)音識(shí)別音樂(lè)和節(jié)目信息;用戶(hù)可以為新媒體節(jié)目的開(kāi)播設(shè)定搜索提醒,同時(shí)還可以接收實(shí)時(shí)NCAA(美國(guó)大學(xué)體育協(xié)會(huì))橄欖球比分。
百度語(yǔ)音
百度語(yǔ)音一般指百度語(yǔ)音搜索,是百度公司為廣大互聯(lián)網(wǎng)用戶(hù)提供的一種基于語(yǔ)音的搜索服務(wù),用戶(hù)可以使用多種客戶(hù)端發(fā)起語(yǔ)音搜索,服務(wù)器端根據(jù)用戶(hù)的發(fā)出的語(yǔ)音請(qǐng)求,進(jìn)行語(yǔ)音識(shí)別然后將檢索結(jié)果反饋給用戶(hù)。
百度語(yǔ)音搜索不僅提供一般的通用語(yǔ)音搜索服務(wù),還有針對(duì)地圖用戶(hù)制定的特色搜索服務(wù),后續(xù)還會(huì)有更多的個(gè)性化搜索和識(shí)別服務(wù)出現(xiàn)。
目前百度語(yǔ)音搜索以移動(dòng)客戶(hù)端為主要平臺(tái),內(nèi)嵌于百度的其他產(chǎn)品中,比如掌上百度,百度手機(jī)地圖等,用戶(hù)可以在使用這些客戶(hù)端產(chǎn)品的同時(shí)體驗(yàn)語(yǔ)音搜索,支持全部主流的手機(jī)操作系統(tǒng)。
微軟Cortana
Cortana是Windows Phone平臺(tái)下的虛擬語(yǔ)音助手,由游戲《光暈》中Cortana的聲優(yōu)Jen Taylor配音,Cortana中文版又名“微軟小娜”。
微軟對(duì)Cortana的描述為“你手機(jī)上的私人助手,為你提供設(shè)置日歷項(xiàng)、建議、進(jìn)程等更多幫助”,它能夠和你之間進(jìn)行交互,并且盡可能的模擬人的說(shuō)話(huà)語(yǔ)氣和思考方式跟你進(jìn)行交流。此外圓形的圖標(biāo)按鈕會(huì)隨著你手機(jī)的主題進(jìn)行調(diào)整,如果說(shuō)你設(shè)置了綠色的主題,那么Cortana就是綠色的圖標(biāo)。
此外,你能夠通過(guò)開(kāi)始屏幕或者設(shè)備上的搜索按鈕來(lái)呼出Cortana,Cortana采用一問(wèn)一答的方式,它只有在你咨詢(xún)它的時(shí)候才會(huì)顯示足夠多的信息。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )