很久以前,比爾蓋茨便曾經(jīng)預(yù)言,語(yǔ)音交互將會(huì)成為未來(lái)人機(jī)交互技術(shù)三大主要方向之一。不管是從自然性、便捷性還是學(xué)習(xí)成本來(lái)說(shuō),語(yǔ)言都是進(jìn)行信息傳達(dá)最好的方式之一。只不過(guò)在過(guò)去,語(yǔ)言僅限于人與人之間的交流,而現(xiàn)在我們則希望通過(guò)自然語(yǔ)言做到和機(jī)器交流。不管是科幻小說(shuō)還是為數(shù)眾多的影視作品,都會(huì)經(jīng)常出現(xiàn)人通過(guò)語(yǔ)音對(duì)設(shè)備進(jìn)行操控的場(chǎng)景,內(nèi)里則蘊(yùn)含著人類對(duì)語(yǔ)音交互潛在的感情。
導(dǎo)演們負(fù)責(zé)將人類對(duì)語(yǔ)音交互的期許在影視作品中實(shí)現(xiàn),而科學(xué)家則致力于將這項(xiàng)技術(shù)從電影帶到現(xiàn)實(shí)生活中來(lái)。不管是國(guó)內(nèi)還是國(guó)外,針對(duì)自然語(yǔ)言的識(shí)別、理解,以及將自然語(yǔ)言識(shí)別理解和設(shè)備交互結(jié)合方面的學(xué)習(xí)和研究從未停止過(guò)。早在2011年,蘋果便推出了語(yǔ)音識(shí)別助手Siri,開(kāi)啟了移動(dòng)智能設(shè)備語(yǔ)音交互的先河。與此同時(shí),如Google、微軟等科技巨頭也紛紛開(kāi)展自身對(duì)語(yǔ)音識(shí)別和自然語(yǔ)義理解的研究工作,分別推出了Google Now和Cortana,而國(guó)內(nèi)的百度、搜狗、科大訊飛等企業(yè)也在進(jìn)行同樣的工作。即便專注于設(shè)計(jì)的Facebook近期也是通過(guò)收購(gòu)Wit.ai的方式進(jìn)入了這一領(lǐng)域。如今,語(yǔ)音技術(shù)儼然成為了科技行業(yè)的熱門話題,也被譽(yù)為是下一次人機(jī)交互的突破口之一。
從使用場(chǎng)景來(lái)看,語(yǔ)音交互可發(fā)揮作用的地方特別多,如文字輸入、實(shí)時(shí)翻譯、人機(jī)交互等。不管軟件還是硬件,都可以將語(yǔ)音作為一個(gè)信息輸入源,并且將其變成次要或者主要的輸入、交互方式。在現(xiàn)實(shí)應(yīng)用中,我們看到如各大主流輸入法工具都具備了語(yǔ)音輸入的功能,而在智能家居行業(yè)中,如何通過(guò)自然語(yǔ)音操控家電產(chǎn)品的話題也為大眾所津津樂(lè)道。而自Siri推出后,語(yǔ)音助手更是成為主流中高端旗艦智能手機(jī)的標(biāo)準(zhǔn)配置。
盡管語(yǔ)音交互已經(jīng)在不同的業(yè)界得到了較為廣泛的應(yīng)用,但不得不承認(rèn)的是,語(yǔ)音交互目前還遠(yuǎn)未成為人機(jī)交互的主流應(yīng)用方式,蓋因目前主流的語(yǔ)音助手尚存在一些”短板“:
1、特別依賴基礎(chǔ)網(wǎng)絡(luò)的建設(shè)
語(yǔ)音識(shí)別和自然語(yǔ)義理解,都依賴龐大的語(yǔ)料庫(kù)及強(qiáng)大的運(yùn)算能力,但語(yǔ)音交互的應(yīng)用多見(jiàn)于不管是存儲(chǔ)和運(yùn)算能力都極其有限的移動(dòng)智能設(shè)備,因此目前主流的解決方案多用云技術(shù),也就是將語(yǔ)音進(jìn)行壓縮及特征提煉,將壓縮提煉后的內(nèi)容上傳到云端,在云端進(jìn)行識(shí)別和理解,然后再將識(shí)別理解結(jié)果返回。但這種解決方案也帶來(lái)一個(gè)問(wèn)題,對(duì)移動(dòng)網(wǎng)絡(luò)的帶寬和網(wǎng)速有一定的要求。在基礎(chǔ)網(wǎng)絡(luò)建設(shè)未達(dá)到要求以前,要么識(shí)別速度慢,要么干脆無(wú)法識(shí)別,極大程度限制了語(yǔ)音交互技術(shù)的普及。
隨著國(guó)內(nèi)外移動(dòng)網(wǎng)絡(luò)的提速和覆蓋,特別是4G/5G網(wǎng)絡(luò)的鋪設(shè),目前基礎(chǔ)網(wǎng)絡(luò)對(duì)語(yǔ)音識(shí)別的限制已經(jīng)越來(lái)越小。
2、應(yīng)用方式有限,淪為玩具
目前智能手機(jī)上主流的語(yǔ)音交互工具,大部分僅限于少數(shù)幾個(gè)功能,遠(yuǎn)未達(dá)到能夠?qū)θ藗冋J褂弥悄苁謾C(jī)需求功能覆蓋的程度。即便以Siri為例,也僅是能夠進(jìn)行諸如播放音樂(lè)、打電話、打開(kāi)特定應(yīng)用程序等少數(shù)幾個(gè)功能,且在使用上要通過(guò)物理觸控的方式先打開(kāi)語(yǔ)音助手,才能進(jìn)行接下來(lái)的操作,并未達(dá)到語(yǔ)音交互”解放雙手“的終極目標(biāo),甚至從某種程度來(lái)說(shuō)是更麻煩了。
因此在現(xiàn)實(shí)中看到的情況是Siri等語(yǔ)音助手更多的是成為人們的玩具,并未達(dá)到取代傳統(tǒng)操控方式的目的。如果想要達(dá)到這樣的程度,必須將語(yǔ)音交互技術(shù)和手機(jī)的操作系統(tǒng)進(jìn)行深層次的整合,能夠直接在系統(tǒng)層面,以語(yǔ)音的方式對(duì)大部分功能進(jìn)行直接操控。
3、識(shí)別準(zhǔn)確度、深度、連續(xù)性不夠
盡管已經(jīng)可以做到對(duì)簡(jiǎn)單語(yǔ)言的識(shí)別和理解,但目前的語(yǔ)音技術(shù)在自然語(yǔ)義理解上面還存在很大的提升空間,甚至連基本的識(shí)別準(zhǔn)確度仍然和人類存在較大的差距。這些同樣決定了只能用語(yǔ)音對(duì)設(shè)備進(jìn)行一些簡(jiǎn)單的操作,一旦涉及到復(fù)雜、連續(xù)性的操控,語(yǔ)音交互就無(wú)能為力了,只能回歸到傳統(tǒng)的操控方式,這種”間斷使用“也會(huì)極大程度降低語(yǔ)音交互的體驗(yàn)程度。
但我們也要看到隨著人工智能、神經(jīng)網(wǎng)絡(luò)、云計(jì)算等先進(jìn)技術(shù)的快速發(fā)展,目前的語(yǔ)音識(shí)別能力和對(duì)自然語(yǔ)義的理解能力每天都在快速發(fā)展,使語(yǔ)音交互的應(yīng)用場(chǎng)景不斷得到擴(kuò)充。在一些特殊的場(chǎng)合,比如開(kāi)車時(shí);或者一些特殊的人群,比如盲人,語(yǔ)音助手已經(jīng)成為主要的人機(jī)交互方式,這些都代表著語(yǔ)音交互行業(yè)的發(fā)展情況。
語(yǔ)音交互是未來(lái)的趨勢(shì)
不得不承認(rèn)的是,觸控仍然是現(xiàn)在時(shí)代環(huán)境下最佳的人機(jī)交互方式,但是也有其眾多的缺點(diǎn)所在。在未來(lái),語(yǔ)音交互必然會(huì)從目前的邊緣性交互、輔助性交互成長(zhǎng)為主流的交互方式,甚至成為最重要的人機(jī)交互方式。這有賴于基礎(chǔ)網(wǎng)絡(luò)、語(yǔ)音技術(shù)的發(fā)展,也有賴于以智能手機(jī)為代表的移動(dòng)設(shè)備生產(chǎn)廠商不斷的去探索語(yǔ)音和設(shè)備之間的關(guān)系。在這方面,傳統(tǒng)的語(yǔ)音應(yīng)用開(kāi)發(fā)商具有天然的劣勢(shì),因?yàn)槠渲荒芑谠O(shè)備支持的端口進(jìn)行頂層開(kāi)發(fā)。只有終端生產(chǎn)廠商才能真正做到基于底層硬件開(kāi)始開(kāi)發(fā),做到深層次與語(yǔ)音交互技術(shù)的結(jié)合。因此未來(lái)語(yǔ)音交互的發(fā)展方向必然是眾多相關(guān)機(jī)構(gòu)聯(lián)合,以產(chǎn)業(yè)聯(lián)盟的方式進(jìn)行推動(dòng),在這方面,國(guó)內(nèi)的中興已經(jīng)在開(kāi)始進(jìn)行有益的探索,如其發(fā)起成立的智慧語(yǔ)音聯(lián)盟便是將語(yǔ)音處理芯片商、語(yǔ)音識(shí)別軟件商和搜索服務(wù)提供商、內(nèi)容提供商等有效結(jié)合起來(lái),并且結(jié)合中科院等強(qiáng)大的研究機(jī)構(gòu),推動(dòng)智慧語(yǔ)音的規(guī)?;瘧?yīng)用和普及。在2015年CES上,中興新推出的主打語(yǔ)音交互的手機(jī)星星2號(hào)榮獲大會(huì)最受歡迎十大手機(jī)之一,或許正代表國(guó)際主流對(duì)語(yǔ)音交互技術(shù)的認(rèn)可。
于此同時(shí),Google、蘋果等智能手機(jī)行業(yè)巨頭同樣在推動(dòng)語(yǔ)音交互技術(shù)的深度發(fā)展,如Google在著名工程師Johan Schalkwyk帶領(lǐng)下進(jìn)行語(yǔ)音識(shí)別和人工智能方面的研究,期望在2年內(nèi)推出具有突破性的語(yǔ)音設(shè)備。而蘋果每年同樣投入巨資,希望Siri和iPhone進(jìn)行更深度的整合。
從本質(zhì)上來(lái)說(shuō),人類習(xí)慣于用語(yǔ)音進(jìn)行交流,代表人類百萬(wàn)年來(lái)最自然、最習(xí)慣的溝通方式。一旦這種溝通方式在人類和設(shè)備之間的籬笆被打破,或許便會(huì)是智能設(shè)備下一個(gè)春天的到來(lái)。語(yǔ)音交互的大勢(shì)已經(jīng)慢慢造就,最終將如同現(xiàn)在的觸控技術(shù)一樣,真正融入到每一個(gè)人的生活中,如水,如空氣。
作者大南,公眾號(hào):daxiaov
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購(gòu)和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營(yíng)
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過(guò)熱挑戰(zhàn),交付延期引發(fā)市場(chǎng)關(guān)注
- 馬斯克能否成為 AI 部部長(zhǎng)?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無(wú)人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測(cè)量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開(kāi)展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車整車股盤初強(qiáng)勢(shì)拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。