11月22日,百度語(yǔ)音開放平臺(tái)三周年慶活動(dòng)在京舉辦,百度宣布將向公眾開放四個(gè)全新的語(yǔ)音技術(shù)接口。據(jù)百度公司首席科學(xué)家吳恩達(dá)介紹,這四項(xiàng)語(yǔ)音技術(shù)分別為情感合成、遠(yuǎn)場(chǎng)方案、喚醒二期技術(shù)和長(zhǎng)語(yǔ)音方案,即日起這幾項(xiàng)旨在提升語(yǔ)音交互用戶體驗(yàn)和推動(dòng)語(yǔ)音交互落地普及的技術(shù),將免費(fèi)開放給用戶和開發(fā)者共享。
智能語(yǔ)音交互,前景與問(wèn)題交織
智能語(yǔ)音交互作為一個(gè)依仗新興技術(shù)而誕生發(fā)展的行業(yè),不僅有著充足的發(fā)展?jié)摿?,更隨著近年相關(guān)技術(shù)的快速迭代迎來(lái)了爆發(fā)期。
中國(guó)工信部的報(bào)告指出,2016年全球智能語(yǔ)音產(chǎn)業(yè)規(guī)模為82.3億美元,近五年復(fù)合增長(zhǎng)率高達(dá)35.1%,而根據(jù)Research and Markets 發(fā)布的調(diào)查數(shù)據(jù)顯示,2020年全球智能語(yǔ)音市場(chǎng)規(guī)模預(yù)計(jì)將達(dá)到191.7億美元。因此對(duì)于科技巨頭來(lái)說(shuō),這一領(lǐng)域已經(jīng)成為兵家必爭(zhēng)之地。
事實(shí)上國(guó)內(nèi)外諸多科技巨頭近年來(lái)都已意識(shí)到了語(yǔ)音交互行業(yè)的發(fā)展?jié)摿Γ⒓娂娫谶@一領(lǐng)域大展拳腳。亞馬遜旗下家庭智能語(yǔ)音交互產(chǎn)品Amazon Echo就幫助其占據(jù)了智能家居語(yǔ)音交互領(lǐng)域的半壁江山,蘋果的Sir更以問(wèn)答交互形式開啟了語(yǔ)音交互新世界的大門,除此之外,微軟、谷歌、Facebook、百度、訊飛等國(guó)內(nèi)外巨頭都早已在這一領(lǐng)域爭(zhēng)相競(jìng)逐。
但在巨頭紛紛布局的今天,智能語(yǔ)音行業(yè)仍然存在不少問(wèn)題。語(yǔ)音交互產(chǎn)品在識(shí)別快速話語(yǔ)時(shí),往往或難以識(shí)別或頻頻出錯(cuò),而這與開發(fā)者語(yǔ)音識(shí)別技術(shù)的不到位有著直接關(guān)系。此外,語(yǔ)音交互助手目前的應(yīng)用場(chǎng)景仍然談不上寬泛,當(dāng)前一些已知的應(yīng)用場(chǎng)景不要說(shuō)智能化,甚至給人一種生搬硬造應(yīng)用場(chǎng)景的感覺(jué)。
事實(shí)上,不同于移動(dòng)互聯(lián)網(wǎng)技術(shù)的全面開花,當(dāng)前的智能語(yǔ)音交互行業(yè)很大程度上都是各家企業(yè)在閉門造車,行業(yè)環(huán)境不夠開放是最大的問(wèn)題。技術(shù)上的缺乏交流制約著行業(yè)的進(jìn)一步提升。而本次百度開放關(guān)鍵性技術(shù)則對(duì)改善上述問(wèn)題明顯有著重要意義,通過(guò)多項(xiàng)關(guān)鍵技術(shù)的開源共享,行業(yè)死水將被盤活,當(dāng)前行業(yè)因技術(shù)障礙存在的問(wèn)題,比如語(yǔ)音識(shí)別距離短,語(yǔ)音喚醒率不盡如人意等勢(shì)必將得到改善。
百度的四項(xiàng)技術(shù),應(yīng)用與指導(dǎo)意義
本次百度宣布開放共享的情感合成、遠(yuǎn)場(chǎng)方案、喚醒二期技術(shù)和長(zhǎng)語(yǔ)音方案這四項(xiàng)技術(shù),實(shí)質(zhì)上包含的是語(yǔ)音交互領(lǐng)域的合成,識(shí)別,喚醒和理解這四大基礎(chǔ)板塊。
語(yǔ)音合成技術(shù)歷來(lái)給用戶的印象或許就是機(jī)械,刻板的電子聲,而這種不自然的聲音也在一定程度上影響了用戶群體對(duì)智能語(yǔ)音產(chǎn)品的接受程度。而百度的情感合成技術(shù)通過(guò)百小時(shí)級(jí)別以上的語(yǔ)音音控大數(shù)據(jù)采集和獨(dú)有的人類發(fā)言韻律停頓預(yù)測(cè)技術(shù)處理后,電子聲變得更加接近真人聲音,一個(gè)典型的例子是百度今年早些時(shí)候曾利用此技術(shù),復(fù)原已逝明星張國(guó)榮的聲音。
而遠(yuǎn)場(chǎng)方案則對(duì)解決智能語(yǔ)音交互技術(shù)的應(yīng)用場(chǎng)景不夠?qū)挿簡(jiǎn)栴}有重要意義,這項(xiàng)技術(shù)得到分享之后,開發(fā)者可以利用這一接口,使語(yǔ)音識(shí)別距離增加到3到5米,同時(shí)擁有93%以上的語(yǔ)音識(shí)別率,這將為語(yǔ)音技術(shù)帶來(lái)遠(yuǎn)比現(xiàn)在更多的想象空間,而不只是遙控電視或解鎖手機(jī)。
作為業(yè)界公認(rèn)的智能語(yǔ)音交互的基礎(chǔ)組成技術(shù),所謂喚醒可以簡(jiǎn)單的視為給智能語(yǔ)音產(chǎn)品加上了一雙“耳朵”,有了這一能力,產(chǎn)品才能聽到用戶的呼喚并響應(yīng)操作。百度語(yǔ)音喚醒技術(shù)則有以下幾個(gè)特點(diǎn):支持用戶自定義喚醒詞,不僅滿足了用戶的個(gè)性化需求,在與系統(tǒng)指令喚醒詞相結(jié)合之后還提升了產(chǎn)品性能,比如可同時(shí)下達(dá)拍照和照明的指令;加入雙層解號(hào)器,提高了喚醒準(zhǔn)確率,目前百度語(yǔ)音喚醒準(zhǔn)確率高達(dá)95%,誤報(bào)次數(shù)被控制在24小時(shí)一次以內(nèi);在喚醒功耗方面,百度語(yǔ)音喚醒的功耗則是國(guó)內(nèi)很多競(jìng)品的三分之一。
當(dāng)前市場(chǎng)上的主流語(yǔ)音識(shí)別應(yīng)用,其絕大部分都是短語(yǔ)音識(shí)別。比如搜索使用的是關(guān)鍵詞,地圖語(yǔ)音輸入的是地址,語(yǔ)音助手輸入的是指令,輸入法使用語(yǔ)音看似是長(zhǎng)語(yǔ)音,實(shí)際上最長(zhǎng)支持不超過(guò)60秒。因此,長(zhǎng)語(yǔ)音識(shí)別技術(shù)再次拓寬了智能語(yǔ)音交互的應(yīng)用場(chǎng)景,一個(gè)簡(jiǎn)單的例子就是語(yǔ)音輸入法不再受時(shí)間限制,用戶可以用口述“寫文章”,“寫日記”。而長(zhǎng)語(yǔ)音使用環(huán)境下,語(yǔ)音識(shí)別的準(zhǔn)確率既是重點(diǎn),也是難點(diǎn),百度長(zhǎng)語(yǔ)音技術(shù)則從多個(gè)方面實(shí)現(xiàn)了突破:使用了LSTM對(duì)語(yǔ)音進(jìn)行噪聲進(jìn)行建模,切分準(zhǔn)確率超過(guò)99%;生成模型使用了說(shuō)話人自適應(yīng),保證了每個(gè)人說(shuō)話時(shí)間越長(zhǎng)識(shí)別效果就會(huì)越好;還實(shí)現(xiàn)了對(duì)識(shí)別結(jié)果的智能糾錯(cuò),從結(jié)果層面保證了識(shí)別準(zhǔn)確率。
不難看出,百度開放的這四項(xiàng)全新技術(shù)對(duì)于當(dāng)前智能語(yǔ)音交互領(lǐng)域技術(shù)的推進(jìn)、落地和產(chǎn)品的優(yōu)化有著重要作用。事實(shí)上,這些技術(shù)并不僅僅存在于理論上或?qū)嶒?yàn)室中,百度已經(jīng)在多個(gè)實(shí)際場(chǎng)景中成功運(yùn)用了這些技術(shù),與包括聯(lián)想、中興、長(zhǎng)虹、康佳、SONY、特斯拉、途勝、惠普、艾米通訊等手機(jī)、家居、汽車、服務(wù)行業(yè)的眾多企業(yè)均展開了合作,新興技術(shù)的成功落地應(yīng)用對(duì)整個(gè)語(yǔ)音交互行業(yè)走下云端普惠C端有著一定的指導(dǎo)作用。
新一輪變革在即,產(chǎn)業(yè)化時(shí)代來(lái)臨
到目前為止,百度語(yǔ)音開放平臺(tái)已經(jīng)交出了一份令人滿意的答卷,平臺(tái)開發(fā)者數(shù)量已超過(guò)14萬(wàn),每天識(shí)別的在線請(qǐng)求數(shù)在1億以上,合成的在線請(qǐng)求數(shù)在2億以上,百度語(yǔ)音搜索的整體用戶量在2015年增長(zhǎng)超過(guò)3倍。
而在此之前,百度也已經(jīng)開源了深度學(xué)習(xí)開源平臺(tái)PaddlePaddle、人工智能技術(shù)平臺(tái)Warp-CTC等,同樣推動(dòng)了新興技術(shù)的傳播與發(fā)展,對(duì)業(yè)界產(chǎn)生了積極影響。隨著語(yǔ)音交互領(lǐng)域多項(xiàng)先進(jìn)技術(shù)的開源,這一領(lǐng)域的競(jìng)爭(zhēng)將變得更加激烈,同時(shí)將有更多科技巨頭愿意分享先進(jìn)技術(shù),推動(dòng)行業(yè)發(fā)展。
更重要的是,傳統(tǒng)的語(yǔ)音交互技術(shù)將受到極大挑戰(zhàn),例如百度當(dāng)前的語(yǔ)音交互架構(gòu)相對(duì)于工業(yè)界主流的CLDNN 結(jié)構(gòu),錯(cuò)誤率相對(duì)降低了10%以上,共享技術(shù)之后,當(dāng)前主流架構(gòu)將被逐漸淘汰已經(jīng)在情理之中。同時(shí),在快速發(fā)展、迭代的語(yǔ)音技術(shù)下,組建新知識(shí)產(chǎn)權(quán)產(chǎn)業(yè)聯(lián)盟已經(jīng)勢(shì)在必行,業(yè)界先例是2015年底百度開放上百項(xiàng)智能語(yǔ)音專利并與海爾、京東、中興通訊在內(nèi)的 20 多家企業(yè)組建了智能語(yǔ)音知識(shí)產(chǎn)權(quán)產(chǎn)業(yè)聯(lián)盟,
隨著語(yǔ)音交互技術(shù)的進(jìn)一步開放,這種開放式創(chuàng)新和開放式知識(shí)產(chǎn)權(quán)許可的結(jié)合,或許會(huì)取代傳統(tǒng)的語(yǔ)音專利池,成為智能語(yǔ)音未來(lái)的產(chǎn)業(yè)核心模式。事實(shí)上,在百度、谷歌、亞馬遜等國(guó)內(nèi)外科技巨頭的緊逼下,智能語(yǔ)音行業(yè)格局已然改變,傳統(tǒng)語(yǔ)音技術(shù)巨頭Nuance集團(tuán)在2014年還占據(jù)語(yǔ)音交互領(lǐng)域60%市場(chǎng)份額,2015年末就遭到腰斬,僅為31%,隨著行業(yè)技術(shù)的開放和發(fā)展,產(chǎn)業(yè)格局將繼續(xù)發(fā)生變化。
可以說(shuō),隨著技術(shù)的開放和進(jìn)步,語(yǔ)音交互的應(yīng)用場(chǎng)景將更加寬泛,落地商用速度也將加快,語(yǔ)音交互領(lǐng)域即將進(jìn)入大規(guī)模產(chǎn)業(yè)化的時(shí)代,新一輪的變革來(lái)臨之際,核心技術(shù)和能力比拼正是個(gè)中關(guān)鍵,誰(shuí)能掌握這兩點(diǎn),誰(shuí)就能獲得領(lǐng)跑的資格,而對(duì)于用戶群體來(lái)說(shuō),智能語(yǔ)音交互的未來(lái)足夠光明值得期待。
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購(gòu)和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營(yíng)
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過(guò)熱挑戰(zhàn),交付延期引發(fā)市場(chǎng)關(guān)注
- 馬斯克能否成為 AI 部部長(zhǎng)?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無(wú)人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測(cè)量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車整車股盤初強(qiáng)勢(shì)拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。