原標(biāo)題:百度強(qiáng)勢入場,AI們集體打 call:揭秘百度智能客服背后的語音技術(shù)與應(yīng)用
這個潮流的最近一次上演,是幾天前的百度AI開發(fā)者大會上,李彥宏現(xiàn)場播放了百度AI客服邀請開發(fā)者的真實(shí)電話錄音。
當(dāng)時我就在現(xiàn)場,第一通電話里那位開發(fā)者方言比較重,到底說了什么我基本沒聽懂。但百度的AI卻應(yīng)對自如,在電話中回答了各種問題。
第二通電話更神了,那位女開發(fā)者發(fā)現(xiàn)了小度的AI身份,直接問百度給ta發(fā)錢嗎,結(jié)果被小度用一句“百度給我免費(fèi)充電”,巧妙的“回撩”了過去。
在眾人的驚嘆中,我們很容易發(fā)現(xiàn)讓AI打電話已經(jīng)成為了“兵家必爭”之地。前不久谷歌I/O大會上Google Assistant演示AI打電話訂餐廳,一句“嗯哼”也安排得明明白白。幾天之后微軟的AI大會上馬上反擊,不僅上演電話秀,還高調(diào)Diss谷歌,表示微軟小冰已經(jīng)打過60多萬次電話了。
打電話這件事就這么重要嗎?引三大AI巨頭都不惜電話費(fèi)也要硬杠一下?
事實(shí)上,在這個AI跟陌生人直接進(jìn)行有效溝通的場景里,隱藏著兩個AI語音與NLP技術(shù)的核心關(guān)卡,足夠給今天AI公司的軍備競賽提供完美肌肉秀。而AI打電話同時也指向另一個問題:AI到底能干什么,是不是在很多領(lǐng)域已經(jīng)可以完全代替真實(shí)的產(chǎn)業(yè)勞動?
打個call的功夫,這些復(fù)雜的競爭與技術(shù)炫技就都顯露了出來。
一顰一笑都有來歷:為什么已經(jīng)聽不出AI還是真人?
AI打電話第一關(guān):怎么讓AI聲音聽起來不別扭?
我們知道,人和人之間的交流,其實(shí)絕大部分依靠的是簡單的詞匯量+大量復(fù)雜的情感詞、語氣詞、助動詞。如果我們把日常說話直接轉(zhuǎn)化為文字,會發(fā)現(xiàn)文檔里80%的話都是“無效信息”。
但怎么讓AI學(xué)會這些東西,像真人一樣有感情、有頓挫,有語氣詞,甚至有呼吸節(jié)奏地與人交流,是一門巨大的技術(shù)挑戰(zhàn)。
百度AI開發(fā)者大會前,百度AI客服給大量開發(fā)者打了電話,其中很多開發(fā)者一開始壓根沒有發(fā)現(xiàn)這是位AI小姐姐。而這其實(shí)是建立在它沒有刻意修飾機(jī)器音的基礎(chǔ)上。
如何讓AI聽起來像人一樣,這需要在語音合成與語序修飾上下一番功夫。而這也是各家展現(xiàn)本領(lǐng)的時刻。
根據(jù)資料,谷歌I/O大會上的打電話AI,使用了生成式 TTS 引擎。能根據(jù)不同的情境控制語音的語調(diào),并生成一些語氣詞。當(dāng)然,這背后還有DeepMind的WaveNet自然語音合成算法作為支撐。
雖然谷歌的操作已經(jīng)十分風(fēng)騷。但在中文領(lǐng)域想要復(fù)制英文的詞匯運(yùn)算以及助詞生成卻完全無法進(jìn)行。百度這次展示的語音合成方案,據(jù)稱是基于中文識別與語義理解技術(shù),創(chuàng)新結(jié)合WaveNet加上拼接技術(shù),打造出了滿足中文需求,并適合大規(guī)模應(yīng)用的自然語言合成算法。
所以我們在聽百度AI客服打電話的時候,會在機(jī)器音之外聽到自然的語序,合理的語氣詞使用,甚至模仿出的呼吸聲,邁過了AI與人類傻傻分不清楚的第一道門檻。
當(dāng)然了,只是說話好聽是沒用的,重點(diǎn)是能聽懂,能聊下去。在理解層面,AI的挑戰(zhàn)就更大了。
一言一語都是學(xué)問:AI如何跟陌生人聊下去
直到今天,很多媒體和看客還在嘲笑AI聊天是“人工智障”。這種聲音就像嘲笑最開始跑不過馬車的汽車,當(dāng)有一天大家發(fā)現(xiàn)在嘲笑的是什么,已經(jīng)連汽車尾氣都看不見了。
為了能在聊天時不“智障”,無數(shù)巧妙到毫厘的技術(shù)解決方案正在加緊研發(fā)與應(yīng)用。AI能夠真正與人聊天,而不是單純的一問一答,需要的是AI能夠快速識別人類問題,并快速給出回復(fù)。這個過程不能卡頓和延遲——沒有人想跟慢半拍的機(jī)器聊天。
為了解決這個問題,各家高招跌出。比如第五代小冰采用了全雙工語音技術(shù),讓預(yù)測模型和生成模型同步傳輸數(shù)據(jù),達(dá)到預(yù)測聊天的效果。但可惜的是小冰似乎還沒有脫離傳統(tǒng)AI對話的窠臼,在流暢度以及“超綱”問題的應(yīng)答上依舊不夠靈敏。
對比谷歌和百度的打電話技術(shù),會發(fā)現(xiàn)更好的解決方案,可能是結(jié)合自然聲音合成技術(shù)同步生成高效預(yù)測,讓AI和真人具有一樣的溝通語言習(xí)慣。但谷歌的方案一出,馬上收到了一些懷疑,比如他們的聲音被多家媒體懷疑是錄制聲音作弊。
另一方面,相較百度的AI客服展示,谷歌語音助手是訂餐。換言之谷歌語音助手只用給出信息,并聽懂對方的回復(fù)就行了。而百度的AI客服卻要回答對方可能出現(xiàn)的各種問題。甚至巧妙回答完全超乎一般人機(jī)語音對話中的問題——比如“百度給你發(fā)工資嗎?”
百度的絕招,在于這次強(qiáng)調(diào)百度大腦升級的多模態(tài)深度語義理解技術(shù),其中語音語義一體化技術(shù),可以有效解決語音識別與語義理解中間的環(huán)節(jié)遲慢和環(huán)節(jié)誤差問題,達(dá)到真正的與人隨說所理解。
百度另一個值得注意的核心技術(shù)突破,是Deep peak2技術(shù),其識別方案利用音素組合建模,可以忽略上下文影響,極快速準(zhǔn)確識別語音語義,在亮相之處就跟華少的語速PK了一把。通過Deep peak2,小度不僅能識別開發(fā)者大會上那位老鐵讓我沒聽懂的方言,還可以準(zhǔn)確識別中英文混合建模。讓百度AI的識別錯誤率,比市面上主流AI語音硬件下降20%,且能應(yīng)對中英文混著說這個“老大難問題”。
結(jié)合知識圖譜技術(shù)作為基礎(chǔ),新銳語音識別解決方案作為驅(qū)動,語音語義一體化技術(shù)作為核心,AI客服才能主動與人類聊下去,回答各種問題??梢哉f在這個技術(shù)應(yīng)用方案上,中國百度已經(jīng)明顯與谷歌、微軟拉開差距。
一行一動都是未來:AI客服的大革命
簡單來說,打電話這件事的復(fù)雜程度和挑戰(zhàn)性,讓他成為了今天頂尖AI公司必須完成的軍備競賽。
但這項(xiàng)技術(shù)的目的當(dāng)然不僅是為了炫技,用谷歌I/O大會之后美國科技媒體的評價:AI打電話這件事,正在把人工智能技術(shù)史無前例地與真實(shí)世界聯(lián)系到一起。
客服投訴、企業(yè)管理、調(diào)查回訪、聯(lián)系溝通,我們有太多工作是依靠打電話這件事來完成的。假如AI可以勝任這項(xiàng)工作的核心領(lǐng)域,甚至達(dá)到以假亂真的地步,那么大量簡單重復(fù)的語言工作將不再浪費(fèi)人類的寶貴工作時間。
更重要的是,給陌生人打電話意味著機(jī)器與人全方位的溝通。尤其是百度客服電話在AI身份被試穿之后的調(diào)侃,完全可以應(yīng)對大量需要及時處理、協(xié)調(diào),給出咨詢方案的溝通。甚至可以說,很多人類客服做的不會有它應(yīng)對的這么好。
這個層面上看,打電話這事可以說是AI現(xiàn)實(shí)應(yīng)用的練兵場。開放的應(yīng)用層,會帶給產(chǎn)業(yè)世界無窮的想象。舉個例子來說,假如打電話的AI溝通能力,跟精準(zhǔn)的機(jī)器翻譯相結(jié)合。那么用AI主動與歪果仁進(jìn)行跨語種聊天,然后把獲取信息反饋回來不就成為了可能?那么市面上那些大張旗鼓的“翻譯機(jī)”產(chǎn)品,不就失去了基本的存在價值?這就是技術(shù)突破后的降維打擊。
目前來看,小冰還是無法擺脫語料庫的尷尬;而谷歌還需要在更多應(yīng)用場景證明自己打電話的能力真實(shí)性。百度已經(jīng)領(lǐng)先了一個身位,給中國AI的打call打個call,在今天看來并不過分。
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機(jī)“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車整車股盤初強(qiáng)勢拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。