TechWeb文/ 卞海川
劃重點:
車載語音智能化的短板在“語義理解”,AI圈大火的ChatGPT對車載語音智能化加成明顯。
ChatGPT上車,主要還是成本的問題,這背后包括使用成本、云服務(wù)成本、針對性的訓(xùn)練成本。
云知聲董事長&CTO_梁家恩對TechWeb表示,ChatGPT 技術(shù)肯定會在車載、家居等智能交互應(yīng)用有建樹,但需要結(jié)合應(yīng)用場景針對性優(yōu)化。
思必馳汽車事業(yè)部產(chǎn)品總監(jiān)葛付江對TechWeb表示,新技術(shù)發(fā)展一定會存在商業(yè)落地的挑戰(zhàn),AI技術(shù)創(chuàng)新要結(jié)合場景應(yīng)用,類ChatGPT在車載的應(yīng)用會在算力優(yōu)化、云和端智能融合技術(shù)等方面形成挑戰(zhàn)。
ChatGPT的火,一下子就燒到了車載領(lǐng)域。
眾所周知,語音交互是車內(nèi)最簡潔、最人性化、最安全的交互方式,也是未來最主要的車內(nèi)交互方式。隨著AI和硬件性能的增強(qiáng),語音交互是未來汽車的絕對主流。語音交互主要是車載自然語音識別與語音助手,也可以簡單地說是NLP和NLU技術(shù)。既然是NLP,那么理應(yīng)是最近在AI圈大火的ChatGPT的用武之地。事實真的如此嗎?
車載語音智能化,短板在“智能”
從技術(shù)角度看,智能語音交互主要有三大重點,分別是識別、理解、執(zhí)行。在目前提供解決方案的廠商中,識別部分已經(jīng)趨于成熟,識別率可以達(dá)到90%以上,有的識別率已達(dá)95%左右。行業(yè)的痛點主要聚焦于“理解”部分,大部分的車載語音交互系統(tǒng)在“理解”上并不智能,導(dǎo)致整個系統(tǒng)功能單一、命令詞單一。
那么問題來了,如何讓車載語音交互系統(tǒng)像人一樣理解我們的話語?
這就涉及到NLP(自然語言處理)技術(shù),它們對于用戶輸入語音的理解與本身的場景策略、多輪對話有著密不可分的關(guān)系,并直接決定著車載語音交互系統(tǒng)的智能化程度。而提及NLP,正中近期大“火”的ChatGPT的下懷,是ChatGPT的用武之地。
歷史上,NLP的發(fā)展有幾個關(guān)鍵節(jié)點,其中,最重要的兩個當(dāng)屬2012年和2018年。
2012年,深度學(xué)習(xí)開始應(yīng)用于NLP領(lǐng)域;2018年開始,以谷歌BERT為代表的語義表示預(yù)訓(xùn)練取得了巨大突破,橫掃各大NLP任務(wù)基準(zhǔn);2020年5月,OpenAI斥巨資打造的GPT-3一經(jīng)發(fā)表就引發(fā)行業(yè)轟動,這一版本的模型有1750億參數(shù)量,被稱為NLP領(lǐng)域的最強(qiáng)AI模型。
而最近大“火”的ChatGPT是基于大規(guī)模預(yù)訓(xùn)練語言模型(GPT-3.5),借助其強(qiáng)大的語言理解和生成能力,通過在人工標(biāo)注和反饋的大規(guī)模數(shù)據(jù)上進(jìn)行學(xué)習(xí),從而讓預(yù)訓(xùn)練語言模型能夠更好地理解人類的問題并給出更好的回復(fù)。
思必馳汽車事業(yè)部產(chǎn)品總監(jiān) 葛付江對TechWeb表示,ChatGPT目前是以文本交互機(jī)器人的形式呈現(xiàn)的,適用多種文本處理任務(wù),常用于智能問答和對話、文本創(chuàng)作等領(lǐng)域;車載語音以對話交互為主,多用于進(jìn)行例如“導(dǎo)航去XXX?打開音樂”有明確指令的行動,“語音助手”用高度擬人化的語音輸出來回應(yīng)車主訴求。車載語音交互用于解放駕駛員雙手,聚焦其注意力帶來更安全、便利的駕駛體驗。未來車內(nèi)有了ChatGPT技術(shù)的應(yīng)用,不僅是完成固定指令的任務(wù)型對話,車、人能進(jìn)行更高效、更直接、高靈活度的出行、知識和閑聊交流;
“ChatGPT”的爆火讓市場看到了認(rèn)知智能應(yīng)用潛力。ChatGPT在推理和學(xué)習(xí)能力上優(yōu)勢明顯,不僅可以用于理解和對話,更可以通過上下文交流和自我學(xué)習(xí),來實現(xiàn)輔助創(chuàng)作和知識進(jìn)化。這些能力同樣適用車載語音交互領(lǐng)域,融合對話智能技術(shù)、深度學(xué)習(xí)大模型技術(shù)、工程化能力、大數(shù)據(jù)的潛力,帶來更流暢、更有效的響應(yīng)。在車內(nèi)有限的空間,結(jié)合聲場定位和多說話人判斷,提升多角色、長上下文對話的邏輯一致性;更可以拓展?jié)M足方言、外語的統(tǒng)一識別和對話需求,快速實現(xiàn)更靈活、自由、個性化的交互。”葛付江說道。
從目前諸多對于ChatGPT的使用(包括我們自己),我們認(rèn)為,僅就車載智能語音的NLP,目前它應(yīng)該是最好和最智能的。這是否意味著,其就一定會在短期內(nèi)應(yīng)用在車載智能語音系統(tǒng)中嗎?
市場空間有限,產(chǎn)業(yè)鏈、市場挑戰(zhàn)猶存
眾所周知,一個新的技術(shù)或者產(chǎn)品能否最終落地得到規(guī)模的應(yīng)用,除了技術(shù)因素外,還會受到其所處產(chǎn)業(yè)或者市場的產(chǎn)業(yè)鏈、市場競爭強(qiáng)弱、市場空間等諸多因素密切相關(guān)。
具體到車載智能語音系統(tǒng),雖然ChatGPT在“智能”上表現(xiàn)出色,但其在整個產(chǎn)業(yè)鏈條中比較偏后段,需要依賴很長的前端鏈條,比如信號處理、語音識別、文字輸出之后才會用到它,前端鏈條上的因素對后端流程都會產(chǎn)生影響,例如信號處理會影響語音識別,語音識別如果出錯就會影響NLP的判斷,鏈條上每個模塊都需要提高可靠性,才能保證最后出來的整體結(jié)果可靠。這意味著,ChatGPT在“智能”能力的輸出上,并非完全取決于自身的能力,其產(chǎn)業(yè)鏈上任何一個環(huán)節(jié)都會對其造成正或負(fù)的影響。
云知聲董事長&CTO_梁家恩對TechWeb表示,ChatGPT 技術(shù)肯定會在車載、家居等智能交互應(yīng)用有建樹,但需要結(jié)合應(yīng)用場景針對性優(yōu)化,提高體驗并降低服務(wù)成本等。
“車載等智能交互應(yīng)用場景有很大體驗升級空間,但目前ChatGPT是一個超大模型,如何保持體驗情況下,顯著降低服務(wù)成本是個關(guān)鍵問題“。
而從市場競爭的強(qiáng)弱看,據(jù)相關(guān)統(tǒng)計,目前車載語音系統(tǒng)市場除了已經(jīng)被科大訊飛和Cerence壟斷,且它們在此領(lǐng)域具有多年的產(chǎn)品和合作經(jīng)驗外,還有許多規(guī)模不同的企業(yè)參與其中,更為重要的是,目前車載語音市場已經(jīng)遇到了增長的天花板,這使得在競爭激烈的同時,就連科大訊飛和Cerence都開始除了語音之外,開始走車內(nèi)多模態(tài)交互,云服務(wù)集成等服務(wù)的路線,以綜合實力提升競爭力。作為后來者的ChatGPT一旦決定進(jìn)入車載智能語音市場勢必會面臨強(qiáng)大對手的挑戰(zhàn)。
葛付江補(bǔ)充稱,從成本來看,ChatGPT的研究需要巨大的資金和人才投入,他們需要超算平臺、算法、數(shù)據(jù)等各核心力量支撐,這些都是成本。巨頭平臺公司目前來看具備這方面的優(yōu)勢,對于科技企業(yè)可以更多從場景融合入手,尋求創(chuàng)新機(jī)會。
從商業(yè)化場景看,目前chatGPT更適用于基于一定背景知識的創(chuàng)作型產(chǎn)業(yè),以及剛需AIGC的場景、SOP(標(biāo)準(zhǔn)作業(yè)程序)的行業(yè),比如智能寫作、智能客服、文檔管理、代碼生成、甚至游戲NPC等。
班門弄斧主理人孫永杰指出,從單純的車載語音市場看,其市場空間并不大,這點從已經(jīng)壟斷該市場的科大訊飛和Cerence的財報可見一斑。這種情況下,能否吸引成本高昂的ChatGPT進(jìn)入也是個未知數(shù)。畢竟ChatGPT訓(xùn)練成本高昂,且其所屬的Open AI依然處在虧損當(dāng)中。
未來仍可期,合作和開放API或是更好選擇
如前述可知,ChatGPT只是在車載智能語音的NLP環(huán)節(jié)具備優(yōu)勢,雖然ChatGPT據(jù)稱也在進(jìn)行語音識別和合成上進(jìn)行AI訓(xùn)練,希望未來可以借此進(jìn)入車載智能語音市場。但鑒于ChatGPT只是文本交互方式,即便是進(jìn)行語音識別和合成的AI訓(xùn)練,最后效果如何?能否超過目前市面上存在和已經(jīng)應(yīng)用的車載智能語音系統(tǒng)仍是未知。
當(dāng)然,鑒于ChatGPT強(qiáng)大的能力,TechWeb認(rèn)為未來的市場空間會隨著智能汽車應(yīng)用場景的不斷擴(kuò)大,ChatGPT找到自己真正的用武之地并非沒有可能。更值得期待的是,除了智能汽車本身外,站在整個汽車產(chǎn)業(yè)的高度,其未來在汽車設(shè)計、制造等領(lǐng)域的應(yīng)用都充滿想象的空間。
葛付江表示:“ChatGPT上車的應(yīng)用具體如何發(fā)展,目前形勢還不明朗??深A(yù)見的是,在車載場景下,大模型技術(shù)學(xué)習(xí)能力優(yōu)勢明顯,通過強(qiáng)化上下文理解能力、思維鏈推理、增強(qiáng)指令學(xué)習(xí),來實現(xiàn)持續(xù)學(xué)習(xí),達(dá)成可以“回答類似問題”的效果,除指令需求外,日常的知識和閑聊對話交流可以更加流暢和有用??傮w來說,技術(shù)會向統(tǒng)一多模態(tài)交互發(fā)展,強(qiáng)化語音、文本、圖像等深度融合的多模態(tài)交互技術(shù),形成“汽車大腦”, 應(yīng)對車內(nèi)、公共空間等復(fù)雜場景的交互需求?!?/p>
小鵬技術(shù)團(tuán)隊對TechWeb表示,ChatGPT的語言組織能力很強(qiáng),以及知識庫也比較龐大,涉及領(lǐng)域更廣,所以可能會給用戶的體驗更好更智能。至于我們未來要 不要引入這個技術(shù)接口,還是做類似技術(shù)的融合開發(fā),我們也在進(jìn)一步探索~
基于此,TechWeb認(rèn)為,合作應(yīng)該是ChatGPT切入車載智能語音市場最經(jīng)濟(jì)和有效的方式。所謂各取所長就是這個道理。實際的情況是,近日國內(nèi)集度汽車宣布將融合百度文心一言的全面能力,打造全球首個針對智能汽車場景的大模型人工智能交互體驗,證明了此模式的可行性。
此外,將自己最擅長的能力通過API開放給第三方,僅輸出自身最擅長的能力也不失為明智的選擇。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 阿里高管:5年內(nèi)騰訊網(wǎng)易優(yōu)勢不再 8年內(nèi)靈犀互娛要成為中國第三大游戲公司
- iPhone SE4要來了 將搭載蘋果首款自研調(diào)制解調(diào)器芯片
- 消息稱字節(jié)跳動8位數(shù)年薪挖走阿里通義大模型技術(shù)負(fù)責(zé)人
- OpenAI推出強(qiáng)化微調(diào)研究項目 CEO奧特曼稱“今年最大驚喜”
- 哪吒汽車創(chuàng)始人方運舟發(fā)全員信:張勇不再擔(dān)任CEO,公司將實施六大改革
- TechWeb微晚報:阿里告別大掃貨,人人影視開源全部字幕文件
- 華為云城市大會走進(jìn)青島,華東算力樞紐布局助力區(qū)域產(chǎn)業(yè)轉(zhuǎn)型升級
- “新東方在線”APP鴻蒙原生版正式上線 打造全場景智慧學(xué)習(xí)新體驗
- 天工AI推出彩頁功能,支持一鍵生成彩頁
- 孕婦快生遇自家車更新系統(tǒng)只得打車 理想客服回應(yīng)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。