精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<kbd id="m8k8w"></kbd>

<tr id="m8k8w"></tr>

直播
榜單
7x24h快訊

極客網(wǎng) > 7x24h快訊 > 極客快訊 >

愛數(shù)智慧5周年 | 專訪田彪：多模態(tài)應(yīng)用做到“眼耳并用” 數(shù)據(jù)是關(guān)鍵

人閱讀
2021-10-24 17:18:59
來源：西盟科技資訊
相關(guān)關(guān)鍵詞
- 愛數(shù)

我們是最早把多模態(tài)技術(shù)融合起來，最終做成一個(gè)應(yīng)用產(chǎn)品的團(tuán)隊(duì)。

要降低硬件成本，讓不同用戶能夠使用到，從而推動(dòng)技術(shù)普惠化。

多模態(tài)技術(shù)只是設(shè)備的一部分，它還要和其他技術(shù)進(jìn)行融合。

如何結(jié)合行業(yè)產(chǎn)品的具體需求去把算法的作用發(fā)揮出來，這是落地中的一個(gè)痛點(diǎn)。

未來趨勢(shì)上，多模態(tài)技術(shù)將從模態(tài)聯(lián)合走向模態(tài)融合，進(jìn)而端到端多模態(tài)。

在CNCC大會(huì)前的專訪中，阿里巴巴達(dá)摩語音實(shí)驗(yàn)室田彪接受采訪時(shí)表達(dá)的精彩觀點(diǎn)。

第十八屆中國計(jì)算機(jī)大會(huì)(CNCC 2021)將于10月28日在深圳國際會(huì)展中心舉行，CNCC由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦，國家超級(jí)計(jì)算深圳中心承辦(深圳云計(jì)算中心)，香港中文大學(xué)(深圳)協(xié)辦，是中國計(jì)算機(jī)領(lǐng)域最宏大的年度盛會(huì)。

值愛數(shù)智慧五周年之際，愛數(shù)智慧借助此次CNCC大會(huì)聯(lián)合產(chǎn)業(yè)界大咖主辦一場(chǎng)《人機(jī)交互的機(jī)遇與挑戰(zhàn)》分論壇。來自阿里巴巴達(dá)摩院語音實(shí)驗(yàn)室的田彪現(xiàn)場(chǎng)做《多模態(tài)語音交互的技術(shù)實(shí)踐及發(fā)展趨勢(shì)》的主題報(bào)告。

在論壇正式開展前，論壇主辦方愛數(shù)智慧采訪了田彪，以下為采訪整理，希望給大家?guī)韱l(fā)。

愛數(shù)智慧5周年

田彪：阿里巴巴達(dá)摩院語音實(shí)驗(yàn)室

以下為采訪正文

工業(yè)應(yīng)用上多模態(tài)起到“取長(zhǎng)補(bǔ)短”作用

愛數(shù)智慧：現(xiàn)在多模態(tài)語音交互技術(shù)成為AI領(lǐng)域重要發(fā)展方向，您在語音信號(hào)方面有著豐富的研發(fā)經(jīng)驗(yàn)，您認(rèn)為多模態(tài)語音交互技術(shù)現(xiàn)在發(fā)展到哪個(gè)階段了?為什么?

田彪：多模態(tài)語音交互并不是一個(gè)新鮮的概念，從學(xué)術(shù)界看早在七八十年代就有各種模態(tài)融合的技術(shù)嘗試，比如借助視覺來提升語音交互，那時(shí)尚處在研究狀態(tài)，所以不具備實(shí)用性。

從2013年開始，深度學(xué)習(xí)產(chǎn)生，多模態(tài)技術(shù)發(fā)生了質(zhì)的提升。深度學(xué)習(xí)在視覺、語音等領(lǐng)域得到成功應(yīng)用后，各個(gè)單獨(dú)模態(tài)本身的性能都實(shí)現(xiàn)了質(zhì)的飛躍，集大家之所長(zhǎng)的多模態(tài)語音交互領(lǐng)域也逐漸進(jìn)入了結(jié)合行業(yè)需求的實(shí)際應(yīng)用階段。

愛數(shù)智慧：您剛才說多模態(tài)已經(jīng)研究了幾十年，您覺得應(yīng)用在工業(yè)界上，多模態(tài)有著怎樣的趨勢(shì)?

田彪：我認(rèn)為多模態(tài)在具體應(yīng)用中能夠起到“取長(zhǎng)補(bǔ)短”的作用。在一些具體的應(yīng)用場(chǎng)景中，單模態(tài)在識(shí)別率上挑戰(zhàn)性很大。比如我們研發(fā)的地鐵語音售票機(jī)就需要其他模態(tài)相互輔助。通常情況下，遠(yuǎn)場(chǎng)語音交互需要喚醒詞來喚醒，但是地鐵環(huán)境嘈雜，遠(yuǎn)場(chǎng)喚醒效果會(huì)很差。如果單純使用語音技術(shù)解決識(shí)別率，難度會(huì)非常高。我們就利用視覺技術(shù)輔助，讓產(chǎn)品真正落地。我認(rèn)為多模態(tài)的發(fā)展趨勢(shì)在于，它能夠解決在一些場(chǎng)景下，單模態(tài)難以解決的問題。

多模態(tài)應(yīng)用落地獲國際權(quán)威媒體盛贊

愛數(shù)智慧：根據(jù)我們的了解，您在智能車機(jī)、智能交通、智慧法院、智能辦公、智能家居和智能語音芯片等語音交互技術(shù)方面有著豐富的創(chuàng)新算法實(shí)踐，并且被集成到阿里巴巴經(jīng)濟(jì)體內(nèi)外多項(xiàng)重要語音AI產(chǎn)品中，您能否介紹一下，您和您的團(tuán)隊(duì)在具體的多模態(tài)語音落地場(chǎng)景上，做了哪些具體的創(chuàng)新和嘗試?

田彪：我所在的團(tuán)隊(duì)是「阿里巴巴達(dá)摩院語音實(shí)驗(yàn)室」，在軌道交通、企業(yè)辦公、新零售和智能客服等領(lǐng)域都推出多模態(tài)相關(guān)的產(chǎn)品。其中，在2018年聯(lián)合上海地鐵與支付寶推出了可部署在嘈雜地鐵站的多模態(tài)語音售票機(jī)，這在全球尚屬首次，技術(shù)成果也獲得了國際權(quán)威媒體《MIT Technology Review》的盛贊。

以該產(chǎn)品為例，我們通過引入視覺智能技術(shù)，結(jié)合人臉檢測(cè)、麥克風(fēng)陣列和聲源定位等多模態(tài)技術(shù)，創(chuàng)新性的解決了傳統(tǒng)遠(yuǎn)場(chǎng)語音交互中不可避免的語音喚醒難題，既保障了高噪聲環(huán)境下接入語音交互的可靠性，也解決了用戶學(xué)習(xí)喚醒詞的高門檻問題，為AI產(chǎn)品真正走進(jìn)千家萬戶的日常使用打好了技術(shù)基礎(chǔ)。

這也意味著，我們是最早把多模態(tài)技術(shù)融合起來，最終做成一個(gè)應(yīng)用產(chǎn)品的團(tuán)隊(duì)。目前在全國幾十個(gè)城市地鐵里投入使用的類似產(chǎn)品，用的都是我們的多模態(tài)技術(shù)。

愛數(shù)智慧：剛才您說的麥克風(fēng)陣列、聲源定位等技術(shù)，將會(huì)在CNCC論壇現(xiàn)場(chǎng)做詳細(xì)的介紹吧?

田彪：對(duì)的，我會(huì)在CNCC論壇現(xiàn)場(chǎng)詳細(xì)展開來講。我們知道，傳統(tǒng)的模態(tài)一般說的是云識(shí)別或者視覺，但是聲學(xué)方面比如麥克風(fēng)陣列等，在整個(gè)業(yè)界是比較匱乏的。大家都知道云識(shí)別、AI，如果提到聲學(xué)、麥克風(fēng)陣列、聲源定位等很多人都比較陌生，因?yàn)樗鼘儆诼晫W(xué)方面的技術(shù)，是融合在具體的產(chǎn)品里面的。這些技術(shù)我會(huì)在我的演講里詳細(xì)地講一下，因?yàn)檫@些技術(shù)也是我們的特色。

“眼耳并用”的無人前臺(tái)

愛數(shù)智慧：好的，我們期待您現(xiàn)場(chǎng)的分享。您曾參與過“釘釘智能無人前臺(tái)”的產(chǎn)品研發(fā)工作，這一產(chǎn)品用到哪些多模態(tài)技術(shù)，這一技術(shù)為產(chǎn)品帶來哪些良好的用戶體驗(yàn)?

田彪：這個(gè)產(chǎn)品深度運(yùn)用了剛才講到的達(dá)摩院多項(xiàng)AI技術(shù)，比如遠(yuǎn)場(chǎng)拾音、聲源定位、人臉檢測(cè)與識(shí)別、語音識(shí)別和合成、自然語言理解和音視頻通信等，實(shí)現(xiàn)“多模態(tài)交互”技術(shù)的產(chǎn)品化，突破了智能設(shè)備有“眼”只能看，有“耳”只能聽，多感官各自獨(dú)立無協(xié)同交互的技術(shù)難題。

M2S是釘釘面向企業(yè)用戶推出的智能無人前臺(tái)產(chǎn)品，基于多模態(tài)交互，設(shè)備具備能聽、能說、會(huì)認(rèn)人，甚至?xí)伎嫉哪芰?。這個(gè)設(shè)備非常小巧，但能夠跟釘釘?shù)恼麄€(gè)生態(tài)和組織能力結(jié)合起來，它能夠節(jié)省前臺(tái)同事一半精力，實(shí)際作用還是蠻明顯的。

M2S通過檢測(cè)人走近的行為，自動(dòng)判斷身份并主動(dòng)發(fā)起交互。如果是員工，自動(dòng)進(jìn)行人臉識(shí)別智能考勤。如果是訪客，M2S將會(huì)進(jìn)行智能訪客接待，比如有人來訪，來訪人可以直接走到機(jī)器面前，說明要找某某人，機(jī)器會(huì)自動(dòng)發(fā)起音視頻會(huì)議，雙方進(jìn)行音視頻通話溝通，非常便捷高效。

降低硬件成本推動(dòng)技術(shù)普惠化

愛數(shù)智慧：目前多模態(tài)語音交互技術(shù)在落地應(yīng)用時(shí)有哪些技術(shù)難點(diǎn)?

田彪：主要有兩個(gè)方面，一方面用于多模態(tài)技術(shù)的設(shè)備成本比較高，當(dāng)然也和算法復(fù)雜有關(guān)。比如算法對(duì)攝像頭、麥克風(fēng)陣列個(gè)數(shù)等輸入設(shè)備都會(huì)有較高的規(guī)格要求。需要算法的提升來降低對(duì)硬件的要求，甚至復(fù)用一些整機(jī)上已有的輸入設(shè)備。所以，首先要降低硬件成本，推動(dòng)技術(shù)在各種產(chǎn)品各種場(chǎng)景下落地，讓不同用戶能夠使用到，從而推動(dòng)技術(shù)普惠化。

另外，算法本身也比較復(fù)雜，對(duì)芯片算力有較高要求，需要探索如何降低算法復(fù)雜度的同時(shí)持續(xù)提升性能，從而降低芯片的算法規(guī)格，推動(dòng)整體硬件成本降低。

另一方面是要結(jié)合行業(yè)需求，在技術(shù)上持續(xù)提升。針對(duì)一個(gè)應(yīng)用場(chǎng)景，多模態(tài)技術(shù)只是設(shè)備的一部分，它還要和其他技術(shù)進(jìn)行融合。所以，產(chǎn)品開發(fā)工作并不單單在多模態(tài)語音交互技術(shù)，還涉及到怎么對(duì)接、怎么集中到一起、怎么做測(cè)試等等。這些都是產(chǎn)品落地過程中要做的工作。

愛數(shù)智慧：是不是不同行業(yè)，技術(shù)之間融合的難點(diǎn)都不一樣?

田彪：對(duì)，不同行業(yè)不同場(chǎng)景的需求不同，類似的技術(shù)可以放在售票系統(tǒng)，也可以放在點(diǎn)餐系統(tǒng)，但是兩個(gè)場(chǎng)景在技術(shù)要求上是不一樣的。例如售票系統(tǒng)，用戶只購買一張票，但是點(diǎn)餐系統(tǒng)，要應(yīng)付用戶購買咖啡、面包等多種商品。

算法只是技術(shù)落地中的一部分，如何結(jié)合行業(yè)產(chǎn)品的具體需求去把算法的作用發(fā)揮出來，這是落地中的一個(gè)痛點(diǎn)，甚至所需要的人力投入遠(yuǎn)大于算法研發(fā)。

多模態(tài)數(shù)據(jù)是提升模型性能的關(guān)鍵

愛數(shù)智慧：我們知道，多模態(tài)技術(shù)的發(fā)展當(dāng)然需要大量多模態(tài)數(shù)據(jù)的支撐，您認(rèn)為多模態(tài)數(shù)據(jù)在語音交互中將起到哪些積極地作用?

田彪：我覺得作用非常大。AI有三個(gè)關(guān)鍵要素，那就是「算法」、「算力」和「數(shù)據(jù)」，多模態(tài)AI技術(shù)也不例外，尤其是技術(shù)原型從實(shí)驗(yàn)室走向產(chǎn)業(yè)落地的過程中，在不同的場(chǎng)景下，通過真實(shí)采集的多模態(tài)數(shù)據(jù)，來驅(qū)動(dòng)多模態(tài)深度學(xué)習(xí)模型的性能提升，這是所有產(chǎn)品研發(fā)中非常關(guān)鍵的一步。

包括我們?cè)诙嗄B(tài)地鐵語音售票機(jī)這個(gè)項(xiàng)目研發(fā)中，采集了不同光照條件下的圖像數(shù)據(jù)和真實(shí)場(chǎng)景下的語音數(shù)據(jù)，通過這些數(shù)據(jù)來提升算法和模型在噪聲各異、光照各異等場(chǎng)景下效果。有了這些數(shù)據(jù)，使得我們最后效果達(dá)到了上線要求。

愛數(shù)智慧：對(duì)于數(shù)據(jù)量的大小以及數(shù)據(jù)的精度對(duì)識(shí)別率的影響，您是怎么看的?

田彪：數(shù)據(jù)量越大識(shí)別率也會(huì)越好。我們的產(chǎn)品所用數(shù)據(jù)，一般采集真實(shí)的數(shù)據(jù)，語音一般在上百個(gè)小時(shí)，圖像一般在上千張，才能夠使一個(gè)產(chǎn)品在一個(gè)具體的場(chǎng)景下發(fā)揮更好的狀態(tài)。

數(shù)據(jù)質(zhì)量的話，對(duì)于特殊場(chǎng)景的單模態(tài)數(shù)據(jù)，其質(zhì)量要求比較高。例如標(biāo)一段視頻里的一段話，或者標(biāo)視頻里的人臉數(shù)據(jù)，涉及到多個(gè)模態(tài)。這些數(shù)據(jù)精度要求會(huì)高一些，標(biāo)注難度也更高。

愛數(shù)智慧：未來多模態(tài)語音交互技術(shù)將呈現(xiàn)哪些演進(jìn)趨勢(shì)?

田彪：目前，工業(yè)上能夠用得到的多模態(tài)技術(shù)，大部分屬于模態(tài)聯(lián)合的一個(gè)狀態(tài)，即視覺處理視覺的，語音處理語音的，這與我們?cè)O(shè)想的多模態(tài)技術(shù)還存在一定差距。未來趨勢(shì)上，多模態(tài)技術(shù)將從模態(tài)聯(lián)合走向模態(tài)融合，進(jìn)而端到端多模態(tài)。當(dāng)然，這方面還需要持續(xù)的研究，從而不斷地提高人機(jī)交互技術(shù)的天花板。

愛數(shù)智慧：謝謝田彪老師能和大家交流。10月28日，讓我們一起期待CNCC2021《人機(jī)交互的機(jī)遇與挑戰(zhàn)》分論壇上嘉賓們更加精彩的分享。

愛數(shù)智慧5周年

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

極客觀察

贊助商

簡(jiǎn)版
原版
投稿
回頂部

<kbd id="yoaag"></kbd>