精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    愛數(shù)智慧5周年 | 專訪田彪:多模態(tài)應(yīng)用做到“眼耳并用” 數(shù)據(jù)是關(guān)鍵

    我們是最早把多模態(tài)技術(shù)融合起來,最終做成一個(gè)應(yīng)用產(chǎn)品的團(tuán)隊(duì)。

    要降低硬件成本,讓不同用戶能夠使用到,從而推動(dòng)技術(shù)普惠化。

    多模態(tài)技術(shù)只是設(shè)備的一部分,它還要和其他技術(shù)進(jìn)行融合。

    如何結(jié)合行業(yè)產(chǎn)品的具體需求去把算法的作用發(fā)揮出來,這是落地中的一個(gè)痛點(diǎn)。

    未來趨勢(shì)上,多模態(tài)技術(shù)將從模態(tài)聯(lián)合走向模態(tài)融合,進(jìn)而端到端多模態(tài)。

    在CNCC大會(huì)前的專訪中,阿里巴巴達(dá)摩語音實(shí)驗(yàn)室田彪接受采訪時(shí)表達(dá)的精彩觀點(diǎn)。

    第十八屆中國計(jì)算機(jī)大會(huì)(CNCC 2021)將于10月28日在深圳國際會(huì)展中心舉行,CNCC由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,國家超級(jí)計(jì)算深圳中心承辦(深圳云計(jì)算中心),香港中文大學(xué)(深圳)協(xié)辦,是中國計(jì)算機(jī)領(lǐng)域最宏大的年度盛會(huì)。

    值愛數(shù)智慧五周年之際,愛數(shù)智慧借助此次CNCC大會(huì)聯(lián)合產(chǎn)業(yè)界大咖主辦一場(chǎng)《人機(jī)交互的機(jī)遇與挑戰(zhàn)》分論壇。來自阿里巴巴達(dá)摩院語音實(shí)驗(yàn)室的田彪現(xiàn)場(chǎng)做《多模態(tài)語音交互的技術(shù)實(shí)踐及發(fā)展趨勢(shì)》的主題報(bào)告。

    在論壇正式開展前,論壇主辦方愛數(shù)智慧采訪了田彪,以下為采訪整理,希望給大家?guī)韱l(fā)。

    愛數(shù)智慧5周年

    田彪:阿里巴巴達(dá)摩院語音實(shí)驗(yàn)室

    以下為采訪正文

    工業(yè)應(yīng)用上 多模態(tài)起到“取長(zhǎng)補(bǔ)短”作用

    愛數(shù)智慧:現(xiàn)在多模態(tài)語音交互技術(shù)成為AI領(lǐng)域重要發(fā)展方向,您在語音信號(hào)方面有著豐富的研發(fā)經(jīng)驗(yàn),您認(rèn)為多模態(tài)語音交互技術(shù)現(xiàn)在發(fā)展到哪個(gè)階段了?為什么?

    田彪:多模態(tài)語音交互并不是一個(gè)新鮮的概念,從學(xué)術(shù)界看早在七八十年代就有各種模態(tài)融合的技術(shù)嘗試,比如借助視覺來提升語音交互,那時(shí)尚處在研究狀態(tài),所以不具備實(shí)用性。

    從2013年開始,深度學(xué)習(xí)產(chǎn)生,多模態(tài)技術(shù)發(fā)生了質(zhì)的提升。深度學(xué)習(xí)在視覺、語音等領(lǐng)域得到成功應(yīng)用后,各個(gè)單獨(dú)模態(tài)本身的性能都實(shí)現(xiàn)了質(zhì)的飛躍,集大家之所長(zhǎng)的多模態(tài)語音交互領(lǐng)域也逐漸進(jìn)入了結(jié)合行業(yè)需求的實(shí)際應(yīng)用階段。

    愛數(shù)智慧:您剛才說多模態(tài)已經(jīng)研究了幾十年,您覺得應(yīng)用在工業(yè)界上,多模態(tài)有著怎樣的趨勢(shì)?

    田彪:我認(rèn)為多模態(tài)在具體應(yīng)用中能夠起到“取長(zhǎng)補(bǔ)短”的作用。在一些具體的應(yīng)用場(chǎng)景中,單模態(tài)在識(shí)別率上挑戰(zhàn)性很大。比如我們研發(fā)的地鐵語音售票機(jī)就需要其他模態(tài)相互輔助。通常情況下,遠(yuǎn)場(chǎng)語音交互需要喚醒詞來喚醒,但是地鐵環(huán)境嘈雜,遠(yuǎn)場(chǎng)喚醒效果會(huì)很差。如果單純使用語音技術(shù)解決識(shí)別率,難度會(huì)非常高。我們就利用視覺技術(shù)輔助,讓產(chǎn)品真正落地。我認(rèn)為多模態(tài)的發(fā)展趨勢(shì)在于,它能夠解決在一些場(chǎng)景下,單模態(tài)難以解決的問題。

    多模態(tài)應(yīng)用落地 獲國際權(quán)威媒體盛贊

    愛數(shù)智慧:根據(jù)我們的了解,您在智能車機(jī)、智能交通、智慧法院、智能辦公、智能家居和智能語音芯片等語音交互技術(shù)方面有著豐富的創(chuàng)新算法實(shí)踐,并且被集成到阿里巴巴經(jīng)濟(jì)體內(nèi)外多項(xiàng)重要語音AI產(chǎn)品中,您能否介紹一下,您和您的團(tuán)隊(duì)在具體的多模態(tài)語音落地場(chǎng)景上,做了哪些具體的創(chuàng)新和嘗試?

    田彪:我所在的團(tuán)隊(duì)是「阿里巴巴達(dá)摩院語音實(shí)驗(yàn)室」,在軌道交通、企業(yè)辦公、新零售和智能客服等領(lǐng)域都推出多模態(tài)相關(guān)的產(chǎn)品。其中,在2018年聯(lián)合上海地鐵與支付寶推出了可部署在嘈雜地鐵站的多模態(tài)語音售票機(jī),這在全球尚屬首次,技術(shù)成果也獲得了國際權(quán)威媒體《MIT Technology Review》的盛贊。

    以該產(chǎn)品為例,我們通過引入視覺智能技術(shù),結(jié)合人臉檢測(cè)、麥克風(fēng)陣列和聲源定位等多模態(tài)技術(shù),創(chuàng)新性的解決了傳統(tǒng)遠(yuǎn)場(chǎng)語音交互中不可避免的語音喚醒難題,既保障了高噪聲環(huán)境下接入語音交互的可靠性,也解決了用戶學(xué)習(xí)喚醒詞的高門檻問題,為AI產(chǎn)品真正走進(jìn)千家萬戶的日常使用打好了技術(shù)基礎(chǔ)。

    這也意味著,我們是最早把多模態(tài)技術(shù)融合起來,最終做成一個(gè)應(yīng)用產(chǎn)品的團(tuán)隊(duì)。目前在全國幾十個(gè)城市地鐵里投入使用的類似產(chǎn)品,用的都是我們的多模態(tài)技術(shù)。

    愛數(shù)智慧:剛才您說的麥克風(fēng)陣列、聲源定位等技術(shù),將會(huì)在CNCC論壇現(xiàn)場(chǎng)做詳細(xì)的介紹吧?

    田彪:對(duì)的,我會(huì)在CNCC論壇現(xiàn)場(chǎng)詳細(xì)展開來講。我們知道,傳統(tǒng)的模態(tài)一般說的是云識(shí)別或者視覺,但是聲學(xué)方面比如麥克風(fēng)陣列等,在整個(gè)業(yè)界是比較匱乏的。大家都知道云識(shí)別、AI,如果提到聲學(xué)、麥克風(fēng)陣列、聲源定位等很多人都比較陌生,因?yàn)樗鼘儆诼晫W(xué)方面的技術(shù),是融合在具體的產(chǎn)品里面的。這些技術(shù)我會(huì)在我的演講里詳細(xì)地講一下,因?yàn)檫@些技術(shù)也是我們的特色。

    “眼耳并用”的無人前臺(tái)

    愛數(shù)智慧:好的,我們期待您現(xiàn)場(chǎng)的分享。您曾參與過“釘釘智能無人前臺(tái)”的產(chǎn)品研發(fā)工作,這一產(chǎn)品用到哪些多模態(tài)技術(shù),這一技術(shù)為產(chǎn)品帶來哪些良好的用戶體驗(yàn)?

    田彪:這個(gè)產(chǎn)品深度運(yùn)用了剛才講到的達(dá)摩院多項(xiàng)AI技術(shù),比如遠(yuǎn)場(chǎng)拾音、聲源定位、人臉檢測(cè)與識(shí)別、語音識(shí)別和合成、自然語言理解和音視頻通信等,實(shí)現(xiàn)“多模態(tài)交互”技術(shù)的產(chǎn)品化,突破了智能設(shè)備有“眼”只能看,有“耳”只能聽,多感官各自獨(dú)立無協(xié)同交互的技術(shù)難題。

    M2S是釘釘面向企業(yè)用戶推出的智能無人前臺(tái)產(chǎn)品,基于多模態(tài)交互,設(shè)備具備能聽、能說、會(huì)認(rèn)人,甚至?xí)伎嫉哪芰?。這個(gè)設(shè)備非常小巧,但能夠跟釘釘?shù)恼麄€(gè)生態(tài)和組織能力結(jié)合起來,它能夠節(jié)省前臺(tái)同事一半精力,實(shí)際作用還是蠻明顯的。

    M2S通過檢測(cè)人走近的行為,自動(dòng)判斷身份并主動(dòng)發(fā)起交互。如果是員工,自動(dòng)進(jìn)行人臉識(shí)別智能考勤。如果是訪客,M2S將會(huì)進(jìn)行智能訪客接待,比如有人來訪,來訪人可以直接走到機(jī)器面前,說明要找某某人,機(jī)器會(huì)自動(dòng)發(fā)起音視頻會(huì)議,雙方進(jìn)行音視頻通話溝通,非常便捷高效。

    降低硬件成本 推動(dòng)技術(shù)普惠化

    愛數(shù)智慧:目前多模態(tài)語音交互技術(shù)在落地應(yīng)用時(shí)有哪些技術(shù)難點(diǎn)?

    田彪:主要有兩個(gè)方面,一方面用于多模態(tài)技術(shù)的設(shè)備成本比較高,當(dāng)然也和算法復(fù)雜有關(guān)。比如算法對(duì)攝像頭、麥克風(fēng)陣列個(gè)數(shù)等輸入設(shè)備都會(huì)有較高的規(guī)格要求。需要算法的提升來降低對(duì)硬件的要求,甚至復(fù)用一些整機(jī)上已有的輸入設(shè)備。所以,首先要降低硬件成本,推動(dòng)技術(shù)在各種產(chǎn)品各種場(chǎng)景下落地,讓不同用戶能夠使用到,從而推動(dòng)技術(shù)普惠化。

    另外,算法本身也比較復(fù)雜,對(duì)芯片算力有較高要求,需要探索如何降低算法復(fù)雜度的同時(shí)持續(xù)提升性能,從而降低芯片的算法規(guī)格,推動(dòng)整體硬件成本降低。

    另一方面是要結(jié)合行業(yè)需求,在技術(shù)上持續(xù)提升。針對(duì)一個(gè)應(yīng)用場(chǎng)景,多模態(tài)技術(shù)只是設(shè)備的一部分,它還要和其他技術(shù)進(jìn)行融合。所以,產(chǎn)品開發(fā)工作并不單單在多模態(tài)語音交互技術(shù),還涉及到怎么對(duì)接、怎么集中到一起、怎么做測(cè)試等等。這些都是產(chǎn)品落地過程中要做的工作。

    愛數(shù)智慧:是不是不同行業(yè),技術(shù)之間融合的難點(diǎn)都不一樣?

    田彪:對(duì),不同行業(yè)不同場(chǎng)景的需求不同,類似的技術(shù)可以放在售票系統(tǒng),也可以放在點(diǎn)餐系統(tǒng),但是兩個(gè)場(chǎng)景在技術(shù)要求上是不一樣的。例如售票系統(tǒng),用戶只購買一張票,但是點(diǎn)餐系統(tǒng),要應(yīng)付用戶購買咖啡、面包等多種商品。

    算法只是技術(shù)落地中的一部分,如何結(jié)合行業(yè)產(chǎn)品的具體需求去把算法的作用發(fā)揮出來,這是落地中的一個(gè)痛點(diǎn),甚至所需要的人力投入遠(yuǎn)大于算法研發(fā)。

    多模態(tài)數(shù)據(jù)是提升模型性能的關(guān)鍵

    愛數(shù)智慧:我們知道,多模態(tài)技術(shù)的發(fā)展當(dāng)然需要大量多模態(tài)數(shù)據(jù)的支撐,您認(rèn)為多模態(tài)數(shù)據(jù)在語音交互中將起到哪些積極地作用?

    田彪:我覺得作用非常大。AI有三個(gè)關(guān)鍵要素,那就是「算法」、「算力」和「數(shù)據(jù)」,多模態(tài)AI技術(shù)也不例外,尤其是技術(shù)原型從實(shí)驗(yàn)室走向產(chǎn)業(yè)落地的過程中,在不同的場(chǎng)景下,通過真實(shí)采集的多模態(tài)數(shù)據(jù),來驅(qū)動(dòng)多模態(tài)深度學(xué)習(xí)模型的性能提升,這是所有產(chǎn)品研發(fā)中非常關(guān)鍵的一步。

    包括我們?cè)诙嗄B(tài)地鐵語音售票機(jī)這個(gè)項(xiàng)目研發(fā)中,采集了不同光照條件下的圖像數(shù)據(jù)和真實(shí)場(chǎng)景下的語音數(shù)據(jù),通過這些數(shù)據(jù)來提升算法和模型在噪聲各異、光照各異等場(chǎng)景下效果。有了這些數(shù)據(jù),使得我們最后效果達(dá)到了上線要求。

    愛數(shù)智慧:對(duì)于數(shù)據(jù)量的大小以及數(shù)據(jù)的精度對(duì)識(shí)別率的影響,您是怎么看的?

    田彪:數(shù)據(jù)量越大識(shí)別率也會(huì)越好。我們的產(chǎn)品所用數(shù)據(jù),一般采集真實(shí)的數(shù)據(jù),語音一般在上百個(gè)小時(shí),圖像一般在上千張,才能夠使一個(gè)產(chǎn)品在一個(gè)具體的場(chǎng)景下發(fā)揮更好的狀態(tài)。

    數(shù)據(jù)質(zhì)量的話,對(duì)于特殊場(chǎng)景的單模態(tài)數(shù)據(jù),其質(zhì)量要求比較高。例如標(biāo)一段視頻里的一段話,或者標(biāo)視頻里的人臉數(shù)據(jù),涉及到多個(gè)模態(tài)。這些數(shù)據(jù)精度要求會(huì)高一些,標(biāo)注難度也更高。

    愛數(shù)智慧:未來多模態(tài)語音交互技術(shù)將呈現(xiàn)哪些演進(jìn)趨勢(shì)?

    田彪:目前,工業(yè)上能夠用得到的多模態(tài)技術(shù),大部分屬于模態(tài)聯(lián)合的一個(gè)狀態(tài),即視覺處理視覺的,語音處理語音的,這與我們?cè)O(shè)想的多模態(tài)技術(shù)還存在一定差距。未來趨勢(shì)上,多模態(tài)技術(shù)將從模態(tài)聯(lián)合走向模態(tài)融合,進(jìn)而端到端多模態(tài)。當(dāng)然,這方面還需要持續(xù)的研究,從而不斷地提高人機(jī)交互技術(shù)的天花板。

    愛數(shù)智慧:謝謝田彪老師能和大家交流。10月28日,讓我們一起期待CNCC2021《人機(jī)交互的機(jī)遇與挑戰(zhàn)》分論壇上嘉賓們更加精彩的分享。

    愛數(shù)智慧5周年

    (免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
    任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )