ICASSP 2019將于2019年5月12日-17日在英國布萊頓拉開序幕,作為國內AI語音賽道獨角獸公司的出門問問Mobvoi AI Lab有三篇論文已經被ICASSP 2019接收。ICASSP 全稱 International Conference on Acoustics, Speech and Signal Processing(國際聲學、語音與信號處理會議),是由 IEEE 主辦的全世界最大的,也是最全面的信號處理及其應用方面的頂級學術年會。
出門問問是一家以語音交互和軟硬結合為核心的人工智能公司。2012年創(chuàng)立后,出門問問始終以定義下一代人機交互方式為使命,堅持做AI應用的探索,希望用“AI喚醒生活”,讓每一個人都能夠感受到,以語音交互為代表的AI科技可以給每個人帶來的美好與便利。
技術方面,出門問問擁有全套自主研發(fā)的智能語音交互八大關鍵核心技術,掌握600多項技術專利。從1.前端聲音信號處理,到2.熱詞喚醒,到3.語音識別,到4.自然語言理解和5.對話管理,到6.垂直智能搜索和7.推送,到8.語音合成,在這一整套“聽到-識別-處理-輸出”的人機交互過程中,出門問問可以自主提供所有技術,為需要語音交互的場景提供一整套端到端人機交互解決方案。
出門問問始終堅持產學研高度一體化,在語音交互技術上一直深入探索,由IEEE院士(IEEE Fellow)黃美玉博士領導的出門問問Mobvoi AI Lab,在此次ICASSP 2019提交的論文概述如下。
【1】信任正則化的知識蒸餾在遞歸神經網絡語言模型上的應用
Knowledge Distillation for Recurrent Neural Network Language Modeling with Trust Regularization
Yangyang Shi, Mei-Yuh Hwang, Xin Lei,
Mobvoi AI Lab,Seattle, USA
Haoyu Sheng
Williams College
基于遞歸神經網絡的語言模型較于傳統(tǒng)的n-gram語言模型,有顯著的性能提升,已經成為語言模型的主流模型,在很多云端應用中得到廣泛的青睞。然而遞歸神經網絡語言模型在實際應用中需要占據大量的內存容量以及計算資源。在很多移動終端,由于有限的內存以及功耗,極大的限制了遞歸神經網絡語言模型的應用。最近知識蒸餾的方法被用于壓縮遞歸神經網絡語言模型并減少它在終端裝置上的計算量。這一篇文章也同樣采用了知識蒸餾的方法,并用信任正則化的方法對知識蒸餾方法做出了改進。文章的實驗表明這種信任正則化的知識蒸餾方法,可以把 Penn Treebank 數據集的遞歸神經網絡的模型大小降到原有大小的33%,而仍然得到當前學術界最好的結果。在華爾街日報語音識別的任務中,這篇文章的實驗表明,信任正則化的知識蒸餾方法可以將遞歸神經網絡語言模型的大小降到原有大小的18.5%,并且仍然保持和原有模型一樣的效果。
【2】基于高階LSTM-CTC的端到端語音識別
End-To-End Speech Recognition Using A High Rank LSTM-CTC Based Model
Yangyang Shi,Mei-Yuh Hwang,Xin Lei
Mobvoi AI Lab, Seattle, USA
基于LSTM-CTC的端到端語音模型, 由于其簡單的訓練過程以及高效的解碼過程,最近在語音識別領域得到廣泛的關注和應用。在傳統(tǒng)的LSTM-CTC模型中,一個瓶頸投影矩陣將LSTM隱層的輸出向量投影到CTC的輸入向量。研究表明增強這個瓶頸投影矩陣的階數可以提高LSTM模型的表達能力。這篇文章提出用一個高階的投影層替代傳統(tǒng)的投影矩陣。高階投影層以LSTM的隱層的輸出向量作為輸入,經過一系列的投影矩陣以及非線性函數,這個高階投影層的輸出是一系列向量的線性組合。在高階投影層中,這些線性組合的權重也是由模型根據訓練數據學習得到。文章的實驗表明在語音領域普遍采用的WSJ數據集以及Librispeech數據集合上,較于傳統(tǒng)的LSTM-CTC的端到端語音模型,高階的LSTM-CTC模型可以帶來3%-10%相對詞錯誤率的下降。
【3】使用對抗性樣例提升基于注意力機制端到端的神經網絡關鍵字檢出模型
Adversarial Examples for Improving End-to-end Attention-based Small-Footprint Keyword Spotting
Xiong Wang, Sining Sun, Changhao Shan, Jingyong Hou, Lei Xie,
School of Computer Science, Northwestern Polytechnical University, Xi’an, China
Shen Li, Xin Lei
Mobvoi AI Lab, Beijing, China
本文提出使用對抗性樣例來提升關鍵字檢出(Keyword spotting,KWS)的性能。 對抗性樣例近年來在深度學習領域是一個研究熱點,它是指在原來正確分類的樣例上加一個輕微的擾動后即被分類器錯誤分類的樣例。 在KWS任務中,將系統(tǒng)誤喚醒或誤拒絕的錯誤樣例視為對抗性樣例非常直觀而貼切競爭性樣例的概念。在我們的工作中,我們首先建立了一個訓練有素的基于注意力機制端到端的KWS模型,然后使用快速梯度符號法(FGSM)生成了對抗性的樣例,發(fā)現這些樣例會顯著降低KWS的性能,最后我們利用這些對抗性的樣例作為增強數據來一起訓練KWS模型。最終在出門問問智能音響上收集的喚醒詞數據集上進行了實驗。實驗結果顯示,設定閾值在每小時1.0次誤喚醒情況下,提出的方法獲得了相對44.7%的誤拒絕率的降低。
作為AI語音領頭公司,出門問問2018年開始在學術頂會發(fā)表重要論文,并在麥克風陣列噪聲消減、口語理解、噪聲環(huán)境下的語音識別、帶口音的語音識別中實現重大突破。
未來,出門問問不僅要做人工智能技術的前鋒探索者,更要做人工智能應用的奠基人,既保持前端技術的研發(fā)能力,同時擁有扎實的落地應用能力,ToC通過AI可穿戴、車載、智能家居消費級智能硬件+ToB通過AI企業(yè)服務雙輪戰(zhàn)略驅動,繼續(xù)探索,用AI喚醒更多人的生活。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- GitLab將告別中國區(qū)用戶:是時候選擇新的“極狐”或保護賬號了
- 蘋果明年推至少22款新品,阿里非洲首站啟動,科技新品盛宴拉開帷幕
- SUSE預測:未來私有AI平臺崛起,讓我們共同見證AI的未來
- AI伴侶“小奇”:奇富科技重塑金融服務體驗的探索之作
- 揭秘軟銀孫正義神秘芯片計劃:打造超越NVIDIA的未來科技新星
- 大模型創(chuàng)企星辰資本獲數億融資,騰訊啟明等巨頭入局,人工智能新篇章開啟
- 大模型獨角獸階躍星辰融資新動態(tài):數億美金B(yǎng)輪,揭秘星辰未來之路
- 哪吒汽車創(chuàng)始人資金遭凍結,1986萬元股權風波引關注
- 本田與日產醞釀合并:明年6月敲定協(xié)議,新公司社長待本田推薦
- 金融大模型新突破:百川智能Baichuan4-Finance引領行業(yè),準確率領先GPT-4近20%,變革金融業(yè)未來
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。