精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    明略科技Blockformer語音識別模型在AISHELL-1測試集上取得SOTA結果

    明略科技即將開源Blockformer語音識別模型,提升銷售過程中的會話智能并助力各行業(yè)數(shù)智化轉型

    深度學習已成功應用于語音識別,各種神經網(wǎng)絡被大家廣泛研究和探索,例如,深度神經網(wǎng)絡(Deep Neural Network,DNN)、卷積神經網(wǎng)絡(Convolutional Neural Network,CNN)、循環(huán)神經網(wǎng)絡(Recurrent Neural Network,RNN)和端到端的神經網(wǎng)絡模型。

    目前,主要有三種端到端的模型框架:神經網(wǎng)絡傳感器(Neural Transducer,NT),基于注意力的編碼器-解碼器(Attention-based Encoder Decoder,AED)和連接時序分類(Connectionist Temporal Classification,CTC)。

    NT是CTC的增強版本,引入了預測網(wǎng)絡模塊,可類比傳統(tǒng)語音識別框架中的語言模型,解碼器需要把先前預測的歷史作為上下文輸入。NT訓練不穩(wěn)定,需要更多內存,這可能會限制訓練速度。

    AED由編碼器、解碼器和注意力機制模塊組成,前者對聲學特征進行編碼,解碼器生成句子,注意力機制用來對齊編碼器輸入特征和解碼狀態(tài)。業(yè)內不少ASR系統(tǒng)架構基于AED。然而,AED模型逐個單元輸出,其中每個單元既取決于先前生成的結果,又依賴后續(xù)的上下文,這會導致識別延遲。

    另外,在實際的語音識別任務中,AED的注意力機制的對齊效果,有時也會被噪聲破壞。

    CTC的解碼速度比AED快,但是由于輸出單元之間的條件獨立性和缺乏語言模型的約束,其識別率有提升空間。

    目前有一些關于融合AED和CTC兩種框架的研究,基于編碼器共享的多任務學習,使用CTC和AED目標同時訓練。在模型結構上,Transformer已經在機器翻譯,語音識別,和計算機視覺領域顯示了極大的優(yōu)勢。

    明略科技集團高級總監(jiān)、語音技術負責人朱會峰介紹,明略團隊重點研究了在CTC和AED融合訓練框架下,如何使用Transformer模型來提高識別效果。

    明略團隊通過可視化分析了不同BLOCK和HEAD之間的注意力信息,這些信息的多樣性是非常有幫助的,編碼器和解碼器中每個BLOCK的輸出信息并不完全包含,也可能是互補的。(https://doi.org/10.48550/arXiv.2207.11697)

    基于這種洞察,明略團隊提出了一種模型結構,Block-augmented Transformer (BlockFormer),研究了如何以參數(shù)化的方式互補融合每個塊的基本信息,實現(xiàn)了Weighted Sum of the Blocks Output(Base-WSBO)和Squeeze-and-Excitation module to WSBO(SE-WSBO)兩種block集成方法。

    Blockfomer with Base-WSBO

    SE-WSBO

    實驗證明,Blockformer模型在中文普通話測試集(AISHELL-1)上,不使用語言模型的情況下實現(xiàn)了4.35%的CER,使用語言模型時達到了4.10%的CER。

    AISHELL-1是希爾貝殼2017年開源的中文普通話語音數(shù)據(jù)庫,錄音時長178小時,由400名中國不同地域說話人進行錄制。該數(shù)據(jù)庫涉及智能家居、無人駕駛、工業(yè)生產等11個領域,被高頻應用在語音技術開發(fā)及實驗中,是當今中文語音識別評測的權威數(shù)據(jù)庫之一。

    AI Wiki網(wǎng)站Papers With Code顯示,Blockformer在AISHELL-1上取得SOTA的識別效果,字錯率降低到4.10%(使用語言模型時)。

    明略科技集團CTO郝杰表示,明略的會話智能產品針對基于線上企微會話和線下門店會話的銷售場景,語音識別團隊聚焦美妝、汽車、教育等行業(yè)的場景優(yōu)化和定制訓練,但是也不放松對通用語音識別新框架、新模型的探索,Blockformer模型的這個SOTA效果為語音識別的定制優(yōu)化提供了一個高起點,明略即將開源Blockformer。

    (免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
    任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )