最高識(shí)別率可達(dá)99%！剛剛火山語(yǔ)音ASR技術(shù)，實(shí)力獲得國(guó)檢中心權(quán)威檢測(cè)

2023年1月9日，由國(guó)家工業(yè)信息安全發(fā)展研究中心舉辦的以“智融應(yīng)用質(zhì)惠未來”為主題的人工智能高質(zhì)量融合與安全應(yīng)用研討會(huì)在京舉行。

會(huì)上針對(duì)技術(shù)評(píng)測(cè)以及標(biāo)準(zhǔn)化工作帶來的成果，研究中心公布了一眾通過AI國(guó)檢中心檢驗(yàn)檢測(cè)的優(yōu)秀行業(yè)企業(yè)，其中火山引擎語(yǔ)音識(shí)別產(chǎn)品榜上有名，獲得國(guó)家語(yǔ)音及圖像識(shí)別產(chǎn)品質(zhì)量檢驗(yàn)檢測(cè)中心（以下簡(jiǎn)稱“AI國(guó)檢中心”）頒發(fā)的語(yǔ)音識(shí)別增強(qiáng)級(jí)檢驗(yàn)檢測(cè)證書，在語(yǔ)音識(shí)別的基本要求以及擴(kuò)展要求上均已達(dá)AI國(guó)檢中心的最高等級(jí)標(biāo)準(zhǔn)。

本次技術(shù)評(píng)測(cè)涵蓋中文普通話、方言混合、語(yǔ)種混合識(shí)別在低噪和高噪喚醒下的識(shí)別效果和準(zhǔn)確率等多個(gè)角度，經(jīng)專業(yè)評(píng)測(cè)后最高語(yǔ)音識(shí)別字正確率可達(dá)99.54%，集中體現(xiàn)了在火山語(yǔ)音支持下的語(yǔ)音識(shí)別技術(shù)能力和產(chǎn)品方案成熟度獲得了業(yè)界認(rèn)可。

作為我國(guó)質(zhì)檢系統(tǒng)在人工智能領(lǐng)域的首家、也是唯一的國(guó)家級(jí)語(yǔ)音及圖像產(chǎn)品質(zhì)量檢驗(yàn)檢測(cè)機(jī)構(gòu)，AI國(guó)檢中心始終致力于推動(dòng)智能語(yǔ)音產(chǎn)業(yè)的健康發(fā)展。本次獲得AI國(guó)檢中心的權(quán)威檢測(cè)，也充分表明了火山語(yǔ)音的語(yǔ)音識(shí)別技術(shù)能力已達(dá)行業(yè)領(lǐng)先水平。

長(zhǎng)期以來，火山語(yǔ)音（字節(jié)跳動(dòng) AI Lab Speech & Audio 智能語(yǔ)音與音頻團(tuán)隊(duì)）將打磨多年的AI語(yǔ)音技術(shù)能力以及全棧語(yǔ)音產(chǎn)品解決方案面向市場(chǎng)并通過火山引擎開放給外部企業(yè)，目前已經(jīng)覆蓋多種語(yǔ)言和方言，涵蓋音視頻、有聲閱讀、語(yǔ)音交互、游戲、廣告等眾多行業(yè)應(yīng)用場(chǎng)景，為抖音、剪映、飛書、番茄小說、Pico等核心業(yè)務(wù)提供了領(lǐng)先的AI語(yǔ)音能力應(yīng)用與拓展。

本次參評(píng)的火山引擎語(yǔ)音識(shí)別產(chǎn)品為火山語(yǔ)音團(tuán)隊(duì)自主研發(fā)的端到端流式語(yǔ)音識(shí)別系統(tǒng)，主要涵蓋語(yǔ)音識(shí)別、斷點(diǎn)檢測(cè)、逆文本標(biāo)準(zhǔn)化、智能分句以及標(biāo)點(diǎn)、口語(yǔ)順滑等模塊，對(duì)口音、復(fù)雜的聲學(xué)場(chǎng)景都體現(xiàn)了更強(qiáng)的魯棒性，對(duì)不同領(lǐng)域詞匯的識(shí)別率以及推理速度、識(shí)別結(jié)果展示速度等均比其他競(jìng)品有大幅提升。

混合模型和端到端模型的對(duì)比示意圖

眾所周知語(yǔ)音識(shí)別主要負(fù)責(zé)將音頻轉(zhuǎn)換成文字，為了兼顧效率和成本，火山語(yǔ)音團(tuán)隊(duì)率先基于RNN-T框架，通過大量訓(xùn)練數(shù)據(jù)的積累和持續(xù)的算法優(yōu)化，自研推出的端到端的流式語(yǔ)音識(shí)別系統(tǒng)，有效規(guī)避傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)中涉及的大量人工假設(shè)，采用了業(yè)界領(lǐng)先的Conformer結(jié)構(gòu)，做到同時(shí)對(duì)局部信息以及全局信息進(jìn)行建模，識(shí)別效果較傳統(tǒng)的CNN、LSTM和DFSMN等結(jié)構(gòu)都有大幅提升。

此外團(tuán)隊(duì)又從模型角度優(yōu)化了Conformer的訓(xùn)練和推理耗時(shí)，主要通過下采樣和Attention Mask等方式，憑借自研的模型壓縮框架，自動(dòng)對(duì)模型進(jìn)行裁剪和量化，在降低計(jì)算復(fù)雜度的同時(shí)做到效果基本無損；并提出將上下文信息引入語(yǔ)音識(shí)別系統(tǒng)中來提升系統(tǒng)的識(shí)別效果，更充分的將對(duì)話歷史信息融入到 RNN-T 模型中，目前該論文已成功入選全球最大的綜合性語(yǔ)音信號(hào)處理盛會(huì)Interspeech2022。

（a）基礎(chǔ) RNN-T 結(jié)構(gòu) （b）引入對(duì)話歷史到 predictor 的結(jié)構(gòu) （c）引入對(duì)話歷史到 encoder 的

如今在火山語(yǔ)音ASR技術(shù)支持下，火山引擎語(yǔ)音識(shí)別產(chǎn)品已廣泛應(yīng)用于金融、傳媒、互娛、游戲等多類應(yīng)用場(chǎng)景中，例如在短視頻成為全民時(shí)尚的今天，為了改變視頻內(nèi)容生產(chǎn)過程中傳統(tǒng)添加字幕方式帶來的反復(fù)聽寫校對(duì)以及逐幀對(duì)齊的費(fèi)時(shí)費(fèi)力，與過程中需要精通多語(yǔ)言并熟悉字幕文件的制作的高門檻要求，火山語(yǔ)音自研推出了智能字幕解決方案。

該方案不僅能夠高效識(shí)別方言與歌曲，還可以針對(duì)語(yǔ)種混合以及說話唱歌混合的場(chǎng)景有不錯(cuò)的識(shí)別效果；實(shí)踐過程中團(tuán)隊(duì)通過對(duì)用戶創(chuàng)作內(nèi)容的音頻特性以及領(lǐng)域分析，憑借算法優(yōu)化大大提升語(yǔ)音識(shí)別對(duì)于噪聲場(chǎng)景、多人說話等復(fù)雜場(chǎng)景的表現(xiàn)。尤其面對(duì)移動(dòng)端用戶針對(duì)功能響應(yīng)時(shí)間的較高要求，即希望字幕可以既快且準(zhǔn)，還做了大量的工程優(yōu)化和策略，1分鐘的視頻只需2-3秒即可完成。

智能字幕解決方案的展現(xiàn)

除此之外為應(yīng)對(duì)人們對(duì)于音頻信息的獲取效率遠(yuǎn)低于文本信息的獲取效率的情況，火山語(yǔ)音又強(qiáng)力推出了“千言轉(zhuǎn)文字，一字勝千言”的實(shí)時(shí)字幕解決方案，通過“語(yǔ)音識(shí)別+語(yǔ)音翻譯”的AI鏈路讓跨國(guó)家、跨語(yǔ)言交流變得更加流暢；憑借自動(dòng)生成會(huì)議記錄與紀(jì)要，做到大大提升與會(huì)者的工作效率，大幅減少會(huì)后整理和會(huì)中記錄的工作量。

值得提及的是，在2022年卡塔爾世界杯期間，火山語(yǔ)音的ASR技術(shù)能力還同步支持了上線抖音的“無障礙字幕直播間”，截至12月19日決賽，已有累計(jì)超過1905萬(wàn)人在該直播間觀看了球賽，累計(jì)觀看次數(shù)超過2624萬(wàn)次。

賽事期間，火山語(yǔ)音團(tuán)隊(duì)通過自研推出的端到端的流式語(yǔ)音識(shí)別系統(tǒng)，著力解決了世界杯比賽場(chǎng)景中外國(guó)球員教練員的人名識(shí)別等難題，通過對(duì)足球相關(guān)領(lǐng)域?qū)Ｓ忻~、球隊(duì)和球員名稱等術(shù)語(yǔ)進(jìn)行自動(dòng)化語(yǔ)料挖掘，憑借語(yǔ)言模型干預(yù)和自動(dòng)化熱詞干預(yù)完成專項(xiàng)優(yōu)化，從而發(fā)揮更好的識(shí)別效果；還憑借對(duì)解說場(chǎng)景的分析以及對(duì)現(xiàn)場(chǎng)原聲的分析進(jìn)行模型調(diào)優(yōu)，做到在“解說+現(xiàn)場(chǎng)原聲+bgm”的復(fù)雜場(chǎng)景下也能準(zhǔn)確識(shí)別，為觀眾呈現(xiàn)更佳的字幕效果，帶來更好的觀賽體驗(yàn)。

無障礙字幕直播間展示

伴隨不斷的創(chuàng)新發(fā)展，火山引擎語(yǔ)音識(shí)別產(chǎn)品已廣泛應(yīng)用于視頻娛樂、辦公會(huì)議、硬件交互、智能客服等諸多行業(yè)，為用戶提供了優(yōu)質(zhì)且有前景的語(yǔ)音識(shí)別解決方案?？梢韵胍?，未來在火山語(yǔ)音不斷探索前沿科技與業(yè)務(wù)場(chǎng)景的高效結(jié)合的基礎(chǔ)上，持續(xù)為用戶體驗(yàn)和業(yè)務(wù)增長(zhǎng)注入創(chuàng)新勢(shì)能以實(shí)現(xiàn)更大價(jià)值乃是大勢(shì)所趨。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

最高識(shí)別率可達(dá)99%！剛剛火山語(yǔ)音ASR技術(shù)，實(shí)力獲得國(guó)檢中心權(quán)威檢測(cè)

最高識(shí)別率可達(dá)99%！剛剛火山語(yǔ)音ASR技術(shù)，實(shí)力獲得國(guó)檢中心權(quán)威檢測(cè)