你是否遭遇過這樣的時(shí)刻,暢享直播賽事卻不方便聽解說,僅僅看畫面又“云里霧里”?
“本想上班路上蹭個(gè)球賽卻出門急沒帶耳機(jī),地鐵里雖然一直盯著屏幕但好像還是忽略了很多關(guān)鍵細(xì)節(jié)……”
“深夜看比賽雖然氣氛拉滿,但要是影響到別人休息就不好了,所以也不敢放肆開聲音盡情看……”
你是否旁觀過這樣一群人,他們“想看比賽卻又聽不清解說”,原本是一場(chǎng)眾樂樂的活動(dòng),卻最后成為他們自己的“不太快樂”?
“有的時(shí)候真的聽不清楚解說,所以很長(zhǎng)時(shí)間就不怎么和家人一起看比賽了,更多是個(gè)表面熱鬧,內(nèi)心沒啥波瀾……”
“聽不清解說還真有點(diǎn)兒自卑,看畫面很多時(shí)候也會(huì)跟不上,絕對(duì)是看了個(gè)寂寞,就不想浪費(fèi)時(shí)間了……”
如今變化正在悄悄發(fā)生。本次卡塔爾世界杯熱播之際,在火山語音以及火山同傳的技術(shù)支持下,無障礙字幕直播間驚喜上線,讓無論是往返于公共交通、不便使用耳機(jī)觀賽的鐵桿球迷,還是不懂球卻想看球的體育小白,抑或是因?yàn)樯眢w原因聽不清解說卻有觀賽渴望的聽障群體,都可通過字幕實(shí)時(shí)了解世界杯直播并及時(shí)獲取賽場(chǎng)重要信息,帶來較以往不同的觀賽體驗(yàn)。
“十幾年前就聽說春晚要加直播字幕,最后因?yàn)榉N種原因沒能如愿。過去一家人在電視前守夜,看到有趣的小品相聲都會(huì)哈哈大笑,而我只能第二天獨(dú)自看帶字幕的重播,然后一個(gè)人傻樂……現(xiàn)在有了無障礙字幕直播間,我終于可以和家人朋友一起感受比賽帶來的歡樂了。”阿濤驚喜地說。
突破層層技術(shù)關(guān),火山語音讓字幕更準(zhǔn)更快更好
曾經(jīng)讓阿濤記掛多年的“春晚直播加字幕”,其實(shí)背后需要攻克相當(dāng)復(fù)雜的技術(shù)難關(guān)。
以本次世界杯無障礙字幕直播間為例,世界杯賽場(chǎng)風(fēng)云變幻,解說的口音和語速更是差異萬分,為了讓同傳字幕不受其影響,火山語音團(tuán)隊(duì)基于RNN-T框架,通過大量訓(xùn)練數(shù)據(jù)的積累和持續(xù)的算法優(yōu)化,推出了自研端到端的流式語音識(shí)別系統(tǒng)來解決,不但有效規(guī)避了傳統(tǒng)的語音識(shí)別系統(tǒng)中涉及的大量人工流程,同時(shí)還做到了系統(tǒng)復(fù)雜度簡(jiǎn)化很多,構(gòu)建起來更加容易,效果還會(huì)更好。
實(shí)踐顯示,優(yōu)化后的模型不僅對(duì)口音和復(fù)雜場(chǎng)景展現(xiàn)出更強(qiáng)的魯棒性,而且對(duì)領(lǐng)域詞匯的識(shí)別能力以及推理速度,字幕上屏速度也得到了大幅度提升。對(duì)此阿濤表示,無障礙字幕功能的聲音、畫面雖然官方說整體會(huì)延遲30s,但實(shí)際與直播延遲的時(shí)間并不大,觀感舒適度大大提高。
長(zhǎng)期以來,噪音都是影響語音識(shí)別精準(zhǔn)度的重要因素之一。“賽場(chǎng)上經(jīng)常會(huì)出現(xiàn)的觀眾吶喊聲,特別容易被誤識(shí)別為'嗯、啊、哈'的語氣詞;背景音樂和觀眾聲則會(huì)降低解說員聲音的清晰度,對(duì)識(shí)別模型造成了較大挑戰(zhàn)。”為應(yīng)對(duì)這類問題,火山語音團(tuán)隊(duì)通過從足球比賽音頻中提取出這些噪聲片段,在模型中顯式地建模噪聲,將噪聲誤出字的比例下降了95%;同時(shí)通過數(shù)據(jù)增強(qiáng)方式提高聲學(xué)模型在足球場(chǎng)景下的魯棒性,即在有背景音的情況下也能清晰識(shí)別人聲,實(shí)現(xiàn)更好的流式字幕效果。
“在世界杯這樣的全球大型賽事中,大量的專業(yè)術(shù)語以及外籍教練與運(yùn)動(dòng)員的人名,會(huì)為語音識(shí)別帶來不小的困難,但也成為提升同傳字幕專業(yè)度的關(guān)鍵。”通常的做法其實(shí)是收集相關(guān)場(chǎng)景的語音識(shí)別訓(xùn)練集,但收集的過程耗費(fèi)時(shí)間太長(zhǎng)且成本較高;而且面對(duì)大量文本語料,如何利用這些純文本來優(yōu)化領(lǐng)域識(shí)別效果,也是個(gè)不小的問題。
對(duì)此火山語音團(tuán)隊(duì)率先整理了大量與足球相關(guān)以及與世界杯相關(guān)的語料,在這些語料的基礎(chǔ)上訓(xùn)練語言模型,通過語言模型干預(yù)的方式,提高了模型在足球領(lǐng)域的適配性。由于端到端模型本身也隱含語言模型信息,直接與外部語言模型進(jìn)行融合往往效果不佳,所以團(tuán)隊(duì)根據(jù) RNN-T 的建模方式,通過解耦聲學(xué)模型和語言模型,顯式建模內(nèi)部語言模型,調(diào)整內(nèi)部語言模型和外部語言模型的權(quán)重,以此實(shí)現(xiàn)最佳的融合效果。
“對(duì)于教練與運(yùn)動(dòng)員人名識(shí)別難的問題,我們從足球相關(guān)語料中自動(dòng)挖掘?qū)S忻~、球隊(duì)和球員名稱等術(shù)語,通過在解碼備選中引入FST(Finite State Transducer)邏輯結(jié)構(gòu),結(jié)合'匹配走圖+Backoff權(quán)重償還'的方式對(duì)熱詞進(jìn)行干預(yù),有效利用該熱詞專項(xiàng)技術(shù)優(yōu)化后,這些術(shù)語的召回從 64% 提升到 76%。”團(tuán)隊(duì)總結(jié)道。
經(jīng)過反復(fù)實(shí)踐與驗(yàn)證,為追求更優(yōu)效果,團(tuán)隊(duì)又進(jìn)一步對(duì)人名熱詞干預(yù)做了擴(kuò)大FST干預(yù)備選以及對(duì)熱詞區(qū)分稀疏熱詞和普通熱詞,然后對(duì)兩種熱詞分別構(gòu)圖,在解碼邏輯區(qū)別處理的優(yōu)化,帶來人名的召回率從76%提升到84%的效果。此外還聯(lián)合火山語音音頻合成團(tuán)隊(duì)的同學(xué),采用TTS技術(shù)合成術(shù)語音頻,并加入聲學(xué)模型訓(xùn)練中,將這些術(shù)語的召回率進(jìn)一步提高到90%,字幕效果更佳。
一直以來,火山語音團(tuán)隊(duì)的語音識(shí)別技術(shù)都不斷追求更快、更準(zhǔn)、更穩(wěn)定且更強(qiáng)悍的目標(biāo),不久之前還榮獲了國(guó)家語音及圖像識(shí)別產(chǎn)品質(zhì)量檢驗(yàn)檢測(cè)中心頒發(fā)的語音識(shí)別增強(qiáng)級(jí)檢驗(yàn)檢測(cè)證書,充分表明其語音識(shí)別技術(shù)能力已達(dá)行業(yè)領(lǐng)先水平。
就像很多前沿機(jī)構(gòu)預(yù)測(cè)的一樣,可靠快速的語音識(shí)別能力或?qū)⒊蔀槲磥砻總€(gè)人日常生活中不可缺少的一部分,技術(shù)將索引視頻,以及更多類型的媒體內(nèi)容,甚至成為每一個(gè)音頻和視頻都實(shí)現(xiàn)可訪問以及可操作的關(guān)鍵,或許無障礙字幕直播間就意味著這種“開始”。
語音識(shí)別技術(shù)發(fā)展已見成熟,交互以及視頻領(lǐng)域應(yīng)用熱度高
如何讓人與機(jī)器順暢溝通,是人類長(zhǎng)期以來不斷探索的重要內(nèi)容之一,而智能語音技術(shù)作為讓機(jī)器能夠聽懂人類語音并擁有自然交互性的科學(xué),早在上世紀(jì)80年代就已闖入人類視野。歷經(jīng)2010年之前的起步期、2011-2015的變革期,以及2016至今的落地期,準(zhǔn)確率不斷逼近人類水平,以智能語音助手、智能音箱為代表的技術(shù)與產(chǎn)品大力發(fā)展起來。業(yè)界普遍認(rèn)為,由于語音交互提供了更自然、更便利、更高效的溝通形式,未來很大程度上會(huì)成為最主要的人機(jī)交互形式而存在。作為智能語音陣營(yíng)中的關(guān)鍵技術(shù),語音識(shí)別技術(shù)近年來也是突飛猛進(jìn),走出實(shí)驗(yàn)室并走進(jìn)人們的日常生活中,現(xiàn)如今無論是智能家居、智慧出行,視頻創(chuàng)作還是智慧辦公等場(chǎng)景,它都已不可或缺。
值得提及,在大家習(xí)以為常的辦公場(chǎng)景中,從早期解放雙手呼之欲出的語音輸入,到首次與辦公場(chǎng)景緊密結(jié)合的語音助手,再到發(fā)展至今被爭(zhēng)相使用的語音字幕,語音識(shí)別歷經(jīng)的創(chuàng)新不斷。談及語音字幕,兩種類型的具體應(yīng)用場(chǎng)景其實(shí)是普遍存在的:一種是會(huì)議進(jìn)行中將語音實(shí)時(shí)轉(zhuǎn)為文字,不僅可以實(shí)時(shí)查看原語言的字幕,也可以實(shí)時(shí)查看翻譯后的字幕;另一種是會(huì)議結(jié)束之后通過語音轉(zhuǎn)寫出會(huì)議紀(jì)要,以此降低會(huì)后文字整理難度。但究其本質(zhì),無論是語音輸入還是語音助手,抑或是現(xiàn)在流行的語音字幕,歸根結(jié)底都是以提升辦公效率為目標(biāo),火山語音團(tuán)隊(duì)也正是基于此將更多精力投入辦公方向,希望通過更具優(yōu)勢(shì)的語音識(shí)別技術(shù)努力優(yōu)化“千言轉(zhuǎn)文字,一字勝千言”的效果。
基于此團(tuán)隊(duì)上線了實(shí)時(shí)字幕解決方案,不僅可以幫助參會(huì)人更好理解會(huì)議內(nèi)容并回顧結(jié)論,還能通過“識(shí)別+翻譯”的同傳方案高效完成跨國(guó)、跨語言的溝通和交流。尤其是方案的會(huì)議轉(zhuǎn)寫能力,不但可以準(zhǔn)確記錄參會(huì)人的討論內(nèi)容,還能根據(jù)說話人特征進(jìn)行自動(dòng)歸類和整理,通常1小時(shí)的會(huì)議只需2-3分鐘即可輸出會(huì)議記錄,方便快捷。整體來說,為了更好提升會(huì)議的智能化程度以及效率,火山語音團(tuán)隊(duì)率先克服語音識(shí)別任務(wù)、下游任務(wù)及會(huì)議等方向的挑戰(zhàn),進(jìn)行了諸多升級(jí)與創(chuàng)新。
現(xiàn)如今從“看”到“拍”,短視頻已然成為全民時(shí)尚,正在當(dāng)下視聽化、碎片化、快節(jié)奏的網(wǎng)絡(luò)時(shí)代中快速崛起。據(jù)相關(guān)數(shù)據(jù)顯示,截止到2022年第二季度數(shù)據(jù),我國(guó)短視頻用戶規(guī)模達(dá)9.62億人,可見越來越多人已經(jīng)開始投身到短視頻創(chuàng)作中來。對(duì)此火山語音團(tuán)隊(duì)緊跟時(shí)下火熱的視頻創(chuàng)作風(fēng)潮,及時(shí)推出了智能字幕解決方案,一改傳統(tǒng)字幕10分鐘視頻3小時(shí)制作的耗時(shí)費(fèi)力。不僅能在幾秒鐘內(nèi)自動(dòng)生成精準(zhǔn)的語音識(shí)別結(jié)果,還能兼容多種口音、語種和方言,緊跟商用語音識(shí)別技術(shù)多語音的發(fā)展趨勢(shì),甚至針對(duì)創(chuàng)作常見的配樂和歌曲場(chǎng)景開發(fā)了歌曲識(shí)別的亮點(diǎn)功能,大大降低了創(chuàng)作門檻,提升了創(chuàng)作的智能化。目前,火山語音的語音識(shí)別技術(shù)已廣泛應(yīng)用于視頻娛樂、辦公會(huì)議、硬件交互、智能客服等諸多行業(yè),提供了優(yōu)質(zhì)有前景的語音識(shí)別解決方案。
長(zhǎng)期以來,火山語音面向字節(jié)跳動(dòng)各大業(yè)務(wù)線提供行業(yè)優(yōu)質(zhì)的 AI 語音技術(shù)能力以及全棧語音產(chǎn)品解決方案,并通過火山引擎對(duì)外提供服務(wù)。目前團(tuán)隊(duì)的語音識(shí)別和語音合成覆蓋了多種語言和方言,涵蓋音視頻、有聲閱讀、語音交互、游戲、廣告等多種應(yīng)用場(chǎng)景,為抖音、剪映、飛書、番茄小說、PICO 等核心業(yè)務(wù)提供了領(lǐng)先的語音能力??梢钥闯?,火山語音團(tuán)隊(duì)在智能語音道路上不斷探索創(chuàng)新,將前沿科技與業(yè)務(wù)場(chǎng)景高效結(jié)合,以實(shí)現(xiàn)更大的用戶價(jià)值與可能性,不止字幕,也將不止步于字幕。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )