不論是“勒是霧都”的重慶,還是遍地“靚女靚仔”的廣東,“吳儂軟語”的江浙,方言都是各地極具特色文化名片。一方面,方言附著極大的親切感,另一方面,方言也承載著各地強(qiáng)烈的情感認(rèn)同與文化價(jià)值。
科技發(fā)展中的語言交流,不能遮蔽地方性的文化和知識。
考慮方言識別存在文化保護(hù)的更高立意,同時(shí)也在將老年、弱勢群體并入科技生活。思必馳放大全鏈路語音系統(tǒng)應(yīng)用在方言的識別、理解、合成上,在家居、銀行大廳等應(yīng)用場景落地,形成了能聽懂“方言”的醫(yī)療陪伴音箱、智能客服機(jī)器人等多樣化的產(chǎn)品,可識別粵語、四川話等多種方言。
語音識別的“軟肋”-口音、方言
語音識別好比機(jī)器的“聽覺系統(tǒng)”,讓機(jī)器通過識別、理解,將語音信號轉(zhuǎn)變?yōu)榭衫斫獾奈谋?。漢語語音識別的研究起始于70年代,經(jīng)歷四十余年發(fā)展,得益于技術(shù)的演進(jìn)和海量數(shù)據(jù)的積累,一般場景下普通話識別都能達(dá)到較好的識別效果。但“口音、方言”仍是全球諸多人機(jī)交互公司共同面對的挑戰(zhàn)。
為了探究方言、口音對語音識別系統(tǒng)的影響,2018 年華盛頓郵報(bào),Globalme 、Pulse Labs (語音研究公司)合作,對市場主流智能音箱進(jìn)行測試,事實(shí)證明智能音箱不能對方言“通吃”。
方言識別究竟難在哪?
多音多義,使用情境各不同。以中文為例,不僅是在文字使用習(xí)慣上(例如,“老后悔了”),讀音上也存在差異性(“插”讀“擦”,“胡”讀“福”)。標(biāo)準(zhǔn)普通話由21個(gè)聲母和39個(gè)韻母組成,上海方言中卻包含34個(gè)聲母和54個(gè)韻母,不同方言就是不同數(shù)量的聲韻母組合。同時(shí),語音識別是一個(gè)強(qiáng)場景關(guān)聯(lián)的技術(shù),不同使用情境,方言識別效果存有差異。針對性的聲學(xué)模型+語言模型訓(xùn)練是一個(gè)長期的過程。
需要豐富的語料用以訓(xùn)練??梢岳斫鉃闄C(jī)器的“詞匯量”,思必馳基于多年語音交互領(lǐng)域的研究,積累了大量基于場景化的數(shù)據(jù),銖積寸累地汲取方言語料,不斷更新、完善語音數(shù)據(jù)資源庫的建設(shè)。
需要持續(xù)地研究文化、語素、音素,專業(yè)人士、方言專家的參與,會讓方言識別效果事半功倍。
低資源環(huán)境,如何保證識別準(zhǔn)確率?
面對低資源環(huán)境,如何提升語音識別準(zhǔn)確率?思必馳研發(fā)了多種跨語言預(yù)訓(xùn)練、聯(lián)合學(xué)習(xí)、遷移學(xué)習(xí)的技術(shù),使用較少的數(shù)據(jù),來實(shí)現(xiàn)方言識別效果的提升。
跨語言預(yù)訓(xùn)練模型
跨語言預(yù)訓(xùn)練,簡言之,就是利用大量的有監(jiān)督或無監(jiān)督文本,例如用普通話來作為它的基底得到通用的預(yù)訓(xùn)練模型,在此基礎(chǔ)上疊加少量的方言數(shù)據(jù)進(jìn)行模型訓(xùn)練。伴隨后期積累起來的方言、垂直場景數(shù)據(jù)。“煉丹爐”就可以不斷提高模型性能表現(xiàn),從而提升識別率。
多語言聯(lián)合學(xué)習(xí),例如考慮到貴州、四川地理位置上的接近性,因而語言近似性較高。在方言數(shù)據(jù)樣本低資源下,思必馳將近似性語言進(jìn)行聯(lián)合學(xué)習(xí),從而降低模型的識別難度。
自研的小樣本遷移學(xué)習(xí)技術(shù),用較少的數(shù)據(jù)量,可以快速實(shí)現(xiàn)場景體驗(yàn)優(yōu)化。例如使用少量帶標(biāo)注的文本數(shù)據(jù),即可對標(biāo)點(diǎn)斷句進(jìn)行優(yōu)化,相對傳統(tǒng)模式調(diào)優(yōu),節(jié)省了83%的數(shù)據(jù)量。
使用聯(lián)合學(xué)習(xí)和遷移學(xué)習(xí)的識別后處理技術(shù)
在實(shí)際應(yīng)用中,滿足大規(guī)??焖僮远ㄖ频哪P?是企業(yè)方的切實(shí)需求,一是低門檻快速定制,二是能擁有足夠的自主權(quán)。思必馳方言識別技術(shù),同時(shí)具備快速高效的場景化定制能力。通過數(shù)據(jù)的快速收集和場景模擬,結(jié)合自主研發(fā)的識別模型自訓(xùn)練系統(tǒng),短時(shí)間內(nèi)顯著提升方言識別模型在應(yīng)用領(lǐng)域的效果,滿足業(yè)務(wù)需求。
對于有多語言混合需求的集成商,思必馳運(yùn)用多混合識別模型,在完成識別特定方言的同時(shí),還可識別普通話,最多支持十多種方言的識別。例如,中川混讀模型可以同時(shí)識別四川話和普通話。
目前,思必馳提供基于云+端混合引擎的連續(xù)語音識別,支持四川話、粵語、上海話、閩南語、陜西話、山東話等十幾種方言識別。
輕松識別方言,讓交互更有溫度
探索人機(jī)交互的自然、流暢發(fā)展,語言的交流一定要足夠人性化。
重慶農(nóng)商行客服機(jī)器人刷屏朋友圈,TA能聽懂四川話,順暢完成余額查詢、轉(zhuǎn)賬等操作,面對說慣了四川話的老一輩人們,這個(gè)功能太友好。
基于廣泛的生活場景,思必馳與合作伙伴一起將人性化交互的主動權(quán)交給用戶,聆聽更多“新聲”。
在家里,美的空調(diào)/熱水器烤箱等產(chǎn)品均支持多種方言(粵語,四川話,山東話,上海話)識別,方言轉(zhuǎn)普通話等模式,各色鄉(xiāng)音無縫交流。思必馳智能醫(yī)療音箱亦能聽懂方言、重口音普通話,充當(dāng)家庭醫(yī)生安心相伴。
汽車?yán)?支持四川話的語音識別服務(wù),導(dǎo)航都略帶一絲“麻辣味”。某城市地鐵站內(nèi),自助售票機(jī)支持普通話/中英混合/英語/粵川滬等多語種及方言的識別,準(zhǔn)確識別“
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )