精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

首頁(yè)
熱搜
人物
明星
媒體
友推
快訊

供應(yīng)商
小紅書
回首頁(yè)

資訊
極客熱點(diǎn)
企業(yè)動(dòng)態(tài)
友推福利
友媒專區(qū)

軟件
PC軟件
移動(dòng)APP
操作系統(tǒng)
工業(yè)軟件

酷玩
手機(jī)數(shù)碼
明星腕表
極客游戲
智能汽車
時(shí)尚輕奢

創(chuàng)業(yè)
創(chuàng)業(yè)頭條
創(chuàng)業(yè)學(xué)院
項(xiàng)目招商
工作機(jī)會(huì)
兼職副業(yè)

極客網(wǎng) > 每日熱讀 >

微軟深度神經(jīng)網(wǎng)絡(luò)語(yǔ)音，定制個(gè)性化的自然人聲

人閱讀
2020-11-30 21:13:00
相關(guān)關(guān)鍵詞
- 微軟

原標(biāo)題：微軟深度神經(jīng)網(wǎng)絡(luò)語(yǔ)音，定制個(gè)性化的自然人聲

以往，談及對(duì)合成語(yǔ)音的刻板印象，很多人會(huì)聯(lián)想到《星球大戰(zhàn)》中的C-3PO——那個(gè)有著近似人類外形金光閃閃的家伙，它是整個(gè)系列影片中毫無(wú)爭(zhēng)議的搞笑擔(dān)當(dāng)，其動(dòng)作僵硬而滑稽，說(shuō)起話來(lái)喋喋不休，聲音中混雜著輕微的交流聲和金屬質(zhì)感的回聲。直到今天，它那獨(dú)特的嗓音，仍然是很多科幻片中人工智能發(fā)聲的模板。

第一部《星球大戰(zhàn)》公映于1977年，彼時(shí)，個(gè)人電腦才剛剛走出實(shí)驗(yàn)室，人們對(duì)于人工智能的想象力仍受限于時(shí)代。去年，該系列推出了最后一部作品《星球大戰(zhàn)：天行者崛起》，C-3PO的聲音還是人們熟悉的老樣子。而現(xiàn)實(shí)中，智能語(yǔ)音技術(shù)飛速發(fā)展，取而代之的是聽感越來(lái)越趨于自然、逼真的“合成人聲”，讓越來(lái)越多的企業(yè)于實(shí)現(xiàn)了與客戶的多模態(tài)互動(dòng)。

合成人聲的用途相當(dāng)廣泛，我們熟知的便是手機(jī)中的語(yǔ)音助手，用戶可通過(guò)簡(jiǎn)單的人機(jī)對(duì)話，獲知天氣、路況等實(shí)時(shí)信息，也可命令手機(jī)完成撥號(hào)、查詢等任務(wù)。這一類應(yīng)用被稱作實(shí)時(shí)語(yǔ)音合成，它對(duì)基于云的計(jì)算力提出了很高的要求，除了需要對(duì)聲音的自然度不斷地進(jìn)行優(yōu)化外，實(shí)時(shí)合成對(duì)于語(yǔ)音合成引擎和平臺(tái)架構(gòu)也都有著極高的要求，必須保障在極低的延遲下，提供準(zhǔn)確、穩(wěn)定、自然的聲音內(nèi)容。另一類常見的應(yīng)用是利用人工智能語(yǔ)音合成有聲內(nèi)容，這類應(yīng)用通常會(huì)在語(yǔ)音服務(wù)端進(jìn)行非實(shí)時(shí)的批量合成，然后再將有聲內(nèi)容文件提供給用戶。有聲內(nèi)容合成的主要挑戰(zhàn)在于如何通過(guò)多種角色扮演和豐富情感表達(dá)，降低聽眾單向接收有聲內(nèi)容的聽覺(jué)疲勞。

以往，有聲書需要由專業(yè)朗誦者來(lái)錄制，制作周期長(zhǎng)達(dá)數(shù)月且成本高昂。如今，通過(guò)智能合成語(yǔ)音錄制有聲書，制作周期可縮短至幾小時(shí)，甚至是幾分鐘。即便在需要人工干預(yù)校對(duì)和聲音編輯的情況下，制作周期也可縮短至數(shù)周，節(jié)省了大量的人力、物力及時(shí)間成本，且得到的效果幾乎與真人朗誦別無(wú)二致。今年的“世界讀書日”，由周迅與公益組織紅丹丹聯(lián)合發(fā)起的為視障人士讀書活動(dòng)，向我們展示了語(yǔ)音合成技術(shù)的新高度。在此之前，創(chuàng)建一個(gè)高質(zhì)量的語(yǔ)音合成模型需要以大量真人原聲為樣本進(jìn)行機(jī)器學(xué)習(xí)，樣本量通常會(huì)超過(guò)10小時(shí)或10000句。而這次公益活動(dòng)的主辦方采用了由微軟最新開發(fā)的深度神經(jīng)網(wǎng)絡(luò)語(yǔ)音合成定制系統(tǒng)，只采集了半小時(shí)大約500句的周迅原聲錄音，便通過(guò)深度定制的語(yǔ)音模型，惟妙惟肖地復(fù)原了周迅的聲音。

這里所說(shuō)的“復(fù)原”不只是周迅頗具特色的聲線，也包括周迅在朗讀時(shí)的語(yǔ)氣、情緒、語(yǔ)調(diào)、抑揚(yáng)頓挫等。可以想象，隨著這一技術(shù)的普及，有聲書行業(yè)也將隨之發(fā)生巨大的改變。微軟將在國(guó)際殘疾人日捐贈(zèng)的100小時(shí)有聲書籍正昭示著這種改變的開始。

微軟深度神經(jīng)網(wǎng)絡(luò)是基于Azure云的端到端語(yǔ)音合成系統(tǒng)，由前端、聲學(xué)模型和聲碼器三部分組成。前端主要解決基于語(yǔ)義理解的文本發(fā)音問(wèn)題，比如“2020”在表示年份和數(shù)字時(shí)的讀法不一樣，這是上下文關(guān)聯(lián)問(wèn)題；再比如“堡”字，用于地名時(shí)應(yīng)讀作“鋪”，“解”用在姓氏上應(yīng)讀作“謝”，這都是多音字問(wèn)題；還有“一會(huì)兒”這類詞，不能讀成三個(gè)字，后兩個(gè)字應(yīng)合并為兒化音，這是語(yǔ)言習(xí)慣問(wèn)題。聲學(xué)模型負(fù)責(zé)為語(yǔ)音賦予韻律，比如語(yǔ)速、語(yǔ)調(diào)、停頓、重音和情緒變化等。最后一部分聲碼器負(fù)責(zé)還原語(yǔ)音的聲學(xué)特征，也就是一般所說(shuō)的嗓音或聲線，如振幅、頻率、波長(zhǎng)等。

深度神經(jīng)網(wǎng)絡(luò)模型是當(dāng)前最先進(jìn)的語(yǔ)音合成技術(shù)，但相應(yīng)的主流產(chǎn)品在合成效率、效果，以及所需聲音樣本量上，卻存在很大差異。以樣本量為例，微軟的語(yǔ)音合成定制技術(shù)處于行業(yè)領(lǐng)先地位，一般情況下，只需要不超過(guò)2000句的內(nèi)容，就可以做到非常逼真的還原。那么，在周迅的案例中，是如何做到只需500句甚至更少的聲音素材就達(dá)到類似效果呢？微軟還有一個(gè)“殺器”——通用模型。通用模型是在對(duì)海量語(yǔ)料庫(kù)進(jìn)行大數(shù)據(jù)分析的基礎(chǔ)上，不斷訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)人類語(yǔ)言與發(fā)聲特征后得到的。目前微軟通用語(yǔ)料庫(kù)的容量已經(jīng)超過(guò)3000小時(shí)，覆蓋了50多個(gè)語(yǔ)種，通過(guò)它提煉出來(lái)的通用模型已經(jīng)熟練掌握了這50多種語(yǔ)言的幾乎全部發(fā)聲規(guī)律，甚至包括真人說(shuō)話時(shí)換氣和咽口水的細(xì)節(jié)都可以模仿出來(lái)。當(dāng)微軟需要基于像周迅這樣只有500句話甚至更少內(nèi)容的語(yǔ)料庫(kù)做語(yǔ)音定制時(shí)，便可以在通用模型基礎(chǔ)上，通過(guò)遷移學(xué)習(xí)法來(lái)建立周迅聲音的擴(kuò)展模型。

目前，微軟的語(yǔ)音合成定制系統(tǒng)只需要半小時(shí)左右的聲音樣本便可建立定制語(yǔ)音模型，與傳統(tǒng)TTS建模所需的至少10小時(shí)或10000句的聲音樣本量相比，是一個(gè)從量到質(zhì)的飛躍。這一飛躍使得面向更多的企業(yè)甚至于普通消費(fèi)者的個(gè)人聲音定制成為可能。

微軟之所以能在語(yǔ)音合成領(lǐng)域保持領(lǐng)先地位，主要得益于其20多年來(lái)在算法和定制模型上所積累的深厚功力。自從1991年微軟研究院成立以來(lái)，微軟一直將語(yǔ)音作為主要的研究領(lǐng)域，儲(chǔ)備、積累了大量的人工智能相關(guān)技術(shù)。2018年9月，微軟率先開始測(cè)試基于深度神經(jīng)網(wǎng)絡(luò)的端到端語(yǔ)音合成系統(tǒng)，為人工智能語(yǔ)音技術(shù)的發(fā)展揭開了新的一頁(yè)。

前不久，微軟將其定制的通用中文發(fā)聲與市場(chǎng)上的主流產(chǎn)品進(jìn)行了盲測(cè)對(duì)比，微軟的MOS得分（5分制）為4.35，居于領(lǐng)先地位，表明合成語(yǔ)音與真人聲音已經(jīng)非常接近（真人的MOS得分為4.41）。

除了語(yǔ)音助手和有聲書籍錄制外，語(yǔ)音合成技術(shù)還廣泛應(yīng)用于智能語(yǔ)音客服領(lǐng)域，這也是微軟目前在to B領(lǐng)域的主要發(fā)力點(diǎn)，比如很多航空公司、電商平臺(tái)、電信運(yùn)營(yíng)商等都在嘗試使用微軟的智能語(yǔ)音客服來(lái)緩解人工壓力。智能語(yǔ)音客服可以解決很多常見的標(biāo)準(zhǔn)化問(wèn)題，減少客戶的等待時(shí)間，為客戶帶來(lái)更好的服務(wù)體驗(yàn)。在應(yīng)對(duì)突發(fā)事件方面，智能語(yǔ)音客服更有得天獨(dú)厚的優(yōu)勢(shì)，很多突發(fā)事件都會(huì)造成客戶咨詢量在短時(shí)間內(nèi)爆發(fā)式增長(zhǎng)，在這種情況下，企業(yè)如果增設(shè)人工客服，一方面可能在時(shí)間上來(lái)不及，另一方面?zhèn)}促上崗也可能導(dǎo)致服務(wù)質(zhì)量的難以保證。

目前，微軟為企業(yè)定制智能語(yǔ)音客服大致需要300至2000句語(yǔ)料訓(xùn)練，以滿足特定應(yīng)用場(chǎng)景的需求；對(duì)于需要定制適用于多場(chǎng)景、富有多種情緒甚至涵蓋多語(yǔ)種的品牌聲音的企業(yè)而言，語(yǔ)料訓(xùn)練則有更高要求。

上述兩種定制目前都會(huì)有人工參與測(cè)試和適當(dāng)調(diào)校并向客戶提供靈活的接入方式，即通過(guò)API或SDK接入微軟的Azure公有云，實(shí)現(xiàn)端到端的實(shí)時(shí)合成。如果客戶有特殊需求，產(chǎn)品也可部署在私有云甚至離線設(shè)備中。未來(lái)，這兩種系統(tǒng)都將實(shí)現(xiàn)自動(dòng)化定制。實(shí)際上，微軟已經(jīng)邀請(qǐng)合作伙伴開始小范圍的自動(dòng)化系統(tǒng)測(cè)試，可能在不久的將來(lái)正式發(fā)布此系列產(chǎn)品。

可以預(yù)期，伴隨著相關(guān)技術(shù)的發(fā)展，智能語(yǔ)音在個(gè)人及商業(yè)領(lǐng)域中的應(yīng)用場(chǎng)景將更加豐富，不斷細(xì)分的合成語(yǔ)音服務(wù)也會(huì)給我們帶來(lái)更多的體驗(yàn)和驚喜。同時(shí)，微軟提出了人工智能六項(xiàng)倫理道德準(zhǔn)則：公平、可靠和安全、隱私和保證、包容、透明和責(zé)任。倡導(dǎo)負(fù)責(zé)任的人工智能。這些原則將為人工智能的發(fā)展保駕護(hù)航，予力全球每一人、每一組織，成就不凡！

直播鏈接:https://live.bilibili.com/h5/4306336

*本文圖片均來(lái)源于網(wǎng)絡(luò)

智能相對(duì)論（微信ID:aixdlun）：

?AI產(chǎn)業(yè)新媒體;

?今日頭條青云計(jì)劃獲獎(jiǎng)?wù)逿OP10;

?澎湃新聞科技榜單月度top5;

?文章長(zhǎng)期“霸占”鈦媒體熱門文章排行榜TOP10;

?著有《人工智能十萬(wàn)個(gè)為什么》

?【重點(diǎn)關(guān)注領(lǐng)域】智能家電（含白電、黑電、智能手機(jī)、無(wú)人機(jī)等AIoT設(shè)備）、智能駕駛、AI+醫(yī)療、機(jī)器人、物聯(lián)網(wǎng)、AI+金融、AI+教育、AR/VR、云計(jì)算、開發(fā)者以及背后的芯片、算法等。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

下一篇

阿斯麥訂單“腰斬”股價(jià)暴跌16%，半導(dǎo)體產(chǎn)業(yè)寒冬來(lái)了？

阿斯麥訂單腰斬阿斯麥訂單阿斯麥股價(jià)暴跌

極客觀察

專題報(bào)道

企業(yè)專欄

簡(jiǎn)版
原版
投稿
回頂部

2020-11-30

微軟深度神經(jīng)網(wǎng)絡(luò)語(yǔ)音，定制個(gè)性化的自然人聲

這一類應(yīng)用被稱作實(shí)時(shí)語(yǔ)音合成，它對(duì)基于云的計(jì)算力提出了很高的要求，除了需要對(duì)聲音的自然度不斷地進(jìn)行優(yōu)化外，實(shí)時(shí)合成對(duì)于語(yǔ)音合成引擎和平臺(tái)架構(gòu)也都有著極高的要求，必須保障在極低的延遲下，提供準(zhǔn)確、穩(wěn)定、

長(zhǎng)按掃碼閱讀全文