最近,百度終于推出了DeepVoice的“最終版”,并聲稱最終版可以在每半個小時內完成對10000種語音的數據學習。
DeepVoice作為一個完全有深度神經網絡構建的高質量語音轉文本系統(tǒng),能夠用于智能手機地圖與語音軟件;能夠實現游戲角色由玩家自己合成聲音,從而替代原聲配音;還能夠用于音樂合成供娛樂消遣。但目前百度DeepVoice產出的口音,其合成感還是很明顯。
百度于今年2月份推出的DeepVoice第一代,與神經文本到語音(TTS)系統(tǒng)不同,它只能學習較短的句子,并且系統(tǒng)每次只能學習一種聲音,在數個小時后才能掌握。
在今年5月份推出的DeepVoice2,模仿口音時間有所提高,大約一個小時內即可模仿出一種口音。單系統(tǒng)即可以學習數百種不同的口音,同時實現高音質。
如今推出的DeepVoice最終版,效率極大提高,可以在半個小時內完成對10000種語音數據的學習。但是,百度表示“最終版”仍然有進步空間,他們要制造出一種能夠掌握多種口音或能捕捉字符間細微差別的系統(tǒng),以使得語音合成系統(tǒng)用處更廣泛,學習聲音真實程度更高,錯誤率降低。
除了百度之外,Google、Apple和Amazon都有相關的語音合成研發(fā)產品。Google旗下的DeepMind,一直在進行一個名叫WaveNet的類似項目。最新版本的WaveNet已經能夠在掌握口音方面做到真實、高效,甚至可以像真人那樣產生“唇音”。可見,百度的語音合成軟件的研發(fā)之路還很長遠。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )