精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    基于深度神經網絡,AI百度地圖突破自身局限

    在人機交互不再滿足于“聽”時,“說”的環(huán)節(jié)變得尤為重要,“怎么說”、“誰來說”成了關鍵按鈕。

    而目前語音產品賽道逐漸進入了常規(guī)化模式,邀請明星出聲也成為了基本操作,相比傳統(tǒng)的機械式AI聲音,真人語音無論是在效果還是情感方面都是無可比擬的,再加上明星效應,用戶的體驗效果將來得更加直觀。

    12月24日,百度地圖官方宣布湯唯正式簽約代言人,同時上線“湯唯導航語音”。在“說”的領域,百度地圖這款“新一代人工智能地圖”又邁出了一步。

    從語音導航到湯唯定制語音,百度地圖“AI+女神”到底進化了什么

    傳統(tǒng)語音導航,是單調無聊的,定制語音將其變?yōu)榱诉^去式。擁有湯唯的柔美聲音作為導航,在體驗上有什么差別?當“前方路段交通擁擠,請小心駕駛”變成“前方行駛緩慢,慢慢欣賞路上風景”,會不會覺得這才是“人性化”服務?

    1、擺脫中性,湯唯帶給我們的不只是女神之聲

    很多人會問,一定要給AI加上性別嗎?不,AI不一定需要性別,但語音最好有。

    以往我們聽到的AI語音都是機械式的聲音,是“中性”或者說是“無性”的聲音,帶來的問題也很直接,就是太冰冷、沒個性。之前也有說到,目前個性化、表現(xiàn)力正是語音合成所追求的方向之一,所以百度地圖帶來的湯唯語音也就不止是一款語音那么簡單??梢哉f湯唯語音從一個功能點體現(xiàn)出結合了人工智能的百度地圖正在變得越來越強大。

    聲音具有和視覺傳達一樣很強的感染力,甚至有時,以聲音為主的交互會帶來更好的沉浸感。

    并且語音合成研究已開始從文字到語音的轉換階段向概念到語音的轉換階段發(fā)展。所涉及的技術也更加復雜,百度地圖就是利用其深度神經網絡技術、深度學習技術,再結合車內應用場景進行打造。例如百度語音合成系統(tǒng)采用的全深度學習的框架,是在語音合成領域首次采用全深度學習框架,實現(xiàn)了語言合成上的個性化、口語化。

    2、語音算法模型讓機器人性化

    女神湯唯之所以能完成高質量的語音包,語音合成技術功不可沒,在龐大的道路信息和交通數(shù)據(jù)之下,誰也無法通過直錄的方式通通記錄,這時就需要靠語音系統(tǒng)來支撐。

    以湯唯語音包來說,就是先錄制湯唯聲音特點的第一手資料,錄制的語句包含一些常見的導航提示語句和一些覆蓋到常見的中文發(fā)音的句子。

    其實無論語音還是文字,在計算機看來都是數(shù)字化的,語音合成模型的任務就是要建立這兩組數(shù)字之間的關系,通過一系列的計算,將文本的輸入轉化為語音的輸出。首先需要建立一個神經網絡的模型,去學習湯唯錄制的語音和錄音文字之間的映射關系,就好比讓一個不會發(fā)音的孩子學湯唯說話。而在合成時,它就可以讀取導航語句,并大聲朗讀出來了。

    AI浪潮之下,語言合成才是語音技術的高地

    使電腦具有類似于人一樣的說話能力,是當今時代信息產業(yè)的重要競爭市場,不過大家的注意力多集中在語音合成之外。

    1、差點被忽略的“黃金”場景

    目前,語音技術的應用多為了語音喚醒和交互,在智能硬件和軟件上都有很多典型應用——智能音箱、智能電視、智能掃地機器人、百度地圖、百度輸入法等等。但不可否認的是,智能硬件的側重仍在于“語音識別”,對于“語音合成”的應用有,可還不夠深。

    語音合成本是把文本經一系列計算處理后輸出對應音頻,通過機械的、電子的方法產生人造語音技術。因為完美的人機交互體驗無法忽略“說”的環(huán)節(jié),所以語音合成的重要性日益凸顯。

    從早期的機械化語音合成開始發(fā)展至今,語音合成的應用場景也經歷了較大的轉變,以前語音合成應用都是在相對單調的場景,現(xiàn)在應用場景更加復雜,對于語音合成技術的要求自然變得更高。

    例如,在有聲讀物方面,用戶需求越來越個性化,單調的機械聲已經完全不夠;在機場、車站廣播等服務行業(yè),需要的是溫柔、甜美的音質;在辦事機構、窗口機關又需要嚴謹、有力的聲音。而百度地圖上線湯唯語音,也是給在路上的用戶更加磁性、知性的嗓音。

    在外部,車內空間顯然是一塊“寶地”,車內空間的交互可以說是市場剛需,截止到2018年9月,全國機動車保有量已經達到了3.22億輛,機動車駕駛人數(shù)超過了4億人,交互價值巨大。

    百度地圖等加速車內空間交互,是將傳統(tǒng)的“室內交互”做了外延,給百度帶來的也不僅僅是用戶層面的拓寬,更體現(xiàn)出百度搜索之外的野心。

    2、技術上,語音合成一直是語音技術的高山和壁壘

    語音合成可以說是人工智能的“嘴”,是人機交互的基礎,一個沒有“嘴”的人工智能何談什么交互?

    就現(xiàn)階段而言,語音識別已經不再是語音技術的關鍵問題,很多產品的語音識別率都到達了95%以上。但在語音生成上,能讓機器說的話與人類說出來的話相近依舊很難,即便是一些簡單的詞組,你我也能一耳就聽出是機器合成的還是真人播報。

    如果將語音合成技術拆解,可以分為文本分析、韻律分析和聲學分析三個部分,每一個部分都是技術難點。首先需要對文本進行解析,對文本的語言、字符進行分析,提取出文本特征;接著在文本信息的基礎上,要判斷文本信息字符間奏、長度、頻率等多種特征;然后通過聲學模型實現(xiàn)從前端參數(shù)到語音參數(shù)的映射,最后通過聲碼器合成語音。

    而且,目前主流的語音合成方法為統(tǒng)計參數(shù)語音合成和波形拼接的語音合成,統(tǒng)計參數(shù)語音合成由前端文本分析、統(tǒng)計參數(shù)模型和聲碼器三個部分組成,對語料庫的時長要求較低且在合成目標波形時具有較高靈活性,但重建出來的語音比較機械,缺乏自然度。主要為聲碼器在對語音信號建模時舍棄了語音細節(jié),合成的語音相比原始語音丟失部分信息。

    而百度地圖采用的百度語音合成系統(tǒng),可以將很多模塊用深度神經網絡去實現(xiàn),有效解決了使用統(tǒng)計參數(shù)合成時所帶來的問題。

    波形拼接的語音合成不使用聲碼器,直接通過拼接原始錄制語音片段來合成目標語音,相比參數(shù)法,合成的語音更加自然真實。由于直接面向語料庫操作,故對語料時長和基元種類具有較高要求。

    當然,當語音流暢度達到人們預期時,也并不是完結,音質、自然度和情感等要素也依舊需要攻克。

    就拿漢語語音合成來說,目前在單字和詞組一級上,合成語音的可懂度和自然度已基本解決,但是到句子乃至篇章一級時其自然度問題就比較大。

    比如,國內外大多數(shù)語音合成研究是針對文語轉換系統(tǒng),且只能解決以某種朗讀風格將書面語言轉換成口語輸出,缺乏不同年齡、性別特征及語氣、語速的表現(xiàn),更不用說賦予個人的感情色彩。

    3、比起聽得清和聽得懂,“說得好”要求的是更懂人

    正如上文所提到過的,目前大部分產品的語音識別率都達到了95%以上,卻無法像人類一樣表達,其根本原因就是還“不懂人”。

    何為“懂人”?我們人與人之間可以從對方的音量、聲調、語速、用詞等方面聽懂對方的要求、情緒、心情、狀態(tài),這就是所謂的“懂人”。

    說得直白點就是“情感表達”,這是目前而言語音合成技術需要攻克的關鍵要素。

    想要達成這一目標,針對普通生活場景的語音合成是提高情感表達的最佳方式。目前使用語音合成技術播報下天氣或者閱讀簡訊,無疑能合成出完美的語音,但遇到生活化的場景,或者在特定氛圍之下,語音合成的效果就會降低很多。一方面由于系統(tǒng)對韻律信息的捕獲不準確,另一方面由于生成的聲學參數(shù)存在誤差。當語音合成可以完美消化各類生活化的語境時,其應用場景將得到極大的拓寬。

    另外,在語音合成的應用中,大多都是單人、單語言、單語音,如何能由單變多也是語音合成應用中的一大困擾。在“3單”語境的限制下,語言合成技術難以完成應用突破,而目前一些解決“3單”語境的解決方案也不夠完美,或多或少都存在瑕疵,并且也沒有足夠的語料素材來進行支撐。

    如何使計算機算法能夠自適應技術實現(xiàn)任意說話人、不同風格的高質量語音合成,如何充分挖掘不同語言的發(fā)音空間,在語料受限條件下實現(xiàn)多語言語音合成,也是語音合成現(xiàn)階段的一大挑戰(zhàn)。

    百度地圖在深度神經網絡技術的支撐下,已經開始對“3單”語境作出反應,并已收到成效,百度語音合成開始支持中文英文混讀,可以提供數(shù)十種不同音色,更支持語速、音調、音量設置。這些技術活功能上的增加,無疑將給語音合成帶來更加廣闊的想象空間。

    近年來,在語音技術行業(yè)中開始流行一句話:“得語音合成者得天下”,百度地圖此時牽手國民女神,導航語音全量上線似乎也在卡這個時間點。

    12下一頁>

    (免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
    任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )

    贊助商
    2019-01-02
    基于深度神經網絡,AI百度地圖突破自身局限
    在人機交互不再滿足于“聽”時,“說”的環(huán)節(jié)變得尤為重要,“怎么說”、“誰來說”成了關鍵按鈕。

    長按掃碼 閱讀全文