精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    智能互聯(lián)網(wǎng)時代來臨,最先爆發(fā)的AI應(yīng)用會是語音嗎?

    移動互聯(lián)網(wǎng)之后智能互聯(lián)網(wǎng)時代已然來臨。不過,究竟什么是人工智能?AlphaGo戰(zhàn)勝人類棋手除了可以作為談資之外其實與大多數(shù)人沒關(guān)系,用人工智能技術(shù)調(diào)度外賣配送員我們普通人也感受不到其威力。在我看來,人工智能技術(shù)最典型且最先普及的應(yīng)該是語音——如果說人工智能是互聯(lián)網(wǎng)上的皇冠,那么,語音技術(shù)就是這顆皇冠上最璀璨的那顆明珠。

    種種跡象表明,智能語音正在改變我們的生活或者生產(chǎn)方式:

    在上海一家肯德基餐廳內(nèi),度秘可接收顧客的語音命令幫客人點餐;

    Amazon Echo和Google Home為代表的智能音箱,正在成為家庭的新入口;

    阿里云棲大會和天貓雙11晚會上,演講嘉賓的話被實時轉(zhuǎn)化為文字,準(zhǔn)確率近100%;

    錘子M1L發(fā)布時,訊飛語音輸入法成為這場發(fā)布會的最大亮點;

    手機天貓的商品評論功能已經(jīng)支持語音輸入,大幅提升了用戶的評論意愿;

    ……

    由于更加自然、快速和簡單,語音正在逐步取代“打字”成為主流交互方式,各行各業(yè)都在思考如何利用語音技術(shù),手機電視等硬件廠商加入語音將之當(dāng)做賣點,O2O服務(wù)平臺加入語音搜索便于用戶下單,電商平臺加入語音評論功能降低互動門檻,售后服務(wù)加入語音降低客服壓力,企業(yè)借助于語音工具記錄會議內(nèi)容……

    語音技術(shù)大規(guī)模爆發(fā)

    語音進入大眾視野已有許多年歷史,事實上,Siri早在2011年就已經(jīng)發(fā)布,當(dāng)時國內(nèi)也有不少跟隨者,為什么5年之后的今天語音才進入爆發(fā)期呢?最關(guān)鍵的原因在于:

    1、技術(shù)進入成熟可用階段。當(dāng)識別率只有90%的時候,語音就會被吐槽為玩具,然而,隨著深度學(xué)習(xí)技術(shù)被引入語音之中,語音技術(shù)就實現(xiàn)了從90%到99%的跨越。百度有基于百度大腦深度學(xué)習(xí)技術(shù)的Deep-Speed技術(shù),訊飛有“訊飛超腦”,搜狗也與清華大學(xué)聯(lián)合建立人工智能實驗室,人工智能驅(qū)動語音技術(shù)走向成熟,變得可用,是語音技術(shù)今天爆發(fā)的第一個背景。

    2、4G網(wǎng)絡(luò)普及速度超預(yù)期。不論是Siri、度秘還是語音輸入法,要能準(zhǔn)確、快速識別出語音的前提是終端要接入網(wǎng)絡(luò),并且要高速網(wǎng)絡(luò),4G網(wǎng)絡(luò)在最近兩三年的普及速度超過了所有人的預(yù)期,5G商用也越來越近了,高速的網(wǎng)絡(luò)環(huán)境給語音提供了便利的基礎(chǔ)設(shè)施。

    3、大數(shù)據(jù)和云計算普及應(yīng)用。人工智能算法生效的前提是對海量數(shù)據(jù)進行機器學(xué)習(xí),同時要通過云端大規(guī)模集群進行并發(fā)式計算。語音技術(shù)需要對大量的語料進行計算,大數(shù)據(jù)和云計算在這幾年成為互聯(lián)網(wǎng)基礎(chǔ)設(shè)施,成為語音技術(shù)爆發(fā)的又一個前提。

    4、語音應(yīng)用場景大幅增加。這幾年,后移動互聯(lián)網(wǎng)時代迎來了幾波潮流:O2O、智能硬件(智能汽車、智能家居、智能可穿戴等等)還有互聯(lián)網(wǎng)+,這些場景給語音提供了大量的應(yīng)用場景。

    語音爆發(fā)在即,開發(fā)者并不具備研發(fā)語音底層技術(shù)的能力,但可以將巨頭開放的語音技術(shù)與自身業(yè)務(wù)緊密結(jié)合,成為語音技術(shù)的應(yīng)用者。市面上有不少語音開放平臺,有的收費、有的免費,現(xiàn)在最普及的語音開放平臺,來自于百度。百度語音平臺在2013年11月正式開放,在當(dāng)時我的看法是“百度語音開放可以成為推動這一市場蓬勃興起的催化劑”,現(xiàn)在看來這是對的。

    百度語音開放平臺如何崛起?

    11月22日,在百度語音開放平臺三周年大會上,百度首席科學(xué)家吳恩達介紹,百度語音開放之后,2013年每天的在線語音識別請求量是500萬,今天這個數(shù)據(jù)變?yōu)?.4億請求量;在線合成從2014年的1.2千萬到現(xiàn)在超過2億;開發(fā)者數(shù)量從2014年1萬增加到今天超過14萬開發(fā)者,百度的語音開發(fā)者生態(tài)浮出水面。

    鑒于11月23日即今天下午是科大訊飛2016年度發(fā)布會,百度語音在11月22日前高調(diào)召開發(fā)布會,截胡之意十分明顯。百度語音開放平臺的玩法,讓我想起百度地圖與高德之爭:百度免費讓高德不得不跟進,最終實現(xiàn)了互聯(lián)網(wǎng)化??拼笥嶏w2009年成立,百度語音團隊在2012年才成立,作為后來者,百度語音憑什么能做成呢?

    第一點,也是非常重要的一點,百度語音率先使用了深度學(xué)習(xí)技術(shù),進而在語音技術(shù)上取得突破。這是吳恩達加盟百度之后著重做的第一件事情,基于深度學(xué)習(xí)的DeepSpeech2語音識別系統(tǒng)準(zhǔn)確率達到了97%,這個成果被評為MIT評為2016年十大技術(shù)突破,同時,在噪音環(huán)境下的表現(xiàn)很好。在百度大腦被公布之后,訊飛才跟進成立“訊飛超腦”,深度學(xué)習(xí)技術(shù)是百度語音能夠做成的關(guān)鍵?,F(xiàn)在,百度正在語音情感合成、遠(yuǎn)場語音交互、語音喚醒技術(shù)等領(lǐng)域發(fā)力,做深做細(xì),強化技術(shù)壁壘。

    第二點,百度在語義理解技術(shù)上優(yōu)勢明顯。語義理解不只是要求機器聽得到,還要聽得明白,甚至可以基于上下文對話。這需要自然語言處理技術(shù)的配合,去理解識別到的語音中的語義。百度是搜索引擎起家,在自然語言處理尤其是中文處理上優(yōu)勢明顯,再結(jié)合任何智能技術(shù),在語音交互上有度秘表現(xiàn)比Siri、Google Allo更好,甚至支持多輪交互,在語音應(yīng)用上有自然語言翻譯,這些都體現(xiàn)出百度在語義理解上的優(yōu)勢,百度語音開放平臺也支持50多個垂直領(lǐng)域的語義理解,支持人機多輪對話。

    第三點,則是非常獨特的一點,百度不只是有語音開放技術(shù),開發(fā)者往往會需要使用多種技術(shù)能力,一個App不能只有語音,可能還需要LBS位置能力,百度地圖是最大的開發(fā)者平臺;還有在人工智能上,百度提供語音合成技術(shù)、圖像識別技術(shù)、自然語言處理技術(shù)、用戶畫像技術(shù)以及機器學(xué)習(xí)技術(shù)的開放,這些可能也是開發(fā)者所看中的,這也是百度相對于只提供語音技術(shù)能力的平臺的優(yōu)勢。

    第四點,百度所開放的不只是技術(shù),還有用戶、數(shù)據(jù)和計算資源。許多開放平臺開放的是API,即技術(shù)能力,但開發(fā)者需要的不只是技術(shù)能力,互聯(lián)網(wǎng)巨頭都有自己的生態(tài),它們可以吸引開發(fā)者的原因就在于用戶、數(shù)據(jù)和計算資源,百度產(chǎn)品矩陣擁有數(shù)億用戶,其中不少用戶有語音習(xí)慣,還有就是用戶行為大數(shù)據(jù)以及云計算資源,這些都是開發(fā)者看重的。

    語音大戰(zhàn)新的主戰(zhàn)場是什么?

    不過,語音技術(shù)進入爆發(fā)期,還有許多應(yīng)用空間,開發(fā)者有復(fù)雜多樣的需求,百度語音開放平臺將切下一塊蛋糕,但不會吃掉所有的。接下來,語音技術(shù)還有許多重點領(lǐng)域要克服,除了抗噪、口音兩大問題之外,語音接下來的關(guān)鍵競爭點在于:

    1、語音喚醒技術(shù)。

    我們通過“Hey Siri”“Ok Google”喚醒語音助手,這讓語音助手隨時待命,不過對移動設(shè)備來說有較高的功耗壓力(Google Home和Amazon Echo音箱一直插電,不用考慮功耗問題),還有就是喚醒準(zhǔn)確率存在問題,要么手機聽不到,要么誤判。還有就是喚醒的語句固定、不能區(qū)分用戶身份,體驗不夠好。百度語音開放平臺三周年時選擇開放喚醒二期技術(shù),功耗是友商的三分之一,喚醒準(zhǔn)確率達95%,支持“茄子”啟動拍照這樣的自定義喚醒詞,相信之后還會引入聲紋識別技術(shù)區(qū)別身份。

    2、遠(yuǎn)場語音交互。

    現(xiàn)在語音交互技術(shù)對人與設(shè)備之間的距離有要求,要“對著手機說”,這其實是很傻的,我們在生活中與人對話,可不會距離這么近。在家里我們要控制電視機,還得對著遙控板說。遠(yuǎn)場語音交互技術(shù)解決的就是這個問題,它讓機器可以聽到幾米外的人說的話,挑戰(zhàn)也很大,有回音,有噪音,有衰減,百度已經(jīng)自主研發(fā)了支持3-5米的遠(yuǎn)場語音技術(shù),這意味著之后我們可以睡覺時讓熱水器啟動,或者坐在沙發(fā)上直接對著電視發(fā)號施令了。

    3、語音合成技術(shù)。

    現(xiàn)在機器說話都很死板,我們很容易聽出來一段話是人還是機器說的。接下來語音合成技術(shù)的關(guān)鍵是,讓機器說話聲音更像真人,不只是“音色”接近真人,而是更有情感,抑揚頓挫、飽含深情。百度語音開放平臺基于大數(shù)據(jù)和深度學(xué)習(xí)建模方式,在情感合成上有較好的表現(xiàn),語音開放平臺增加的一個新能力就是語音合成技術(shù)。

    4、長語音識別。

    輸入一大段話的識別,過去對機器來說很有難度,涉及到斷句等諸多方面,現(xiàn)在輸入法,包括大會上演講者的聲音識別都有不錯的表現(xiàn),這表明長語音識別技術(shù)正趨于成熟。不過,要實現(xiàn)同聲傳譯、用語音發(fā)郵件、寫文章,甚至進行會議紀(jì)要,短期內(nèi)還是很困難的,李彥宏、王小川等大佬們的說法也是“未來會取代同聲傳譯”。當(dāng)然,隨著長語音識別技術(shù)的成熟,接下來語音還有更多應(yīng)用場景,比如智能客服、內(nèi)容紀(jì)要等等,取代同聲傳譯不會這么快,但是最終一定會。

    5、語義理解技術(shù)。

    語義理解能力進一步提升,中文博大精深,很多話文字一樣,不同場景表達意思不一樣,語音技術(shù)要跟場景結(jié)合去理解語義,還要結(jié)合上下文。甚至要跟別的智能技術(shù)結(jié)合去理解,比如用戶可能會指著一個物體說“請問它的英文怎么說”,只有語音技術(shù)就解決不了這樣的交互,還得有圖像識別技術(shù);再比如用戶會問“我們這里的天氣怎么樣”,這需要LBS技術(shù)的配合??傊?,基于場景、結(jié)合人工智能綜合技術(shù)的語義理解,可能會是語音技術(shù)接下來攻克的重點。

    每個行業(yè)都在利用人工智能技術(shù),而人工智能里面最先普及的,必然會是語音技術(shù)。隨著IoT時代到來,越來越多的聯(lián)網(wǎng)設(shè)備會遍布在我們周圍,手機、電視、電燈、汽車…都會具備語音交互能力,隨時待命,聆聽我們的聲音并做出響應(yīng)。因為語音技術(shù)的成熟,我們與這個世界對話將越來越多,我們的雙手將被解放,我們的世界將更加美好,未來已來。

    免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

    2016-11-23
    智能互聯(lián)網(wǎng)時代來臨,最先爆發(fā)的AI應(yīng)用會是語音嗎?
    每個行業(yè)都在利用人工智能技術(shù),而人工智能里面最先普及的,必然會是語音技術(shù)。

    長按掃碼 閱讀全文