精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

首頁
熱搜
人物
明星
媒體
友推
快訊

供應(yīng)商
小紅書
回首頁

資訊
極客熱點
企業(yè)動態(tài)
友推福利
友媒專區(qū)

軟件
PC軟件
移動APP
操作系統(tǒng)
工業(yè)軟件

酷玩
手機數(shù)碼
明星腕表
極客游戲
智能汽車
時尚輕奢

創(chuàng)業(yè)
創(chuàng)業(yè)頭條
創(chuàng)業(yè)學(xué)院
項目招商
工作機會
兼職副業(yè)

極客網(wǎng) > 每日熱讀 >

智能互聯(lián)網(wǎng)時代來臨，最先爆發(fā)的AI應(yīng)用會是語音嗎？

人閱讀
2016-11-23 22:07:00
相關(guān)關(guān)鍵詞

移動互聯(lián)網(wǎng)之后智能互聯(lián)網(wǎng)時代已然來臨。不過，究竟什么是人工智能？AlphaGo戰(zhàn)勝人類棋手除了可以作為談資之外其實與大多數(shù)人沒關(guān)系，用人工智能技術(shù)調(diào)度外賣配送員我們普通人也感受不到其威力。在我看來，人工智能技術(shù)最典型且最先普及的應(yīng)該是語音——如果說人工智能是互聯(lián)網(wǎng)上的皇冠，那么，語音技術(shù)就是這顆皇冠上最璀璨的那顆明珠。

種種跡象表明，智能語音正在改變我們的生活或者生產(chǎn)方式：

在上海一家肯德基餐廳內(nèi)，度秘可接收顧客的語音命令幫客人點餐；

Amazon Echo和Google Home為代表的智能音箱，正在成為家庭的新入口；

阿里云棲大會和天貓雙11晚會上，演講嘉賓的話被實時轉(zhuǎn)化為文字，準(zhǔn)確率近100%；

錘子M1L發(fā)布時，訊飛語音輸入法成為這場發(fā)布會的最大亮點；

手機天貓的商品評論功能已經(jīng)支持語音輸入，大幅提升了用戶的評論意愿；

……

由于更加自然、快速和簡單，語音正在逐步取代“打字”成為主流交互方式，各行各業(yè)都在思考如何利用語音技術(shù)，手機電視等硬件廠商加入語音將之當(dāng)做賣點，O2O服務(wù)平臺加入語音搜索便于用戶下單，電商平臺加入語音評論功能降低互動門檻，售后服務(wù)加入語音降低客服壓力，企業(yè)借助于語音工具記錄會議內(nèi)容……

語音技術(shù)大規(guī)模爆發(fā)

語音進入大眾視野已有許多年歷史，事實上，Siri早在2011年就已經(jīng)發(fā)布，當(dāng)時國內(nèi)也有不少跟隨者，為什么5年之后的今天語音才進入爆發(fā)期呢？最關(guān)鍵的原因在于：

1、技術(shù)進入成熟可用階段。當(dāng)識別率只有90%的時候，語音就會被吐槽為玩具，然而，隨著深度學(xué)習(xí)技術(shù)被引入語音之中，語音技術(shù)就實現(xiàn)了從90%到99%的跨越。百度有基于百度大腦深度學(xué)習(xí)技術(shù)的Deep-Speed技術(shù)，訊飛有“訊飛超腦”，搜狗也與清華大學(xué)聯(lián)合建立人工智能實驗室，人工智能驅(qū)動語音技術(shù)走向成熟，變得可用，是語音技術(shù)今天爆發(fā)的第一個背景。

2、4G網(wǎng)絡(luò)普及速度超預(yù)期。不論是Siri、度秘還是語音輸入法，要能準(zhǔn)確、快速識別出語音的前提是終端要接入網(wǎng)絡(luò)，并且要高速網(wǎng)絡(luò)，4G網(wǎng)絡(luò)在最近兩三年的普及速度超過了所有人的預(yù)期，5G商用也越來越近了，高速的網(wǎng)絡(luò)環(huán)境給語音提供了便利的基礎(chǔ)設(shè)施。

3、大數(shù)據(jù)和云計算普及應(yīng)用。人工智能算法生效的前提是對海量數(shù)據(jù)進行機器學(xué)習(xí)，同時要通過云端大規(guī)模集群進行并發(fā)式計算。語音技術(shù)需要對大量的語料進行計算，大數(shù)據(jù)和云計算在這幾年成為互聯(lián)網(wǎng)基礎(chǔ)設(shè)施，成為語音技術(shù)爆發(fā)的又一個前提。

4、語音應(yīng)用場景大幅增加。這幾年，后移動互聯(lián)網(wǎng)時代迎來了幾波潮流：O2O、智能硬件（智能汽車、智能家居、智能可穿戴等等）還有互聯(lián)網(wǎng)+，這些場景給語音提供了大量的應(yīng)用場景。

語音爆發(fā)在即，開發(fā)者并不具備研發(fā)語音底層技術(shù)的能力，但可以將巨頭開放的語音技術(shù)與自身業(yè)務(wù)緊密結(jié)合，成為語音技術(shù)的應(yīng)用者。市面上有不少語音開放平臺，有的收費、有的免費，現(xiàn)在最普及的語音開放平臺，來自于百度。百度語音平臺在2013年11月正式開放，在當(dāng)時我的看法是“百度語音開放可以成為推動這一市場蓬勃興起的催化劑”，現(xiàn)在看來這是對的。

百度語音開放平臺如何崛起？

11月22日，在百度語音開放平臺三周年大會上，百度首席科學(xué)家吳恩達介紹，百度語音開放之后，2013年每天的在線語音識別請求量是500萬，今天這個數(shù)據(jù)變?yōu)?.4億請求量；在線合成從2014年的1.2千萬到現(xiàn)在超過2億；開發(fā)者數(shù)量從2014年1萬增加到今天超過14萬開發(fā)者，百度的語音開發(fā)者生態(tài)浮出水面。

鑒于11月23日即今天下午是科大訊飛2016年度發(fā)布會，百度語音在11月22日前高調(diào)召開發(fā)布會，截胡之意十分明顯。百度語音開放平臺的玩法，讓我想起百度地圖與高德之爭：百度免費讓高德不得不跟進，最終實現(xiàn)了互聯(lián)網(wǎng)化?？拼笥嶏w2009年成立，百度語音團隊在2012年才成立，作為后來者，百度語音憑什么能做成呢？

第一點，也是非常重要的一點，百度語音率先使用了深度學(xué)習(xí)技術(shù)，進而在語音技術(shù)上取得突破。這是吳恩達加盟百度之后著重做的第一件事情，基于深度學(xué)習(xí)的DeepSpeech2語音識別系統(tǒng)準(zhǔn)確率達到了97%，這個成果被評為MIT評為2016年十大技術(shù)突破，同時，在噪音環(huán)境下的表現(xiàn)很好。在百度大腦被公布之后，訊飛才跟進成立“訊飛超腦”，深度學(xué)習(xí)技術(shù)是百度語音能夠做成的關(guān)鍵?，F(xiàn)在，百度正在語音情感合成、遠(yuǎn)場語音交互、語音喚醒技術(shù)等領(lǐng)域發(fā)力，做深做細(xì)，強化技術(shù)壁壘。

第二點，百度在語義理解技術(shù)上優(yōu)勢明顯。語義理解不只是要求機器聽得到，還要聽得明白，甚至可以基于上下文對話。這需要自然語言處理技術(shù)的配合，去理解識別到的語音中的語義。百度是搜索引擎起家，在自然語言處理尤其是中文處理上優(yōu)勢明顯，再結(jié)合任何智能技術(shù)，在語音交互上有度秘表現(xiàn)比Siri、Google Allo更好，甚至支持多輪交互，在語音應(yīng)用上有自然語言翻譯，這些都體現(xiàn)出百度在語義理解上的優(yōu)勢，百度語音開放平臺也支持50多個垂直領(lǐng)域的語義理解，支持人機多輪對話。

第三點，則是非常獨特的一點，百度不只是有語音開放技術(shù)，開發(fā)者往往會需要使用多種技術(shù)能力，一個App不能只有語音，可能還需要LBS位置能力，百度地圖是最大的開發(fā)者平臺；還有在人工智能上，百度提供語音合成技術(shù)、圖像識別技術(shù)、自然語言處理技術(shù)、用戶畫像技術(shù)以及機器學(xué)習(xí)技術(shù)的開放，這些可能也是開發(fā)者所看中的，這也是百度相對于只提供語音技術(shù)能力的平臺的優(yōu)勢。

第四點，百度所開放的不只是技術(shù)，還有用戶、數(shù)據(jù)和計算資源。許多開放平臺開放的是API，即技術(shù)能力，但開發(fā)者需要的不只是技術(shù)能力，互聯(lián)網(wǎng)巨頭都有自己的生態(tài)，它們可以吸引開發(fā)者的原因就在于用戶、數(shù)據(jù)和計算資源，百度產(chǎn)品矩陣擁有數(shù)億用戶，其中不少用戶有語音習(xí)慣，還有就是用戶行為大數(shù)據(jù)以及云計算資源，這些都是開發(fā)者看重的。

語音大戰(zhàn)新的主戰(zhàn)場是什么？

不過，語音技術(shù)進入爆發(fā)期，還有許多應(yīng)用空間，開發(fā)者有復(fù)雜多樣的需求，百度語音開放平臺將切下一塊蛋糕，但不會吃掉所有的。接下來，語音技術(shù)還有許多重點領(lǐng)域要克服，除了抗噪、口音兩大問題之外，語音接下來的關(guān)鍵競爭點在于：

1、語音喚醒技術(shù)。

我們通過“Hey Siri”“Ok Google”喚醒語音助手，這讓語音助手隨時待命，不過對移動設(shè)備來說有較高的功耗壓力（Google Home和Amazon Echo音箱一直插電，不用考慮功耗問題），還有就是喚醒準(zhǔn)確率存在問題，要么手機聽不到，要么誤判。還有就是喚醒的語句固定、不能區(qū)分用戶身份，體驗不夠好。百度語音開放平臺三周年時選擇開放喚醒二期技術(shù)，功耗是友商的三分之一，喚醒準(zhǔn)確率達95%，支持“茄子”啟動拍照這樣的自定義喚醒詞，相信之后還會引入聲紋識別技術(shù)區(qū)別身份。

2、遠(yuǎn)場語音交互。

現(xiàn)在語音交互技術(shù)對人與設(shè)備之間的距離有要求，要“對著手機說”，這其實是很傻的，我們在生活中與人對話，可不會距離這么近。在家里我們要控制電視機，還得對著遙控板說。遠(yuǎn)場語音交互技術(shù)解決的就是這個問題，它讓機器可以聽到幾米外的人說的話，挑戰(zhàn)也很大，有回音，有噪音，有衰減，百度已經(jīng)自主研發(fā)了支持3-5米的遠(yuǎn)場語音技術(shù)，這意味著之后我們可以睡覺時讓熱水器啟動，或者坐在沙發(fā)上直接對著電視發(fā)號施令了。

3、語音合成技術(shù)。

現(xiàn)在機器說話都很死板，我們很容易聽出來一段話是人還是機器說的。接下來語音合成技術(shù)的關(guān)鍵是，讓機器說話聲音更像真人，不只是“音色”接近真人，而是更有情感，抑揚頓挫、飽含深情。百度語音開放平臺基于大數(shù)據(jù)和深度學(xué)習(xí)建模方式，在情感合成上有較好的表現(xiàn)，語音開放平臺增加的一個新能力就是語音合成技術(shù)。

4、長語音識別。

輸入一大段話的識別，過去對機器來說很有難度，涉及到斷句等諸多方面，現(xiàn)在輸入法，包括大會上演講者的聲音識別都有不錯的表現(xiàn)，這表明長語音識別技術(shù)正趨于成熟。不過，要實現(xiàn)同聲傳譯、用語音發(fā)郵件、寫文章，甚至進行會議紀(jì)要，短期內(nèi)還是很困難的，李彥宏、王小川等大佬們的說法也是“未來會取代同聲傳譯”。當(dāng)然，隨著長語音識別技術(shù)的成熟，接下來語音還有更多應(yīng)用場景，比如智能客服、內(nèi)容紀(jì)要等等，取代同聲傳譯不會這么快，但是最終一定會。

5、語義理解技術(shù)。

語義理解能力進一步提升，中文博大精深，很多話文字一樣，不同場景表達意思不一樣，語音技術(shù)要跟場景結(jié)合去理解語義，還要結(jié)合上下文。甚至要跟別的智能技術(shù)結(jié)合去理解，比如用戶可能會指著一個物體說“請問它的英文怎么說”，只有語音技術(shù)就解決不了這樣的交互，還得有圖像識別技術(shù)；再比如用戶會問“我們這里的天氣怎么樣”，這需要LBS技術(shù)的配合?？傊?，基于場景、結(jié)合人工智能綜合技術(shù)的語義理解，可能會是語音技術(shù)接下來攻克的重點。

每個行業(yè)都在利用人工智能技術(shù)，而人工智能里面最先普及的，必然會是語音技術(shù)。隨著IoT時代到來，越來越多的聯(lián)網(wǎng)設(shè)備會遍布在我們周圍，手機、電視、電燈、汽車…都會具備語音交互能力，隨時待命，聆聽我們的聲音并做出響應(yīng)。因為語音技術(shù)的成熟，我們與這個世界對話將越來越多，我們的雙手將被解放，我們的世界將更加美好，未來已來。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

下一篇

拼多多高質(zhì)量發(fā)展戰(zhàn)略再升級：成立“商家權(quán)益保護委員會”，深化新質(zhì)供給

拼多多

極客觀察

專題報道

企業(yè)專欄

簡版
原版
投稿
回頂部

2016-11-23

智能互聯(lián)網(wǎng)時代來臨，最先爆發(fā)的AI應(yīng)用會是語音嗎？

每個行業(yè)都在利用人工智能技術(shù)，而人工智能里面最先普及的，必然會是語音技術(shù)。

長按掃碼閱讀全文