文|吳俊宇
今天是五四青年節(jié),提及青年節(jié),就不得不說“德先生”和“賽先生”。
100年前的五四運(yùn)動中,響徹著“只有德先生、賽先生可以救中國”的口號。
“德先生”,即“Democracy”,德莫克拉西(音譯)——意指先進(jìn)的思想。
“賽先生”,即“Science”,賽因斯(音譯)——意為,“科學(xué)”,所謂“科學(xué)”是指近代自然科學(xué)法則和科學(xué)精神。
今年央視五四晚會的主持人包括“賽先生”——春晚紅包之后,央視和百度再攜手五四晚會百度大腦AI虛擬主持人“小靈”。
這個虛擬主持人和主持人王俊凱、尼格買提同臺競技,絲毫不落下風(fēng)。
“小靈”背后的技術(shù)提供就是百度大腦,其中糅合了百度視覺、語音、大數(shù)據(jù)以及AR能力,打通了大小屏,讓每個電視機(jī)前的觀眾不僅可以看到晚會中的虛擬主持人,還能直接與它進(jìn)行互動體驗(yàn)。
當(dāng)年五四運(yùn)動的“總司令”陳獨(dú)秀如果見到“小靈”,恐怕也會驚嘆今天中國技術(shù)之強(qiáng)大。
一
技術(shù)秀在哪兒
在五四晚會中,主持人“小靈”邀請旁邊的真人主持人用人臉識別測測自己是祖國的什么花。女主持人和“小靈”的互動非常自然流暢。
很多觀眾有個非常強(qiáng)烈的感受——這個AI主持人似乎遠(yuǎn)比市面上其他AI主持人更細(xì)膩。
其他AI主持人似乎都是機(jī)器人腔,而且發(fā)聲時嘴巴只是一張一合,明顯對不上號。百度大腦這個AI主持人,怎么看怎么覺得舒服。
要做到“舒服”可不容易,這需要語音、表情、唇動這些技術(shù)都擬合在一起。
1、語音音色要自然
一般AI語音背后都有個語音庫。我在谷歌AI博客上找了下AI語音合成的技術(shù)模型圖。
大概翻譯一些這個圖的意思:AI語音庫制作的步驟大概是三步。
第一步是將文本變成音頻,先確定音色、風(fēng)格、使用領(lǐng)域、產(chǎn)品特性、角色要求。
第二步找到配音員試音,根據(jù)需求設(shè)計試音文本,收集錄音。
第三步是確投入音庫生產(chǎn)線,錄音腳本設(shè)計、錄音資源訓(xùn)練、效果優(yōu)化、豐富音色。
百度大腦為此準(zhǔn)備了幾十個音庫,找播音主持專業(yè)的學(xué)生專業(yè)錄制了各式各樣的聲音,具備非常豐富的音色矩陣。
每個音庫只要用戶喜歡,都可以做成一個虛擬主播、虛擬人物的形象。這背后的技術(shù)其實(shí)基于業(yè)界領(lǐng)先的深度神經(jīng)網(wǎng)絡(luò)技術(shù),提供高度擬人、流暢自然的語音合成服務(wù),可以讓應(yīng)用、設(shè)備開口說話,更具個性。
我在百度大腦AI開放平臺找到了百度大腦AI開放平臺語音合成技術(shù)的體驗(yàn)區(qū)。以度逍遙這個情感男聲為例測試了一句話:今年是五四運(yùn)動一百周年。
這個男聲有著非常明顯的特點(diǎn),非常舒服渾厚的京腔,不知道的人還以為是一個播音主持人在和自己說話。
可以說,百度機(jī)器學(xué)習(xí)模型的研究上取得了突破性成果,其生成的仿人類語音更加逼真自然,將仿人類語音與真實(shí)人類聲音之間的差異大大減小了。
2、表情唇動要豐富
人的表情,其實(shí)是由面部肌肉以及唇動共同組成的,不同人有不同肌肉動作。
以下面這張圖為例,人可能有千百種表情,不同人在表達(dá)喜悅、恐懼、得意、焦慮的時候,表情都不一樣。
真的把表情交到人類面前時,我們都不一定可以把不同表情做準(zhǔn)確歸類。
但是機(jī)器可以做到啊?;诖罅康拿娌刻卣鞯臄?shù)據(jù)學(xué)習(xí)去做提取,機(jī)器可以把面部肌肉、唇部動作最細(xì)膩的表現(xiàn)都展開學(xué)習(xí)、歸納,然后從中總結(jié),學(xué)習(xí)人類的表情特征。
在需要輸出的時候,再用深度學(xué)習(xí)做表情驅(qū)動,使得表情更加豐富,甚至連發(fā)色、年齡都可以自動生成。
百度大腦的技術(shù)邏輯和這個其實(shí)也基本大同小異。
百度大腦AI開放平臺上提到,百度大腦在檢測出人臉后,可對人臉進(jìn)行分析,獲得眼、口、鼻輪廓等150個關(guān)鍵點(diǎn)定位,準(zhǔn)確識別多種人臉屬性,如性別,年齡,表情等信息。這個技術(shù)還可適應(yīng)大角度側(cè)臉,遮擋,模糊,表情變化等各種實(shí)際環(huán)境。
百度大腦把聲音、表情、嘴唇的這些素材經(jīng)過了數(shù)據(jù)采集、特征分析、模型訓(xùn)練,用深度學(xué)習(xí)的一些核心算法和思想做了唇動技術(shù),讓唇動、表情和語音更好的用不同的特征表示聯(lián)系在一起。
過去其他的AI主持人只是有一個語音庫,表情和唇動非常初級,百度等于是把三項(xiàng)技術(shù)全部都擬合在一起了,而且再通過AR技術(shù)輸出出來,比別的廠商想得更多、更細(xì)。
二
產(chǎn)品用在哪兒
你以為百度大腦的AI主持人只能用于這種晚會主持?
當(dāng)然不止于此。它背后涉及的技術(shù)包括面部識別、語音合成、AR輸出等等。這些AI技術(shù)可以組合成不同的產(chǎn)品,開放給其他客戶使用,幫助行業(yè)客戶改善服務(wù)、提升效率。
事實(shí)上,依托于百度大腦的百度AR Lab(百度增強(qiáng)現(xiàn)實(shí)實(shí)驗(yàn)室),就在提供AR技術(shù)、產(chǎn)品、服務(wù)一站式智能交互解決方案,業(yè)務(wù)已廣泛覆蓋營銷、娛樂、教育、文化等各個領(lǐng)域。
1、教育和閱讀類產(chǎn)品:讓課程和講解變得更生動
通過閱讀類APP閱讀小說或新聞時,如果使用語音合成技術(shù)為用戶提供多種發(fā)音人的朗讀功能,釋放雙手和雙眼,獲得更極致的閱讀體驗(yàn)。
實(shí)際上,熊貓看書、快聽小說已經(jīng)在使用百度大腦這項(xiàng)技術(shù)。用戶可以直接用語音播放電子書中的內(nèi)容。
教育類的客戶同樣可以引入這樣的AI主持人,在一些兒童故事機(jī)、智能機(jī)器人這類教育類設(shè)備或課程之中定制屬于自家產(chǎn)品的形象、聲音,讓課程變得更親切。
深圳一家名為AiMouse的智能鼠標(biāo)廠商以及Kido兒童手表品牌都使用了百度這項(xiàng)技術(shù)。Kido通過運(yùn)用百度語音識別和語音合成技術(shù),優(yōu)化了機(jī)器人的語音交互體驗(yàn),讓兒童手表實(shí)現(xiàn)語音交互。這款手表的日活躍量也達(dá)到了百萬級別。
2、生活和服務(wù)類產(chǎn)品:讓服務(wù)交互效率得以提升
語音合成還可應(yīng)用于打車軟件、餐飲叫號、排隊(duì)軟件等場景,通過語音合成進(jìn)行訂單播報,讓用戶便捷獲得通知信息。面部識別則是可以展開顧客識別、訂單校對。
不管是語音合成還是面部識別,都天然適合服務(wù)業(yè)場景。一些酒店、飯店等服務(wù)業(yè)可以定制一些屬于自己的機(jī)器人,幫助顧客做客服。在訂單校驗(yàn)的過程中則是可以用顧客的面部特征為基礎(chǔ)展開服務(wù)。
嘀嗒出行出租車業(yè)務(wù)的“聽單”以及順風(fēng)車業(yè)務(wù)的“聽單功能+派單服務(wù)”中都用到了百度的語音合成技術(shù)。
從2017年10月開始接入百度語音合成SDK。隨著嘀嗒業(yè)務(wù)的增長,調(diào)用量每日都在攀升,日調(diào)用超過千萬次以上,而錯誤率幾乎為零。百度語音合成技術(shù)保證了核心派單功能的穩(wěn)定服務(wù)。
3、影視文娛產(chǎn)業(yè):節(jié)省動漫動畫行業(yè)的人力
影視、動漫行業(yè)未來效率也能因百度大腦這套AI技術(shù)得到很大提升。
過去動漫、影視劇行業(yè)為了給動畫人物唇形、表情,必須手動一點(diǎn)點(diǎn)調(diào)整,而且很看動畫師主觀的思考。
百度這一套技術(shù)輸出給動漫行業(yè)的話,直接機(jī)器生成就OK,動畫師后期修改也很方便。程序驅(qū)動以后,動畫人物語言的唇動連續(xù)性也是完全一樣的。不會出現(xiàn)在說同一個詞匯時出現(xiàn)不同唇動的現(xiàn)象。
影視劇、動漫產(chǎn)業(yè)的動畫師未來可以把更多精力放在更多有價值的工作上,這樣不僅可以節(jié)省人工成本,還縮短了工作時間。
當(dāng)然,文中列舉的這些案例完全不能概括面部識別、語音合成、AR這些技術(shù)融合帶來的應(yīng)用場景。
我列舉這些案例的意思是,你只有非常努力,才能看起來毫不費(fèi)勁。
三
百度領(lǐng)軍“賽先生”
央視五四晚會上這個AI主持人表面上看起來只是在主持一檔晚會。實(shí)際上它所需要用到的AI技術(shù)底蘊(yùn)深厚,放到各行各業(yè)可以有更大的實(shí)際效益。
這也正如美國軟件技術(shù)專家艾德·伯內(nèi)特說過的一句話:
現(xiàn)在天上有三十一顆衛(wèi)星在地球上空環(huán)繞,不為別的,就為了告訴你便利店怎么走。
如果你只看到了手機(jī)地圖上的便利店要怎么走,你顯然低估了很多事情。
因?yàn)樘焐夏侨活w衛(wèi)星不僅僅在服務(wù)你,更在服務(wù)各行各業(yè)——那才是你沒看到的東西。
英國學(xué)者李約瑟(Joseph Needham)在編著的《中國科學(xué)技術(shù)史》中提出此問題:
盡管中國古代對人類科技發(fā)展做出重要貢獻(xiàn),但為什么科學(xué)和工業(yè)革命沒有在近代中國發(fā)生?
作為享譽(yù)世界的文明古國,在技術(shù)上有過那么多自豪成就。明明自己發(fā)明了火藥,卻被八國聯(lián)軍炸掉了封建牌坊;明明發(fā)明了指南針,卻被英國的戰(zhàn)列艦找上門來。
100年前的五四運(yùn)動就是探尋這個答案的過程。五四青年們因?yàn)閲曳e貧積弱,走上呼喚“德先生”和“賽先生”的道路。
可以說,德先生和賽先生,是推動中國社會前進(jìn)的兩個車輪。
在今天,全世界范圍內(nèi)同樣在展開一場圍繞著“賽先生”的競爭——未來20年,是AI的時代,AI就是當(dāng)代“賽先生”。
百度為代表中國企業(yè)在AI領(lǐng)域已經(jīng)不遑多讓,多年以前呼吁的“賽先生”已經(jīng)不是短板。“賽先生”甚至正在成為今天中國走到世界技術(shù)之巔的重要基石。
以AI為代表的“賽先生”讓萬事萬物都處于精確計算之中,正如當(dāng)代哲學(xué)家西閃《國家的計算》所說的:
在現(xiàn)實(shí)世界的“賭局”中,帕斯卡的上帝已經(jīng)隱退,取而代之的,是作為信仰的“未來”。它像一個永恒的獎杯,在時間的盡頭閃閃發(fā)光。計算則取代了程式化的行為訓(xùn)練,演變成為一種新的思維習(xí)慣?!袄硇缘挠嬎恪币呀?jīng)成了是近現(xiàn)代的過程最主要的特征。
五四運(yùn)動的倡導(dǎo)者陳獨(dú)秀如果看到中國科技企業(yè)把“賽先生”搞得這么強(qiáng),怕是也要說一句,“你真秀!”
----------------------------------------------
作者 | 吳俊宇 公眾號 | 深幾度
作者系獨(dú)立撰稿人,微信號852405518
關(guān)注科技公司、互聯(lián)網(wǎng)現(xiàn)象的解讀
曾獲鈦媒體2015、2016、2018年度作者
新浪創(chuàng)事記2018年度十大作者
品途網(wǎng)2016年度十大作者
騰訊科技2015年度最具影響力自媒體
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機(jī)“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車整車股盤初強(qiáng)勢拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。