7月11日,王小川在香港RISE科技大會上秀了一把搜狗的AI黑科技, 其中最為吸睛的要屬首次亮相的搜狗全球首個虛擬主播。
個人認為搜狗選擇在此時推出虛擬主播技術(shù)或是有自己獨特的考量。搜狗在前幾天剛拿下Blizzard Challenge 2018 語音合成大賽的冠軍,而在上個月,搜狗的視覺研究團隊獲得了CVPR WAD2018 挑戰(zhàn)賽冠軍。
前者是語音合成領(lǐng)域最具權(quán)威性、廣泛性的國際評測比賽之一,每年都吸引眾多國際一流的科研單位和一流企業(yè)參賽。后者則是國際上唯一以自動駕駛視覺為核心的頂級評測大賽,以數(shù)據(jù)規(guī)模大、難度高著稱。
在人工智能大賽上接連折桂后,搜狗再度推出虛擬主播技術(shù),更容易給外界傳遞搜狗已逐步建立起獨一無二的人工智能技術(shù)的訊號。
以假亂真 搜狗虛擬主播拓展AI新邊界
那么虛擬主播到底是什么?長什么樣?王小川在RISE大會上為大家做了最直觀的解答。
"2018年7月9日,RISE大會再次降臨香港。"這是央視新聞主播姚雪松同步播報大會新聞的聲音,屏幕上還顯示出姚雪松的臉,連唇語都能全部對上。不過,屏幕上并非姚雪松本人,而是一個虛擬主播。
音視頻中的"姚雪松"通過對姚雪松真人數(shù)十個小時的音視頻素材進行訓練與計算,按照文本生成一段音視頻同步新聞在RISE大會上播報,看起來聽起來都與真人播報無異。
搜狗虛擬主播背后的技術(shù)結(jié)合了人臉識別、人臉建模、語音合成以及深度學習等多項前沿技術(shù),能將任意文本轉(zhuǎn)化為相應的唇語,為用戶提供多模態(tài)的交互體驗并具備高度的可定制性。簡單來說,虛擬主播可以模仿你的聲音和說話方式,"復制"你的容貌和面部表情并生成一個"你",對任意的文本進行播報,當然這個"你"是以音視頻的方式出現(xiàn)。
不得不說,搜狗虛擬主播已經(jīng)達到以假亂真的程度,這是全球首個高度實用化、定制化的虛擬主播。
虛擬主播技術(shù)的應用場景也非常廣泛。首先,作為具備視頻內(nèi)容生產(chǎn)能力的一項技術(shù),該技術(shù)可以運用在諸如新聞、媒體內(nèi)容等場景中,自動實時快捷地生成富媒體內(nèi)容。
另外,結(jié)合搜狗語音交互系統(tǒng)知音OS能力,可以讓虛擬主播具備交互能力,虛擬主播技術(shù)可以應用于教育、醫(yī)療、客服等多個行業(yè),節(jié)約大量的人力成本,還可以應用于各種具備交互能力的智能軟硬件。
最后,虛擬主播技術(shù)還能根據(jù)用戶上傳的單張人物圖片(明星、朋友、家人等)實時生成該人物的虛擬主播形象,用戶可以與其面對面交流。
值得一提的是,搜狗還會繼續(xù)提升虛擬主播的能力,包括豐富虛擬主播的內(nèi)容方式,應用到媒體內(nèi)容服務、新聞機構(gòu);和語音交互進行結(jié)合,生成虛擬個人助理的形象,提升人機交互體驗等等。而這樣的提升又會促使虛擬主播技術(shù)應用到更廣泛的領(lǐng)域。
虛擬主播在技術(shù)上的實現(xiàn)意味著AI具有了更豐富的表達方式,從文字表達走向音視頻的富媒體表達,刷新了AI的邊界。虛擬主播究竟會以何種方式滲入我們?nèi)祟惖纳顣翰豢芍?,不過隨著AI技術(shù)的不斷突破,未來虛擬主播打破次元壁和時空,從而無處不在,也不是沒有可能。
以語言為核心的搜狗AI戰(zhàn)略布局
從搜狗搜索到搜狗虛擬主播,背后其實是搜狗以語言為核心的AI戰(zhàn)略布局。
王小川在RISE大會上說,AI時代企業(yè)要做的不是多面開花,而應該認準戰(zhàn)略方向讓技術(shù)有的放矢。搜狗認準的這個戰(zhàn)略方向就是語言。
回顧搜狗本身的核心產(chǎn)品,一款是搜狗輸入法,另一款是搜狗搜索引擎。前者用語言表達思想,后者本身也是在處理語言,加之近年來搜狗圍繞語言處理出了不少智能硬件,足以看出搜狗在語言領(lǐng)域下的功夫。
事實上,不僅是搜狗,大佬們也紛紛圍繞"語言"布局AI。無論是百箱大戰(zhàn)中Amazon Echo、Google Home等多款圍繞著語音交互打造的智能音箱,還是會打電話的Google Duplex、會辯論的IBM Projector Debater,都聚焦于讓機器擁有"語言"的能力來打入AI終端。
為何大家紛紛下注"語言"呢?
在王小川看來,"語言"是人工智能皇冠上的明珠,也是AI的未來。"語音、圖像通過向量化已經(jīng)可以被深度學習,很好的解決,但語言做為一種符號,它的處理在今天還是依然最具挑戰(zhàn)的事情,掌握一種語言就是掌握了一種靈魂。"
而搜狗一直在圍繞語言主攻兩個產(chǎn)品發(fā)展方向,一種是自然交互,通過語音和圖像讓人跟機器能夠更自由的表達;另一種是知識計算,包括翻譯、問答和對話技術(shù),協(xié)助人類處理語言之間的溝通問題。
這種有的放矢的戰(zhàn)略讓搜狗收獲不少成就。比如,搜狗輸入法已經(jīng)成為中國最大的語音輸入法,日均語音輸入調(diào)用次數(shù)峰值達4億次,可以智能斷句、標點預測,語音識別準確率超過98%。
比如,搜狗運用神經(jīng)網(wǎng)絡機器翻譯技術(shù),加之以上億級雙語平行語料訓練,搜狗翻譯目前已經(jīng)支持61種語言的互譯。搜狗將翻譯技術(shù)拓展到用戶出國和學習工作的使用場景,在今年連續(xù)推出了搜狗旅行翻譯寶和搜狗錄音翻譯筆兩款智能硬件,后者曾被馬化騰、張小龍等多位大佬點贊。
再比如,搜狗的語音合成支持多種音色選擇,通過少量數(shù)據(jù)即可生成說話者自己的合成音色,實現(xiàn)說話人風格的遷移。
搜狗也在嘗試更多前瞻性舉措。比如,王小川判斷未來搜索會升級為問答,輸入法會演化成輔助對話系統(tǒng)。相對應的,搜狗在加碼問答技術(shù),比如搜狗搜索的"立知"功能,未來輸入關(guān)鍵詞或問句后,搜索引擎或?qū)苯咏o出你想了解的答案,人與機器的對話將會更便捷、更高質(zhì)量。
搜狗還會有哪些延伸?
除了對具體AI產(chǎn)品的判斷,王小川對AI整體技術(shù)發(fā)展和產(chǎn)業(yè)落地有這樣的判斷:美國固有的優(yōu)勢在于頂尖的科研技術(shù),而中國的優(yōu)勢在于用戶規(guī)模和應用領(lǐng)域。目前全球已實現(xiàn)知識共享的聯(lián)通,前沿的人工智能學術(shù)論文發(fā)布后,中國可以學習和借鑒前沿的學術(shù)成果,并把它轉(zhuǎn)化為生產(chǎn)力。所以在人工智能領(lǐng)域,中國有機會跟美國在應用層面上齊頭并進。
而搜狗正在發(fā)揮用戶規(guī)模和應用領(lǐng)域的優(yōu)勢,拓展交互能力和計算能力。具體做法是拓寬領(lǐng)域、拓展產(chǎn)品線。
王小川透露,今年年底之前搜狗還會再發(fā)布四款新的智能硬件,搜狗的計算能力將被拓展到醫(yī)療、法律等垂直領(lǐng)域,機器在垂直領(lǐng)域?qū)⒆兊酶勇斆鳌?/p>
當然,這些拓展仍然依托于搜狗輸入法和搜索引擎,并且以語言為核心。
"技術(shù)改變世界"正在成為現(xiàn)實,搜狗在技術(shù)領(lǐng)域的開拓創(chuàng)新正驅(qū)動著技術(shù)的不斷落地。相信在未來,搜狗可以持續(xù)"讓表達和獲取信息更簡單",讓科技真正地惠及人們生活的方方面面。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準AI機器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。