3月29日,在亞洲大數(shù)據(jù)可視分析峰會上,海云數(shù)據(jù)創(chuàng)始人兼CEO馮一村發(fā)布了與重慶市公安科研所共同研發(fā)的唇語識別技術(shù)成果,并現(xiàn)場做了技術(shù)演示。作為人工智能的一個分支,唇語識別是個較少被涉及的領(lǐng)域,此前僅有英文唇語識別相關(guān)技術(shù),而海云數(shù)據(jù)此次展示的技術(shù)問中文唇語識別,準確率已達到70%。
唇語和語音識別非常不一樣,唇語屬于視覺識別和自然語言處理相結(jié)合的范疇,機器需要能識別出人臉、口型、唇部變化,之后再通過唇語識別模型將其所說的話呈現(xiàn)出來。唇語的應(yīng)用范圍相當廣泛,首先能幫助聽力有缺陷的人更好地與外界溝通,其次可以廣泛應(yīng)用在刑事偵查和國家安全領(lǐng)域,人與機器的交互方式,也將在唇語技術(shù)的介入下變得效率更高。甚至有研究者認為,唇語將是最終殺死密碼的一件利器。
與語音識別不同的是,唇語的機器識別從一開始就比人工唇語識別準確率要高好幾倍??梢韵胂笠幌?,隨著唇語識別技術(shù)的發(fā)展,聽力障礙者能夠弄清電視里的播音員在說什么,公安人員搞清千里之外兩個人對話的內(nèi)容,用戶只需動動嘴唇不出聲就可在各個場合進行登錄,過門禁甚至進行消費支付。很多人會把語音作為機器與人進行交互的主要手段,事實上人機交互的方式也許多種多樣,唇語也可以是其中的重要一項。
海云數(shù)據(jù)是國內(nèi)大數(shù)據(jù)可視分析的領(lǐng)軍者,精于將大數(shù)據(jù)成果用可視化的方式呈現(xiàn)出來,創(chuàng)建不到四年已取得優(yōu)異成績,目前在北京、重慶、硅谷、上海等地都建有基地,總部設(shè)在重慶。重慶對于新興產(chǎn)業(yè)的發(fā)展當戰(zhàn)略來做,兩江新區(qū)極力在基礎(chǔ)設(shè)施、營商環(huán)境、政策扶持、財政援助等多方面投入力量,幫助企業(yè)加速發(fā)展,海云數(shù)據(jù)就是其中的重點支持企業(yè)。
在唇語識別方面,谷歌的DeepMind是領(lǐng)先的,與牛津大學(xué)合作開發(fā)唇語識別計算機,通過判斷嘴型來還原真實的語言,但距離應(yīng)用還有一段距離。海運數(shù)據(jù)的唇語識別從時間上看并不比DeepMind晚多少,在英文準確度方面已經(jīng)做到了80%,在中文準確度方面已經(jīng)做到71%,在技術(shù)上也是領(lǐng)先的,在國內(nèi)目前來看也是獨一份,海云數(shù)據(jù)在這個領(lǐng)域已占得先機。
技術(shù)有了,應(yīng)用是個問題,用在哪里需要認真選擇。我們曾看到過很多黑科技,在熱鬧一陣后就歸于沉寂,原因并不是技術(shù)不好,而是應(yīng)用失當。一個好的應(yīng)用場景被挖掘出來,足夠帶動后面更為豐富的應(yīng)用場景出現(xiàn),進而推動這一技術(shù)的推廣普及和商業(yè)化。海云數(shù)據(jù)的唇語識別,首先是要用在公共安全領(lǐng)域的,這個領(lǐng)域?qū)夹g(shù)標準和應(yīng)用的要求較高,在公共安全領(lǐng)域打開頭陣,后面的應(yīng)用面推展就會很容易,實現(xiàn)產(chǎn)品化和商業(yè)化的難度也會降低。
人工智能技術(shù)的研發(fā)成本是非常高的,用市場來帶動研發(fā)是非常明智的選擇。只有應(yīng)用的范圍更廣泛,才能從市場上獲取足夠利益,自有獲取了足夠利益,才能帶動研發(fā)的進一步發(fā)展,讓產(chǎn)品更好用,這是個良性循環(huán)的圈子。海云數(shù)據(jù)在唇語技術(shù)的應(yīng)用上,采取的是簡化路徑的策略,研發(fā)出來就直接投入應(yīng)用,應(yīng)用中發(fā)現(xiàn)問題隨時解決,不斷促進技術(shù)的發(fā)展。人工智能目前發(fā)展速度較快,投入其中的公司必須把握好研發(fā)和市場的關(guān)系才能獲得最終成功。
如果把人工智能比作一間屋子,語音識別、視覺識別等項目就分別是通往這間屋子的入口,也是人機交互的關(guān)鍵。視覺識別能獲取的信息維度更多,使用環(huán)境限制更少,應(yīng)用范圍更廣。海云數(shù)據(jù)認為,下一站就是AI和可視分析的強捆綁和強結(jié)合,先應(yīng)用在公共平安全領(lǐng)域,交通領(lǐng)域,軍工領(lǐng)域,以此打開突破口,再應(yīng)用到一般企業(yè)和個人。這個觀點從根本上來說是符合邏輯的,智能交通等領(lǐng)域的交互肯定更多會依賴于機器視覺識別,而海云數(shù)據(jù)在該領(lǐng)域已是一枝獨秀。
不管是語音識別還是唇語識別,都是機器識別技術(shù)的前端,后端的共同支撐是語義識別。語音識別目前要解決噪音和口音的問題,唇語識別也要解決圖像質(zhì)量和光線的問題,而這都是有待攻克的技術(shù)難題。在當前條件下,讓唇語技術(shù)立刻發(fā)揮作用是不現(xiàn)實的,需要更多的優(yōu)化和技術(shù)上的突破,不過好在與世界先進水平相比,中國的技術(shù)并不落后,產(chǎn)業(yè)發(fā)展的環(huán)境也持續(xù)向好,隨著海云數(shù)據(jù)這樣的創(chuàng)新性企業(yè)越來越多,會有越來越多的中國技術(shù)領(lǐng)先世界。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 蘋果開啟年終大促,降價1200元,被國產(chǎn)手機嚇怕了?
- 長三角,如何把數(shù)據(jù)要素變成新長江?
- 大模型,在內(nèi)卷中尋找出口
- 比亞迪“天神之眼”重磅升級:無圖城市領(lǐng)航功能全國開通
- 不愿成為微信的支付寶,注定失敗
- 大廠年終獎全靠猜?京東帶頭透明化
- MediaTek 發(fā)布天璣 8400 移動芯片,開啟高階智能手機全大核計算時代
- 榮耀攜手“哪吒”鬧新春,2025魔法科技年貨節(jié)同步開啟
- 榮耀Magic7系列全面升級大王影像,AI超級長焦讓百倍望遠也清晰
- 2024中國互聯(lián)網(wǎng)哈哈榜之2: 十大事件
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。