近日,谷歌 AI 部門 DeepMind 和牛津大學的研究人員使用人工智能創(chuàng)建了迄今為止最準確的一款讀唇軟件。
利用 BBC 數千小時的電視節(jié)目,研究人員將 AI 軟件對電視節(jié)目嘉賓唇語解讀的準確率提升到了 46.8%。這一數字乍看上去十分不起眼,尤其在與 AI 軟件語音識別準確率進行比較后更是如此,但要指出的是,即便是專業(yè)的唇語專家在接受同樣的測試時,準確率僅為 12.4%。
值得一提的是,牛津大學的另一獨立小組也于不久前開發(fā)了一款類似的 AI 讀唇軟件。這個名叫 LipNet 的讀唇軟件,在測試中達到了 93.4% 的準確性,而人類的準確性則為 52.3%。但該測試所用的材料均為志愿者事先錄制好的固定句子,沒有任何復雜的事件背景可言。
而此次谷歌 DeepMind 部門研發(fā)的“Watch, Listen, Attend, and Spell”AI 軟件所進行的測試則更具挑戰(zhàn)性,在沒有任何背景介紹的情況下直接對 BBC 節(jié)目嘉賓唇語進行解讀。
該軟件用于讀唇術訓練的電視節(jié)目視頻時長累計超過了 5000 小時,包括近 12 萬個不同的句子和約 1.7 萬個獨特的單詞,相比之下 LipNet 軟件的測試視頻僅有 51 個獨特的單詞。
至于 AI 讀唇軟件的應用,很多人第一時間想到的便是監(jiān)控視頻的唇語解讀。研究人員表示,監(jiān)控視頻的分辨率將對 AI 軟件的讀唇準確度有很大影響,但人工智能會將這一差距慢慢縮小。
- 比亞迪捐資30億元成立教育慈善基金,助力培養(yǎng)卓越人才,推動中國科教進步
- ?5年投入200億打造飛行汽車!?長安汽車布局萬億“低空”市場
- 英偉達涉嫌違反反壟斷法 市場監(jiān)管總局依法決定立案調查
- 上海敲定5G-A發(fā)展目標:到2026年發(fā)展500萬用戶,建設3.2萬個3CC基站
- 中國電信注資10億成立天通衛(wèi)星科技公司,將推動衛(wèi)星通信手機向3000元下探
- 上汽今年銷量或會被比亞迪反超,痛失18年“中國車企銷量冠軍”
- 英特爾CEO基辛格名為退休,實為被董事會趕下臺?
- 華為申請多枚鴻蒙辦公商標,涉及辦公用品等多個領域
- “數智化”登頂《咬文嚼字》十大流行語,數智技術應用深入人心
- IDC預計:2028年AI基礎設施支出將超1000億美元
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。