精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    世界杯沒有秘密:有人趴在角落里悄悄讀著球員的唇……

    原標(biāo)題:世界杯沒有秘密:有人趴在角落里悄悄讀著球員的唇……

    世界杯已經(jīng)過半,殘酷的淘汰賽也已經(jīng)馬上就要進(jìn)入四分之一決賽。相比場內(nèi)球員們的激情和球迷的熱情,場外關(guān)于各球隊的報道也是讓人目不暇接。其中最令人好奇的,大概要算教練和球員們之間的一些“耳鬢廝磨”了。

    比如西班牙和俄羅斯的點(diǎn)球大戰(zhàn)。當(dāng)西班牙主帥耶羅決定讓科克踢點(diǎn)球的時候,科斯塔表達(dá)了不同意見,并多次向耶羅、科克和隊長拉莫斯進(jìn)行交流。然而這并沒有什么用,科克還是踢了第三個點(diǎn)球,并成功罰丟,導(dǎo)致志奪冠的西班牙就此結(jié)束了在本屆世界杯的征程。

    類似的情況還出現(xiàn)在小組賽阿根廷1:1暫平尼日利亞的時候,桑保利去詢問梅西該不該上阿圭羅,只見梅西點(diǎn)了點(diǎn)頭,隨后阿圭羅被換上。

    問題是,好像我們看球除了現(xiàn)場球迷的呼喊聲之外,聽到最多的大概要算是踢足球的聲音了,教練球員之間的交流我們也是只見其人不聞其聲。那些電視臺是怎么知道他們說了什么話的?難道是后臺進(jìn)行了采訪?

    非也。實(shí)際上,要弄懂他們在說什么其實(shí)很簡單,就是對口型。正規(guī)說法就是:讀唇語。

    聽起來是不是很高端?

    從“手工時代”到人工智能

    唇語之用,最早在于幫助聽力障礙人群獲取語言信息,讓其過上正常人的生活。在這個意義上,其作用于手語相當(dāng)。但與手語不同的是,讀唇語是一件難度很高、即便費(fèi)盡心思去練習(xí)也不一定學(xué)有所成的事情。

    學(xué)唇語首先得視力好,俗稱眼尖。不要求幾里地之外明察秋毫,至少能在幾十米外看見嘴唇動作吧。傳說中英國職業(yè)唇語破解女王杰西卡就說自己能在四十米開外的地方通過讀唇來破解別人說話的內(nèi)容。所以,不是歧視大家,那些五米之外人畜不分的近視群體這輩子還是不要再想著讀唇語這件事了……

    正是由于掌握的人數(shù)少,現(xiàn)實(shí)中見得不多,讀唇語就變成了一件神秘而高大上的事情。在這個時代,我們姑且可以把它成為唇語的“手工時代”。

    而在近兩年,長期處于靠個人努力來維持現(xiàn)狀的唇語突然就火了起來,似乎在一夜之間變成了一件唾手可得的事情。而造成這一現(xiàn)象的根本原因,就是人工智能視覺識別技術(shù)的發(fā)展,或許我們可以把它稱作唇語識別的人工智能時代。比如《機(jī)器姬》當(dāng)中機(jī)器人夏娃讀取內(nèi)森和迦樂的嘴部動作來識別內(nèi)容。那么,人工智能識別唇語在現(xiàn)實(shí)中又有哪些表現(xiàn)呢?

    從技術(shù)原理上來說,讀唇語這件事正適合人工智能來做。通過對說話人嘴部說話的連續(xù)動作的捕捉,然后將其與單詞發(fā)音進(jìn)行匹配,最終經(jīng)過不斷地修正,得出動作、發(fā)音、語義三者最協(xié)調(diào)的句子,從而實(shí)現(xiàn)唇語的破解。

    比如2016年Deepmind聯(lián)合牛津大學(xué)推出的人工智能唇語識別系統(tǒng)。通過對該系統(tǒng)進(jìn)行超過5000小時、11800條新聞視頻的訓(xùn)練學(xué)習(xí),其在最終的視頻測試中達(dá)到了46.8%的識別正確率,而人類則僅僅為12.4%。這個差距可以說是相當(dāng)明顯了。

    而在國內(nèi)也有公司開發(fā)了相關(guān)的唇語識別AI。去年烏鎮(zhèn)互聯(lián)網(wǎng)大會上,搜狗也顯示了自己在唇語識別上的成果,其采用的則是新聞視頻、電視節(jié)目、普通人說話等綜合場景來訓(xùn)練的方法。當(dāng)然,這項(xiàng)技術(shù)的開發(fā)仍然處于起步階段,想要完成想象中的唇語通吃,大概仍然需要時間。

    可以確定的是,在視覺識別技術(shù)不斷提升的情況下,唇語識別即將由一項(xiàng)傳說中的“秘術(shù)”變成人人都可裝備的日常工具。但把讀唇語變成一種通用的語言輔助工具,真的是很容易的一件事的嗎?

    讀唇語對人不易,AI亦如是

    我們知道,人工智能的深度學(xué)習(xí)是建立在大量相關(guān)材料的基礎(chǔ)上的,比如Deepmind訓(xùn)練一個唇語識別的人工智能,總時長達(dá)到了5000個小時,而識別成功率也還不到50%。然而對現(xiàn)階段的處于識別來說,這已經(jīng)是一個非常好的數(shù)據(jù)了,畢竟頂尖的人類唇語識別專家也才有百分之十幾的成功率。那么,既然唇語識別這么難,人工智能要想拿下它,又應(yīng)該需要注意哪些問題?

    第一,要解決口型不一致的問題??谛筒灰恢碌膯栴}體現(xiàn)在兩個方面。

    一方面,由于音準(zhǔn)的不同,不是所有的人發(fā)出同樣的音節(jié)的時候都是會產(chǎn)生同樣的動作。這點(diǎn)動作從人類的視角來看可能難以發(fā)現(xiàn),但從擅長識別微表情的人工智能的時間來說,些許的動作差別可能就會造成誤判。比如一個傻子口齒不清,人們聽起來都費(fèi)勁,就更不要說讀唇識別了。

    另一方面,同一種語言由于地域的不同,同一個字也可能存在不同的發(fā)音方式。比如“六”,在普通話的讀音中,它讀作“l(fā)iù”;而在南方方言里,很多情況下它被讀作“l(fā)ù”,甚至在其他地區(qū)還有讀成“l(fā)uò”“l(fā)o”等。那么,在識別方言這一塊兒,人工智能遇到的麻煩也是不小。

    第二,人工智能唇語識別的語氣問題。既然是識別說話內(nèi)容,就不可避免地要涉及說話者的語氣。同一個詞語、同一句話,由于說話者語氣的不同,其也可能會造成不同的語義。比如“你弄啥類”,加個問號表示疑問,加個嘆號就代表的是憤怒。所以,單純識別說話者語言內(nèi)容將會限制唇語識別的功能,如何將說話者的表情、動作、場景等一系列和表達(dá)有關(guān)的因素統(tǒng)一到唇語識別當(dāng)中去,也是一個需要考慮的問題。

    第三,在很多情況下我們并不需要人形機(jī)器人一樣,我們也不一定非得讓唇語識別變成一個萬事通。在對其進(jìn)行訓(xùn)練的時候,我們可以根據(jù)使用的具體場景來進(jìn)行專門的素材搜集。比如地鐵站自動賣票,就只需要針對站點(diǎn)名稱的口型作重點(diǎn)訓(xùn)練。這樣就可以避免特定場景下由無效工作而帶來的繁瑣。

    更重要的是,語言是一個非常龐大的知識庫,如果想要精確地實(shí)現(xiàn)對各種情況下的唇語的識別,海量的語音、動作訓(xùn)練將是一個耗時巨甚的工作量。

    唇語雖小,潛力卻大

    毫無疑問,當(dāng)唇語識別技術(shù)成熟,其應(yīng)用前景是非常樂觀的,比如以下幾個方面。

    1. 安防領(lǐng)域。家庭攝像頭功能、場景都比較單一,一般都會有麥克風(fēng)進(jìn)行聲音搜集。然而在數(shù)量更多的室外監(jiān)控系統(tǒng)里,基本上只能看到畫面而沒有聲音。這就是電子監(jiān)控的一個很大缺陷。那么,引入唇語識別之后,相當(dāng)于在技術(shù)上令畫面產(chǎn)生了聲音。違法者在鏡頭前的交流內(nèi)容將被捕捉,而這也很有可能成為破案的重要線索。英國警方就利用杰西卡的唇語能力破獲了一起機(jī)場搶劫案。

    2. 醫(yī)療健康領(lǐng)域。唇語最原始的作用就是幫助聽力障礙患者能夠和普通人一樣正常進(jìn)行交流,但這個學(xué)習(xí)成本無疑是巨大的,可能需要幾年乃至十幾年的時間。甚至如果視力、毅力都不好的話,其只能靠非常麻煩的手語來進(jìn)行交流。那么,在唇語識別技術(shù)的幫助下,聽力障礙患者將不必花費(fèi)這樣的學(xué)習(xí)成本而能直接和正常人一樣交流。

    3. 實(shí)時語音轉(zhuǎn)化更加精準(zhǔn)。如今無論是智能法庭上的實(shí)時字幕還是國際會議中的同聲傳譯,其基本上都是依靠單純的語音識別功能來實(shí)現(xiàn)。通過唇語識別技術(shù)的加成,其將從單純的“聽”變成一邊“看”一邊“聽”,更符合人類接受語言信息的特點(diǎn)。由此,人工智能在實(shí)時字幕、同聲傳譯等場景下的應(yīng)用也將更加成熟。

    此外,利用唇語來識別語音,對語音分離問題的解決也將產(chǎn)生積極的影響。之前就有團(tuán)隊通過視頻和語音的對照來分離語音,唇語更是可以成為值得關(guān)注的一個點(diǎn)。

    4. 推進(jìn)多模態(tài)物聯(lián)網(wǎng)的構(gòu)建。比如上海地鐵引入的語音購票,其就是通過對乘客進(jìn)行語音和人臉的雙重識別來確定到達(dá)站和買票人?;诖?,將唇語識別技術(shù)和語音識別結(jié)合起來,將有可能為物聯(lián)網(wǎng)的構(gòu)建打開更大的想象空間。在家庭物聯(lián)網(wǎng)場景中,以智能音箱為代表的入口可以不必單純依賴語音識別指令,加入唇語讀取來提高識別的精確度。畢竟,看著別人說話和閉上眼睛聽別人說話,對信息接受者而言是有很大不同的。

    但唇語識別也是一項(xiàng)非常需要警惕的技術(shù)。畢竟大自然限制了人聲的傳播距離,就是為了保護(hù)個體的私密。一旦唇語識別泛濫,每個人都可能再無秘密可言。說話要捂嘴、回家第一件事是拉窗簾、開車要貼不透光車膜……這樣人心惶惶的世界可能是誰也不愿意待的,畢竟英國女王被人讀了唇語并公開之后還是很不高興的。

    不管怎樣,唇語識別都稱得上是一項(xiàng)值得期待的技術(shù)。盡管現(xiàn)在還不成熟,盡管未來需要考慮到很多容易產(chǎn)生不利影響的現(xiàn)實(shí)問題。但是,當(dāng)它展現(xiàn)出對人類社會積極的意義的時候,我們也不該去拒絕給它個擁抱。

    極客網(wǎng)企業(yè)會員

    免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

    2018-07-04
    世界杯沒有秘密:有人趴在角落里悄悄讀著球員的唇……
    原標(biāo)題:世界杯沒有秘密:有人趴在角落里悄悄讀著球員的唇……世界杯已經(jīng)過半,殘酷的淘汰賽也已經(jīng)馬上就要進(jìn)入四分之一決賽。相比場內(nèi)球員們的激情和球迷的熱情,場外關(guān)于各球隊的報道也是讓人目不暇接。

    長按掃碼 閱讀全文