CMU RI(卡內(nèi)基梅隆大學機器人學院)的科學家正研發(fā)一種可以從頭到腳讀取肢體語言的計算機系統(tǒng)。新項目可以實時讀取大規(guī)模人群的多個動作姿勢,這為人與機器交互開辟了新的方式。
目前,與計算機通信主要限于打字,鼠標點擊和屏幕觸摸。雖然語音交互更加普及,但人類主要是用文字交流。社會活動中,半數(shù)的人際交往來自肢體語言,沒有肢體語言,互動可能變得困難和費力。
讓電腦讀懂人類的肢體語言是一件棘手的事,包括可以被物體或其他人遮蔽的手部動作。除此之外,雖然大型數(shù)據(jù)庫存在標注的面部表情和身體位置,但并沒有任何手勢和姿勢。
CMU RI(卡內(nèi)基·梅隆機器人研究院)副教授Yaser Sheikh領(lǐng)導的團隊攻克了解決此問題一些的方法。其中之一是,通過讓兩個研究生站在攝像機前面,做數(shù)千種不同的姿勢和手勢,來為計算機提供更多的數(shù)據(jù)。
另一個是顛覆了計算機讀取姿勢的常規(guī)方式。計算機不只關(guān)注人本身,而是會實時檢測手指的動作,人的手、手臂、腿和臉,并鎖定這些動作和姿勢。據(jù)團隊介紹,這對觀眾來說特別有用。
第三部分是使用CMU的Panoptic Studio(用于大規(guī)模社交互動采集的多視角系統(tǒng)),它是一個有兩層樓高,并嵌有500臺攝像機的結(jié)構(gòu)。這使計算機可以從數(shù)百個不同角度,一次采集大量的動作數(shù)據(jù)來用于研究。
機器人博士Hanbyul Joo說:"系統(tǒng)自動標注手的位置,單次拍攝可以讓你采集一個人的500次手部動作。若手太小,無法被大多數(shù)相機標注,但是對于這項研究,我們只使用了31臺高清攝像頭,但仍然能夠構(gòu)建一個龐大的數(shù)據(jù)集。"
團隊正在努力解決,把2D模型轉(zhuǎn)換為3D模型,以獲得更好的識別效果。最終的目標是制作一個,允許單個攝像頭和筆記本電腦,從一群人那里讀取姿勢的系統(tǒng)。
當技術(shù)成熟時,CMU RI團隊認為它會非常有用,不僅可以讓人們通過簡單的指向與機器進行交互,還可以幫助自動駕駛汽車推斷行人打算何時過馬路,可以用來自動輔助診斷行為障礙,并跟蹤體育運動員的動作,解釋他們在做什么。
系統(tǒng)介紹
硬件:
480個VGA攝像頭,640 x 480分辨率,25 fps,使用硬件時鐘同步 31個高清攝像機,1920 x 1080分辨率,30 fps,使用硬件時鐘同步,與VGA攝像機定時對齊 10個KinectⅡ傳感器。1920 x 1080(RGB),512 x 424(depth),30 fps,它們之間和其他傳感器之間的時序?qū)R 5臺DLP投影機,與高清攝像機同步
場景與標注:
多人
社會互動群組
3D身體姿勢
3D面部地標
Transcripts + speaker ID
(本文來源于微信公眾號機械雞)
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )