從汽車被發(fā)明以來,人車交互的方式在不斷變化。而在最近幾年,這種趨勢開始變得越來越明顯。僅僅在車載信息娛樂系統(tǒng)中,交互方式也開始從最早的實體按鍵,轉(zhuǎn)向包含按鍵、觸屏以及語音等等方式在內(nèi)的多維交互方式。
雖然交互方式在變,但遵從的邏輯從來都沒變:方便與安全。比如擴大了手觸面積的卡片式 UI、智能后視鏡、抬頭顯示、智能 AI 語音、AR 導航等等,都是為了讓駕駛員在開車的時候盡可能方便地傳遞指令,減少注意力的分散,保證安全。
目前來看,車載語音交互已經(jīng)比較普及,很多新車型上都有搭載。但它還是有自己的局限性,比如識別率、識別速度、對自然話術(shù)的支持等等都還不完善。這樣一來,有時候反而會給駕駛造成額外的負擔。
這時如果能像科幻片里那樣,動動手指就能下達某些指令,可能會是一種更好的解決方案。
事實上,主機廠們也確實再往這個方向發(fā)展。2015 年,寶馬率先發(fā)布了搭載手勢識別的 7 系,而且前前后后也不斷有 OEM 在嘗試推出搭載這項功能的量產(chǎn)車(比如奔馳、拜騰、君馬)和 demo(奧迪、福特、大眾等),所以這更加深了我們對手勢識別的好奇心。
手勢控制正在成為一種更值得期待的車內(nèi)交互方式。
手勢識別在車內(nèi)都能做什么?
通過不同的手勢,手勢交互可以實現(xiàn)接掛電話、調(diào)節(jié)音量、選擇歌曲、控制導航、控制車輛(空調(diào)、座椅、窗戶等)等功能,還包括主駕和副駕、后排乘客交互的多種場景。
雖然手勢控制能實現(xiàn)的功能不少,甚至和語音交互的功能還有一定重復。但是在我看來,手勢和語音的關(guān)系絕不是非此即彼,一定是互相成就。想象一下,當你目視前方,用手指著天窗說打開,然后天窗就打開了,是不是還挺有意思的?
未來人機交互一定是多維度的。例如寶馬全新 5 系就配備了「五維人機交互界面」,其中包括自然語音識別、手勢控制、觸控屏幕、iDrive 系統(tǒng)和熱敏按鍵。
這種多模態(tài)交互才是未來。
另外,如果我們把視線從駕駛員的手勢擴散開來,類似的技術(shù)在駕駛場景還能實現(xiàn)更多功能。
除了駕駛員的手勢之外,手勢識別的技術(shù)還能識別車外人員的動作。以后,這個功能也許還能識別交警指揮車輛的動作,或者周圍騎自行車的人做出的手勢。這樣既能增加駕駛的安全性,又能促進自動駕駛的發(fā)展。
這些技術(shù)還可以實現(xiàn)駕駛員監(jiān)測,是和目前手機的面部識別解鎖類似的技術(shù)原理。從全球來說,法律規(guī)定在 L2 向 L3 級別的自動駕駛方案過渡時,駕駛員必須時刻監(jiān)控車輛駕駛,所以隨時監(jiān)控駕駛員的狀態(tài)在未來一定是必需的部件,而且這個未來很快就要到了。
既然手勢交互和背后的技術(shù)對于駕駛有這么多幫助,所以我們有必要了解一下背后的原理。
實現(xiàn)手勢識別的 3 種方案
前方高能,所以請準備好開始燒腦。
根據(jù)硬件實現(xiàn)方式的不同,目前行業(yè)內(nèi)所采用的手勢識別大致有三種:光飛時間(Time of Flight)、結(jié)構(gòu)光(Structure Light)以及雙目立體成像(Multi-camera)。
光飛時間(Time of Flight):通過光的飛行時間來計算距離。
光飛時間的原理很簡單,先用紅外發(fā)射器發(fā)射調(diào)制過的光脈沖,再用接收器采集反射回來的光脈沖,最后根據(jù)往返時間計算物體間的距離,從而判斷手勢。
其實主要就是依據(jù)距離=光速*時間。光速是一定的,就可以通過時間差推算距離差。
結(jié)構(gòu)光(Structure Light):主動投射已知編碼圖案,再計算物體位置。
結(jié)構(gòu)光要先通過紅外激光器,將具有一定結(jié)構(gòu)特征的光點投射到目標物體上,再由紅外攝像頭收集反射的結(jié)構(gòu)光圖案。
因為這些光斑投影在被觀察物體上的大小和形狀根據(jù)物體和相機的距離和方向而不同,所以根據(jù)三角測量原理可以計算出物體各個點的具體位置,根據(jù)前后位置差異從而能夠判斷手勢。
雙目立體成像(Multi-camera):兩個攝像頭采集位置信息,再將畸變數(shù)據(jù)計算成可用數(shù)據(jù)。
雙目立體成像非常依賴算法,而且算法的難度和分辨率和檢測精度掛鉤。分辨率和檢測精度越高,計算就越復雜,還會導致實時性較差。它主要分兩個步驟:采集信息和計算畸變數(shù)據(jù)。
1. 采集圖像信息。通過兩個攝像機提取出三維位置信息,并進行內(nèi)外部參數(shù)的匹配。(攝像機本身存在畸變,如果不經(jīng)過標定,原本的矩形會顯示成不規(guī)則的圓角四邊形)
2. 計算畸變數(shù)據(jù)。通過對比經(jīng)過校準的立體圖像,獲得視差圖像,再利用攝像機的內(nèi)外參數(shù)進行三角計算獲取深度圖像,根據(jù)前后位置的區(qū)別進行手勢識別。
像分辨率、成本、測量精度這種問題,三種方案雖然有高有低,但基本都還說得過去,功耗在車內(nèi)也不是大問題。
要判斷哪種方案合適,要從以下幾點著手:1. 是否能適應各種環(huán)境?2. 是否具有優(yōu)異的實時性?3. 在樣本范圍內(nèi),數(shù)據(jù)誤差是否可控?4. 成本是否可控?5. 體積是否可控?6. 硬件插件是否成熟?
前三點是非常重要的,因為汽車會處在各種環(huán)境內(nèi),所以抗干擾性、數(shù)據(jù)實時性、數(shù)據(jù)準確性非常重要。
結(jié)構(gòu)光的分辨率高,計算量少,功耗也比較低,此前有很多成型的解決方案,還有 Inter 支持的 RealSense SDK,開發(fā)周期較短。但是它受限于主動投射的原理,非常容易受到強光和光滑平面(如鏡子)的影響,室外基本不能使用,這點算是致命的。
雙目立體成像的硬件成本比較低,但是它過于依賴圖像特征匹配(后期計算),需要很高的計算資源。想要更高的分辨率,計算就越復雜,這就導致它實時性比較差。而且它在光照較暗、過度曝光或者場景本身缺少紋理的情況下,很難進行特征提取匹配。和結(jié)構(gòu)光一樣,在抗干擾性這點上它做的不好。
TOF 方案的分辨率很低,測量精度也不如其他兩種方案,但是對于車內(nèi)手勢識別來說已經(jīng)夠了。因為需要光線的全面照射,所以功耗很高,但是這在汽車環(huán)境中也不算大事。而且它的體積可控;測量誤差在整個范本內(nèi)比較固定;雖然計算量大,但是算法難度較低;最重要的是它受外界環(huán)境干擾較小。綜合來看,TOF 方案是個比較實用的選擇,也是很多供應商都在努力的方向。
12下一頁>(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )