王子彬,商湯科技移動(dòng)智能事業(yè)群副總裁、智能終端業(yè)務(wù)CTO
李啟銘,商湯科技智能終端業(yè)務(wù)3D產(chǎn)品負(fù)責(zé)人
當(dāng)一項(xiàng)先進(jìn)的技術(shù)從工業(yè)界走向消費(fèi)領(lǐng)域,往往能夠推動(dòng)更多的突破性創(chuàng)新。
在上世紀(jì)70年代,工業(yè)界開(kāi)始運(yùn)用3D視覺(jué)技術(shù)測(cè)量和掃描物件,提高生產(chǎn)效率。最近10多年,家用游戲機(jī)廠商將3D體感外設(shè)帶入大眾視野,帶來(lái)了新奇的體感游戲。近三年,越來(lái)越多的智能手機(jī)開(kāi)始配備3D傳感器,并在AI的加持下,開(kāi)拓出了更多更具想象空間的應(yīng)用場(chǎng)景。未來(lái)10年,AI+3D將無(wú)處不在,給我們的生活和工作帶來(lái)深遠(yuǎn)影響。
賦予機(jī)器感知三維世界的“眼睛”
人類(lèi)擁有與生俱來(lái)的3D環(huán)境感知和理解能力,這是因?yàn)槲覀冇脙芍谎劬?lái)捕捉圖像,通過(guò)大腦處理形成立體視覺(jué),從而辨認(rèn)物體的形狀方位、他人的動(dòng)作,輕松自然地跟這個(gè)三維世界交互。
能否讓機(jī)器也能感知三維世界呢?或許很多人會(huì)想到給機(jī)器添加一顆攝像頭。但普通RGB攝像頭拍攝的現(xiàn)實(shí)世界的影像,僅能采集場(chǎng)景中的色彩信息,無(wú)法采集物體和攝像頭之間的距離和方位。也就是說(shuō),無(wú)論場(chǎng)景中的三維結(jié)構(gòu)有多么豐富,對(duì)機(jī)器來(lái)說(shuō)都是一個(gè)平面,一個(gè)二維世界。
3D視覺(jué)技術(shù),就是賦予機(jī)器感知三維世界的信息和能力,并給我們帶來(lái)顛覆性的價(jià)值。試想一下,將汽車(chē)立體模型通過(guò)增強(qiáng)現(xiàn)實(shí)(AR)技術(shù)投射出來(lái),客戶可360度觀看,還能“開(kāi)車(chē)門(mén)”,由此直觀地提出意見(jiàn),而不是一張張翻看照片;或者派無(wú)人機(jī)探索森林或洞穴,一邊前行一邊繪制周邊場(chǎng)景的三維地形,而不是我們拿著一張平面地圖親自探險(xiǎn)……
事實(shí)上,3D視覺(jué)技術(shù)目前已經(jīng)在工業(yè)界取得成功,但在消費(fèi)領(lǐng)域,受限于3D感知硬件的成本和體積、計(jì)算能力等困擾,很多場(chǎng)景并未激活。除了掃地機(jī)器人等個(gè)別終端外,我們的智能手機(jī)等移動(dòng)設(shè)備,還處在二維世界里。但近幾年,3D視覺(jué)技術(shù)終于開(kāi)始走向個(gè)人終端,機(jī)器認(rèn)知世界的新大門(mén)正在打開(kāi)。
3D感知硬件小型化,ToF漸成主流
實(shí)現(xiàn)3D視覺(jué)能力,3D感知硬件的加持至關(guān)重要。目前主流的3D感知硬件技術(shù)包括雙目視覺(jué)、結(jié)構(gòu)光、ToF(飛行時(shí)間)以及激光雷達(dá)。
雙目視覺(jué)系統(tǒng)是通過(guò)雙攝像頭同時(shí)進(jìn)行成像,然后通過(guò)對(duì)比兩個(gè)圖像中每個(gè)像素點(diǎn)的相對(duì)位置差,來(lái)計(jì)算出該像素點(diǎn)在三維環(huán)境中的位置,類(lèi)似于人雙眼的工作原理。
結(jié)構(gòu)光和ToF則能在RGB的基礎(chǔ)上直接提供深度信息,屬于RGB-D方案,在精度上比雙目視覺(jué)更勝一籌。其中,結(jié)構(gòu)光是通過(guò)投射大量光斑到物體上,然后根據(jù)光斑的形變量來(lái)判斷其所處深度;ToF則是向物體發(fā)射連續(xù)的光脈沖信號(hào),并接收返回的信號(hào),通過(guò)計(jì)算信號(hào)發(fā)射和返回的時(shí)間來(lái)計(jì)算深度信息。相比之下,結(jié)構(gòu)光在較短距離內(nèi)擁有更高精度,而ToF支持的工作距離更長(zhǎng),適用于更加多元化的場(chǎng)景,且傳感器模塊少,體積小。
激光雷達(dá)的原理與ToF類(lèi)似,但其感知距離更遠(yuǎn),范圍更大,精度也更高。很多自動(dòng)駕駛汽車(chē)通過(guò)激光雷達(dá)來(lái)感知周?chē)h(huán)境,不過(guò)缺點(diǎn)是成本過(guò)于高昂,只適用于特定場(chǎng)景。
在最近的三年,我們觀察到的一個(gè)顯著趨勢(shì)是ToF和結(jié)構(gòu)光的小型化,使得它成功地應(yīng)用到了手機(jī)當(dāng)中。而ToF以其體積更小、適用場(chǎng)景更廣等優(yōu)勢(shì),逐漸受到更多廠商青睞,很多最新的旗艦手機(jī)都將ToF作為一大賣(mài)點(diǎn)。據(jù)統(tǒng)計(jì),2019年有約5000萬(wàn)臺(tái)配備ToF的手機(jī)出貨,業(yè)內(nèi)預(yù)計(jì)2020年、2021年將分別達(dá)到1.5億和5億臺(tái),逐漸呈現(xiàn)出爆發(fā)態(tài)勢(shì),2020年全球智能手機(jī)3D感知硬件市場(chǎng)的規(guī)模也將到達(dá)99.25億美元。
ToF在智能手機(jī)上的加速應(yīng)用,有助于3D視覺(jué)技術(shù)的廣泛普及化,成為接下來(lái)10年中非常重要的科技趨勢(shì)。深入地觸達(dá)消費(fèi)市場(chǎng),也激活了更多的應(yīng)用創(chuàng)新可能。
AI技術(shù),突破3D視覺(jué)技術(shù)的難點(diǎn)
3D感知硬件能夠提供距離、深度等數(shù)據(jù)信息,但我們要的并不是單純的數(shù)據(jù),而是基于這些數(shù)據(jù),通過(guò)不同的表達(dá)和理解方式,實(shí)現(xiàn)不同的應(yīng)用。比如對(duì)三維場(chǎng)景進(jìn)行數(shù)字化建模,或者繪制三維地圖,從而讓機(jī)器能夠?qū)崟r(shí)感知自己在所處空間中的位置,以便在運(yùn)動(dòng)時(shí)及時(shí)避開(kāi)障礙物等。這需要根據(jù)深度信息生成深度圖像,并與RGB圖像,甚至是紅外圖像進(jìn)行融合并完成大量計(jì)算。
但是,通過(guò)硬件感知的信息生成的深度圖像,往往存在因硬件性能限制而產(chǎn)生的瑕疵,例如在細(xì)小或復(fù)雜交錯(cuò)的物體之間,出現(xiàn)深度信息估計(jì)錯(cuò)誤等問(wèn)題。此外,精準(zhǔn)度、魯棒性、實(shí)時(shí)性、效率等都是決定實(shí)際應(yīng)用效果的關(guān)鍵。這都需要依靠額外的算法進(jìn)行實(shí)時(shí)處理予以彌補(bǔ)和增強(qiáng)。
在工業(yè)場(chǎng)景中,由于應(yīng)用相對(duì)單一,且3D感知硬件大多處于固定或平穩(wěn)狀態(tài),很多難題可以通過(guò)編寫(xiě)特定算法加以解決。但在移動(dòng)終端上,不規(guī)則的抖動(dòng)、晃動(dòng)等情況帶來(lái)的難以預(yù)估的挑戰(zhàn),傳統(tǒng)算法難以突破。
2012年,AI在計(jì)算機(jī)視覺(jué)領(lǐng)域取得突破,給3D視覺(jué)技術(shù)發(fā)展也帶來(lái)了全新思路。AI可通過(guò)對(duì)大量實(shí)際數(shù)據(jù)進(jìn)行學(xué)習(xí),自行總結(jié)其中的規(guī)律和特征。這種方法可以在短時(shí)間內(nèi),完成傳統(tǒng)算法需要多年才能突破的問(wèn)題,有效彌補(bǔ)硬件能力的不足。
更為重要的是,AI不僅能感知場(chǎng)景中的三維結(jié)構(gòu),還能識(shí)別出場(chǎng)景中的三維物體是什么,在做什么。例如檢測(cè)人、物體,識(shí)別人的姿態(tài),跟蹤物體的運(yùn)行軌跡……這就進(jìn)一步敞開(kāi)了機(jī)器認(rèn)知世界的新大門(mén)。
在我們看來(lái),3D硬件的小型化,是3D視覺(jué)技術(shù)應(yīng)用場(chǎng)景拓展和創(chuàng)新的硬件基礎(chǔ),而AI技術(shù)則是真正的動(dòng)力引擎。兩者密不可分,可以說(shuō),AI+3D視覺(jué)技術(shù)拐點(diǎn)已至。
AI+3D,緊密協(xié)作實(shí)現(xiàn)完美空間感知
目前,商湯科技已經(jīng)將AI技術(shù)廣泛地應(yīng)用于3D感知的各個(gè)領(lǐng)域,開(kāi)發(fā)了基于ToF等3D感知硬件的技術(shù)與產(chǎn)品,包括人臉與人體3D重建、物體重建、3D全身關(guān)鍵點(diǎn)跟蹤、3D Avatar驅(qū)動(dòng)工具、AR測(cè)量、AR場(chǎng)景互動(dòng)、AR導(dǎo)航、3D人臉認(rèn)證、3D攝影等等,均體現(xiàn)了AI+3D的顯著優(yōu)勢(shì)。
首先,AI+3D可以進(jìn)一步優(yōu)化感知效果,提升用戶體驗(yàn)。以動(dòng)作捕捉為例,結(jié)合對(duì)深度信息的高效處理,能夠整體提升肢體關(guān)鍵點(diǎn)的穩(wěn)定性、準(zhǔn)確性以及運(yùn)動(dòng)的穩(wěn)定性和自然度,精準(zhǔn)呈現(xiàn)人在三維空間中的動(dòng)作姿態(tài)變化;
第二,AI+3D可以更加高效地應(yīng)用和處理深度信息,理解環(huán)境中人物間的相互關(guān)系。例如為AR帶來(lái)逼真的虛實(shí)融合和互動(dòng)效果,在智能手機(jī)上完成高精度3D模型建模,或是為自動(dòng)駕駛提供車(chē)外的人、車(chē)、物的識(shí)別和距離感知。
第三,AI+3D可以更加精準(zhǔn)地分割圖像中的主體和背景。特別是在主體和背景顏色比較相近的情況下,得益于對(duì)深度信息的快速處理,在分割效果上比2D感知技術(shù)有很大的提升,可提供不同人物之間的語(yǔ)義信息,亦可結(jié)合3D相機(jī)系統(tǒng)帶來(lái)更逼近單反的攝影效果;
第四,深度信息與紅外圖像的結(jié)合,可以讓3D感知適用于更多的場(chǎng)景,使之不受環(huán)境光線明暗的影響。
在提供算法的同時(shí),商湯科技也與產(chǎn)業(yè)上下游合作伙伴緊密合作,提供軟硬一體解決方案,推動(dòng)AI+3D的發(fā)展和生態(tài)構(gòu)建,推動(dòng)應(yīng)用場(chǎng)景的革新。
基于上述優(yōu)勢(shì),我們認(rèn)為,AI+3D會(huì)從人機(jī)交互、互動(dòng)娛樂(lè)、內(nèi)容創(chuàng)作、身份驗(yàn)證、拍照、電商等層面激發(fā)大量的創(chuàng)新應(yīng)用場(chǎng)景,甚至改變很多傳統(tǒng)行業(yè)的運(yùn)作模式。
AI+3D,激活更多創(chuàng)新的應(yīng)用場(chǎng)景
隨著越來(lái)越多的智能手機(jī)配備3D感知硬件,AI算法的作用也越加凸顯,只有兩者的緊密協(xié)作,才能夠?qū)⑼昝赖挠跋耋w驗(yàn)帶給最終用戶,缺一不可。為此,商湯科技一直積極與合作伙伴攜手共進(jìn),將AI+3D相關(guān)產(chǎn)品和技術(shù)充分應(yīng)用于手機(jī)等智能終端當(dāng)中。
比如,通過(guò)AI+3D進(jìn)行“物品重建”。商湯科技的通用3D重建技術(shù),讓用戶只需拿手機(jī)沿著物體360度環(huán)繞掃描,就能將其掃描成數(shù)字模型,并用于3D打印、3D/AR相冊(cè)預(yù)覽、短視頻直播內(nèi)容生成,或植入到游戲、電商商品展示等場(chǎng)景。特別是后者,它可讓顧客通過(guò)翻轉(zhuǎn)方式查看物品外觀,告別翻看照片的麻煩。
除物品重建,還可以“人臉重建”。2018年,商湯科技助力合作伙伴推出了市面上第一款具備3D人臉重建功能的手機(jī)。用戶不僅可以體驗(yàn)比2D美顏更加精美的3D美顏功能,還可足不出戶輕松地進(jìn)行虛擬試妝,甚至通過(guò)“3D微整形”來(lái)模擬整形效果。
AI+3D讓手機(jī)就能成為體感設(shè)備。玩家可低成本地暢玩體感游戲,而內(nèi)容創(chuàng)作者則借助商湯的Avatar技術(shù)打造自己的虛擬形象,例如虛擬主播、虛擬講解員或者虛擬教師,通過(guò)表情、動(dòng)作進(jìn)行驅(qū)動(dòng),這會(huì)為互動(dòng)娛樂(lè)、文旅乃至教育打造新的發(fā)展模式。
AI+3D也將在很大程度上推動(dòng)移動(dòng)AR朝向3D AR方向發(fā)展?;赗GBD SLAM可重建真實(shí)環(huán)境的3D結(jié)構(gòu),準(zhǔn)確將虛擬元素植入到真實(shí)環(huán)境中,呈現(xiàn)真實(shí)的遮擋、碰撞、反彈等效果。
商湯還與浙江大學(xué)共建了“浙江大學(xué)-商湯三維視覺(jué)聯(lián)合實(shí)驗(yàn)室”,在SLAM和三維重建等領(lǐng)域的前沿研究展開(kāi)深入合作,并推出了高精定位與內(nèi)容增強(qiáng)解決方案,實(shí)現(xiàn)高精度的AR導(dǎo)航等功能。
有了3D AR,手機(jī)還能搖身一變成為更強(qiáng)大的AR測(cè)量尺,實(shí)現(xiàn)遠(yuǎn)超基于2D方案的測(cè)量精度,場(chǎng)景覆蓋率到初始化耗時(shí),還可以自動(dòng)檢測(cè)并測(cè)量立體幾何物體。
AI+3D也將讓3D人臉識(shí)別成為更便捷、更安全的解鎖或支付方式。商湯科技不僅在2018年助力合作伙伴推出了市面上首款基于結(jié)構(gòu)光的3D人臉識(shí)別安卓手機(jī),還于同年底推出了基于ToF的3D人臉識(shí)別方案。此外還推出了3D人臉識(shí)別智能門(mén)鎖解決方案,推動(dòng)智能門(mén)鎖行業(yè)的創(chuàng)新。
媲美單反的大景深效果一直是手機(jī)人像拍照所追求的方向,3D視覺(jué)技術(shù)可以讓人物等主體與背景的過(guò)渡效果更加自然、更加精準(zhǔn)。而在電商行業(yè),AI+3D可以讓AR試妝、AR試衣、AR家居更加逼真,滿足多角度充分預(yù)覽,促成購(gòu)買(mǎi)行為。
放眼汽車(chē)行業(yè),AI+3D技術(shù)能夠?qū)崿F(xiàn)更加精準(zhǔn)的車(chē)外人、車(chē)、物識(shí)別和距離感知,有力推動(dòng)自動(dòng)駕駛的發(fā)展。商湯科技也正以“攝像頭為主、多傳感器融合”的解決方案,研發(fā)L4級(jí)自動(dòng)駕駛解決方案。而在泛工業(yè)領(lǐng)域,AI+3D可以為機(jī)械臂賦予3D感知能力,準(zhǔn)確判斷物體所處的位置、尺寸、形狀等,從而進(jìn)行精準(zhǔn)的抓取,或是進(jìn)行自動(dòng)化的品質(zhì)檢測(cè)。
《Prediction Machines》一書(shū)中曾提到:“當(dāng)某種基礎(chǔ)產(chǎn)品價(jià)格大幅下降的時(shí)候,才是整個(gè)世界發(fā)生變化的基礎(chǔ)”。3D視覺(jué)技術(shù)呈現(xiàn)出的也是這樣一個(gè)趨勢(shì)。放眼未來(lái),3D視覺(jué)技術(shù)還有更多創(chuàng)新空間。首先硬件成本的下降使其更加普及,支持的工作距離更遠(yuǎn),而AI技術(shù)隨著表達(dá)能力將不斷增強(qiáng),算法模型的小型化等趨勢(shì),可讓深度信息處理更高效,3D效果更逼真、更穩(wěn)定,性能更快,同時(shí)硬件資源占用率更低。一方面不斷優(yōu)化現(xiàn)有應(yīng)用的體驗(yàn),另一方面進(jìn)一步開(kāi)拓更多應(yīng)用可能。
新的10年, AI+3D將成為變革行業(yè)發(fā)展的全新引擎。
轉(zhuǎn)自:36氪
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 本田與日產(chǎn)醞釀合并:明年6月敲定協(xié)議,新公司社長(zhǎng)待本田推薦
- 金融大模型新突破:百川智能Baichuan4-Finance引領(lǐng)行業(yè),準(zhǔn)確率領(lǐng)先GPT-4近20%,變革金融業(yè)未來(lái)
- 博通CEO陳福陽(yáng)回應(yīng):忙于AI半導(dǎo)體業(yè)務(wù),暫無(wú)意收購(gòu)英特爾,拒絕巨頭誘惑?
- 法拉第未來(lái)再獲融資,下月亮相首款原型車(chē),或?qū)㈤_(kāi)啟新篇章
- 央視揭露:未成年租號(hào)游戲亂象,防沉迷形同虛設(shè),需警惕
- 三星內(nèi)存部門(mén)發(fā)放超級(jí)績(jī)效獎(jiǎng)金,最高漲薪200%,員工福利再升級(jí)
- LG新能源南京總部啟動(dòng),智能電池生產(chǎn)引領(lǐng)綠色未來(lái)
- 東芝涅槃:退市裁員后重回盈利,改革之路如何重塑輝煌?
- 大眾汽車(chē)管理層降薪風(fēng)暴:獎(jiǎng)金縮水,未來(lái)兩年減薪10%,求真還需看業(yè)績(jī)表現(xiàn)
- 知乎預(yù)測(cè)未來(lái):黑神話悟空領(lǐng)銜,諾貝爾物理學(xué)獎(jiǎng)成焦點(diǎn)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。