近日,德國(guó)專(zhuān)業(yè)汽車(chē)行業(yè)雜志HANSERautomotive就浪潮信息算法團(tuán)隊(duì)在自動(dòng)駕駛領(lǐng)域所取得的核心突破,進(jìn)行專(zhuān)題署名文章報(bào)道“Wahrnehmungssysteme und 3D-Objekterkennung Alles im Blick”(《感知系統(tǒng)和三維物體識(shí)別,一切盡收眼底》)。針對(duì)AI感知技術(shù)對(duì)于自動(dòng)駕駛產(chǎn)業(yè)化落地的變革式意義,《HANSERautomotive》文章指出,“3D目標(biāo)檢測(cè)作為自動(dòng)駕駛領(lǐng)域至關(guān)重要的核心任務(wù),面向強(qiáng)大的環(huán)境感知,先進(jìn)的AI算法及融合架構(gòu)感知技術(shù),為實(shí)現(xiàn)高魯棒、高精度的目標(biāo)檢測(cè)提供了至關(guān)重要的信息輸入,平臺(tái)算力和感知算法的效率提升與創(chuàng)新突破,也成為了車(chē)企發(fā)展自動(dòng)駕駛能力的關(guān)鍵技術(shù)?!?/p>
目前,在全球權(quán)威的自動(dòng)駕駛nuScenes競(jìng)賽最新評(píng)測(cè)中,浪潮信息算法團(tuán)隊(duì)所提交的“IEI-BEVFusion++”算法模型在關(guān)鍵性指標(biāo)nuScenes Detection Score(NDS)得到77.6%的高分,創(chuàng)造了3D目標(biāo)檢測(cè)全賽道迄今最高成績(jī)。
【HANSERautomotive作為德國(guó)Top級(jí)汽車(chē)電子行業(yè)媒體,旨在持續(xù)賦能汽車(chē)電子開(kāi)發(fā)、項(xiàng)目、應(yīng)用和測(cè)試領(lǐng)域的工程師,為全球汽車(chē)領(lǐng)域的行業(yè)高管與最重要的利益相關(guān)者,提供產(chǎn)品、系統(tǒng)、趨勢(shì)和時(shí)事,在電信/數(shù)據(jù)通信、消費(fèi)和工業(yè)等行業(yè)領(lǐng)域做出更好的決策?!?/p>
附《HANSERautomotive》詳細(xì)報(bào)道(原文譯釋): 自動(dòng)駕駛將從頭開(kāi)始改變移動(dòng)行業(yè),是汽車(chē)制造商和人工智能公司關(guān)注的重點(diǎn)領(lǐng)域。自動(dòng)駕駛技術(shù)的核心是基于算法的 3D 物體識(shí)別,它被認(rèn)為是自動(dòng)駕駛汽車(chē)環(huán)境感知的核心。至關(guān)重要的是,車(chē)輛使用各種傳感器來(lái)估計(jì)其環(huán)境中人、車(chē)輛和物體在三維空間中的距離。以下文章解釋了不同傳感器的工作原理以及它們之間的交互方式。自動(dòng)駕駛核心感知任務(wù)——3D目標(biāo)檢測(cè)從自動(dòng)駕駛分類(lèi)來(lái)看,目前的自動(dòng)駕駛技術(shù)有兩大類(lèi)。一種是以直接達(dá)到Level 4(高度駕駛自動(dòng)化)為目標(biāo)的激進(jìn)派,另一種是從Level 2(輔助駕駛)逐步提升自動(dòng)駕駛等級(jí)的漸進(jìn)派。但無(wú)論是Level 2還是Level 4,從整體架構(gòu)來(lái)看,大致可以分為感知、決策和控制三個(gè)部分。感知是自動(dòng)駕駛汽車(chē)的眼睛,猶如人類(lèi)的眼睛為大腦提供 70% 以上的信息類(lèi)似,感知系統(tǒng)也為自動(dòng)駕駛汽車(chē)的外部環(huán)境提供信息。自動(dòng)駕駛的感知依賴(lài)于各種傳感器的信息,包括攝像頭、雷達(dá)、激光雷達(dá)等,其中最核心的就是相機(jī)和激光雷達(dá)。自動(dòng)駕駛面對(duì)的是一個(gè)3維的環(huán)境空間,甚至我們可以這么說(shuō),因?yàn)樽詣?dòng)駕駛車(chē)輛要在環(huán)境空間中移動(dòng),且環(huán)境空間中其他的行人、車(chē)輛也會(huì)移動(dòng),可見(jiàn)自動(dòng)駕駛面臨的是一個(gè)4D時(shí)空系統(tǒng)(3D空間+1D時(shí)間)。自動(dòng)駕駛汽車(chē)需要在三維空間中判斷周?chē)?、?chē)、物之間的距離。在此基礎(chǔ)上,還需要判斷它們是靜態(tài)的還是動(dòng)態(tài)的,以及移動(dòng)的方向和速度等信息,我們一般稱(chēng)之為3D目標(biāo)檢測(cè)任務(wù)。 3D物體檢測(cè)任務(wù)可以看作是自動(dòng)駕駛中的最核心感知任務(wù)。當(dāng)然,除此之外,其他感知任務(wù)還包括識(shí)別紅綠燈、交通標(biāo)志、車(chē)道、斑馬線等道路信息。
(圖注:3D 目標(biāo)檢測(cè)圖。 3D目標(biāo)定義為一個(gè)盒子,(x,y,z)為盒子的中心坐標(biāo),(l,w,h)為長(zhǎng)寬高,θ為航向角。 Class 是 3D 目標(biāo)的類(lèi)別。 Vx 和 vy 描述了地面上 3D 目標(biāo)沿 x 和 y 軸的速度。)
傳感器:激光雷達(dá)長(zhǎng)期以來(lái),激光雷達(dá)一直被認(rèn)為是自動(dòng)駕駛汽車(chē)不可或缺的部件之一,因?yàn)榧す饫走_(dá)可以提供車(chē)輛周?chē)h(huán)境最準(zhǔn)確的3D感知。激光雷達(dá)采集到的點(diǎn)云信息天然就存儲(chǔ)著3D空間信息,因此對(duì)于基于點(diǎn)云信息的3D目標(biāo)檢測(cè)來(lái)說(shuō),算法設(shè)計(jì)就簡(jiǎn)單很多,也誕生了一系列的經(jīng)典模型,如PointPillar、SECOND、SSSD等。然而,激光雷達(dá)的成本也成為了自動(dòng)駕駛落地的最大瓶頸,激光雷達(dá)比汽車(chē)貴的問(wèn)題,成為其上車(chē)和量產(chǎn)的最大障礙。雖然這些年激光雷達(dá)的價(jià)格隨著技術(shù)的進(jìn)步有了明顯的下降,但是能夠滿足L4需求的激光雷達(dá)的價(jià)格還是偏高。
傳感器:相機(jī)攝像頭是自動(dòng)駕駛汽車(chē)的另一個(gè)非常重要的傳感器。由于激光雷達(dá)采集的點(diǎn)云信息沒(méi)有顏色和紋理,無(wú)法識(shí)別紅綠燈、交通標(biāo)志、車(chē)道、斑馬線等人類(lèi)容易識(shí)別的道路信息。因此,仍然需要攝像頭作為輔助傳感器。但是,這會(huì)導(dǎo)致多模態(tài)的信息融合問(wèn)題。簡(jiǎn)而言之,激光雷達(dá)主要擅長(zhǎng)對(duì)車(chē)輛和行人的3D信息的感知,而攝像頭擅長(zhǎng)于對(duì)紅綠燈、車(chē)道線等具有豐富視覺(jué)紋理特征的信息的感知。此外,相機(jī)在量產(chǎn)成本和價(jià)格方面也具有無(wú)可比擬的優(yōu)勢(shì)。例如,特斯拉搭載的單個(gè)單目攝像頭成本僅為25美元,整車(chē)8個(gè)攝像頭的價(jià)格僅為200美元。僅使用相機(jī)傳感器,借助強(qiáng)大的人工智能算法,可以實(shí)現(xiàn)精確的3D物體檢測(cè)任務(wù),這意味著不使用激光雷達(dá)傳感器的自動(dòng)駕駛成為可能?;趫D像的3D目標(biāo)檢測(cè)算法在計(jì)算機(jī)視覺(jué)領(lǐng)域,近年來(lái)涌現(xiàn)了大量的分類(lèi)、檢測(cè)、分割模型,如ResNet、YOLO、Mask RCNN等,這些AI模型已廣泛應(yīng)用于安防、交通、和自動(dòng)駕駛。然而,核心問(wèn)題之一是這些模型是為 2D 圖像設(shè)計(jì)的,不能直接應(yīng)用于 3D 對(duì)象檢測(cè)任務(wù)。基于圖像的3D物體檢測(cè)的核心問(wèn)題是如何準(zhǔn)確估計(jì)圖像中物體的深度。由于相機(jī)拍攝的照片和視頻將3D空間投影到2D平面,丟失了深度信息,如何恢復(fù)深度信息是一個(gè)“病態(tài)問(wèn)題”。也就是說(shuō),問(wèn)題的解決方案可能不是唯一的。因此,長(zhǎng)期以來(lái),基于圖像的3D目標(biāo)檢測(cè)算法的性能一直遠(yuǎn)低于基于激光雷達(dá)的3D目標(biāo)檢測(cè)算法。自從特斯拉僅使用攝像頭的FSD駕駛系統(tǒng)取得了一定的成功后,基于視覺(jué)的自動(dòng)駕駛感知方案就越來(lái)越受到業(yè)界的關(guān)注。同時(shí),隨著數(shù)據(jù)、算法、算力等方面的進(jìn)步,純視覺(jué)自動(dòng)駕駛感知方案在3D目標(biāo)檢測(cè)任務(wù)中的性能較去年的激光雷達(dá)有明顯提升。NuScenes 數(shù)據(jù)集自動(dòng)駕駛數(shù)據(jù)集的出現(xiàn)時(shí)間更長(zhǎng),傳感器更多,采集時(shí)間更長(zhǎng)。 NuScenes 數(shù)據(jù)集由 Motive 于 2019 年開(kāi)發(fā)并發(fā)布,采集于波士頓和新加坡街頭。為了獲取有意義的場(chǎng)景數(shù)據(jù),我們收集了大約 15 小時(shí)的駕駛數(shù)據(jù),并精心選擇了涵蓋不同場(chǎng)景的駕駛路線。采集車(chē)搭載傳感器,包括6個(gè)攝像頭、1個(gè)激光雷達(dá)、5個(gè)毫米波雷達(dá)、GPS、IMU,具有360°視場(chǎng)感知。
(圖注:安裝在 NuScenes 數(shù)據(jù)集采集車(chē)上的傳感器放置位置圖。它配備了6個(gè)攝像頭、1個(gè)激光雷達(dá)和5個(gè)毫米波雷達(dá)。)
NuScenes 數(shù)據(jù)集提供了幾個(gè)評(píng)估任務(wù),包括 3D 對(duì)象檢測(cè)、3D 對(duì)象跟蹤、預(yù)測(cè)軌跡、激光雷達(dá)分割、全景分割和跟蹤。 3D 物體檢測(cè)任務(wù)的目標(biāo)是檢測(cè) NuScenes 數(shù)據(jù)集中的 10 種不同類(lèi)型的檢測(cè)物體,包括汽車(chē)、卡車(chē)、自行車(chē)和行人。檢測(cè)信息除了物體的三維位置外,還包括物體的大小、方向和速度。 NuScenes提出了一個(gè)綜合的NDS指標(biāo),即NuScenes Detection Score(NDS),它由平均準(zhǔn)確度(mAP)、平均平移誤差(ATE)、平均尺度誤差(ASE)、平均方向誤差(AOE)、平均速度誤差組成(AVE) 和平均屬性誤差 (AAE)。
(圖注:NuScenes 數(shù)據(jù)集中六個(gè)攝像頭采集的圖像示意圖。)
除了NuScenes,業(yè)界還有Waymo、ONCE等開(kāi)源數(shù)據(jù)集。然而,NuScenes 是目前使用最多的數(shù)據(jù)集。自發(fā)布以來(lái),NuScenes 數(shù)據(jù)集已被 2000 多篇研究論文引用。 NuScenes Challenge也成為測(cè)試感知算法在自動(dòng)駕駛相關(guān)任務(wù)中表現(xiàn)的試金石。它吸引了來(lái)自世界各地的研究團(tuán)隊(duì)提交的 220 多份論文。近期,PhiGent Robotics、縱目科技、ECARX等車(chē)企的研發(fā)團(tuán)隊(duì)也出現(xiàn)在了NuScenes的名單中。‘
NuScenes提供了一個(gè)常年更新的榜單,目前一共有50余次提交,其中大多數(shù)的提交發(fā)生在2022年。目前全榜單排名第一的則是浪潮信息算法團(tuán)隊(duì)所提交的“IEI-BEVFusion++”算法模型,關(guān)鍵性指標(biāo)nuScenes Detection Score(NDS)0.776的高分,創(chuàng)造了3D目標(biāo)檢測(cè)全賽道迄今最高成績(jī)。
另外,在純視覺(jué)賽道,算法團(tuán)隊(duì)在2022年所提交的“DABNet4D”模型,綜合檢測(cè)精度NDS 0.624的檢測(cè)效果也一舉登頂屆時(shí)該賽道的榜首。相比之下,2022年初排名第一的BEV3D算法的NDS精度是0.474,也就是說(shuō)在不到一年的時(shí)間內(nèi),NuScenes 純視覺(jué)3D目標(biāo)檢測(cè)的NDS指標(biāo)提升了15個(gè)點(diǎn)?;诩円曈X(jué)算法和激光雷達(dá)算法的精度差距也從年初的45%縮小到17%,而這些,均得益于純視覺(jué)3D檢測(cè)算法優(yōu)化帶來(lái)的性能提升。
展望未來(lái)在自動(dòng)駕駛落地的產(chǎn)業(yè)化進(jìn)程中,感知技術(shù)作為自動(dòng)駕駛的核心技術(shù)模塊,既是起點(diǎn)也是基石。而未來(lái),面向自動(dòng)駕駛感知算法的研發(fā),也將會(huì)投入更為強(qiáng)大的人工智能計(jì)算平臺(tái)予以支撐。從NuScenes榜單技術(shù)的快速迭代來(lái)看,我們有理由相信,隨著算力、算法的持續(xù)型突破,自動(dòng)駕駛產(chǎn)業(yè)化落地進(jìn)程也將多一層“騰飛動(dòng)力之源”。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )