亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目錄
0. 寫在前面&&個(gè)人理解
1. 資料集
2. 基於視覺的3D目標(biāo)偵測
#2.1 Monocular 3D object detection
Prior-guided monocular 3D object detection
Camera-only monocular 3D object detection
Depth-assisted monocular 3D object detection
2.2 Stereo-based 3D object detection
2.3 Multi-view 3D object detection
Depth-based Multi-view methods:
Query-based Multi-view methods
2.4 Analysis: Accuracy, Latency, Robustness
3. 基于Lidar的3D目標(biāo)檢測
3.1 Voxel-based 3D object detection
3.2 Point-based 3D object detection
基於PointNet的方法
基於圖神經(jīng)網(wǎng)路的方法
基於Transformer的方法
3.3 ?Point-Voxel based 3D object detection
4.多模態(tài)3D目標(biāo)偵測
#4.1 Projection-based 3D object detection
4.2 Non-Projection-based 3D object detection
5. 結(jié)論
首頁 科技週邊 人工智慧 選擇相機(jī)還是光達(dá)?實(shí)現(xiàn)穩(wěn)健的三維目標(biāo)檢測的最新綜述

選擇相機(jī)還是光達(dá)?實(shí)現(xiàn)穩(wěn)健的三維目標(biāo)檢測的最新綜述

Jan 26, 2024 am 11:18 AM
3d 自動(dòng)駕駛

0. 寫在前面&&個(gè)人理解

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測?最新綜述!

#自動(dòng)駕駛系統(tǒng)依賴先進(jìn)的感知、決策和控制技術(shù),透過使用各種感測器(如相機(jī)、光達(dá)、雷達(dá)等)來感知周圍環(huán)境,並利用演算法和模型進(jìn)行即時(shí)分析和決策。這使得車輛能夠識別道路標(biāo)誌、檢測和追蹤其他車輛、預(yù)測行人行為等,從而安全地操作和適應(yīng)複雜的交通環(huán)境。這項(xiàng)技術(shù)目前引起了廣泛的關(guān)注,並認(rèn)為是未來交通領(lǐng)域的重要發(fā)展領(lǐng)域之一。但是,讓自動(dòng)駕駛變得困難的是弄清楚如何讓汽車了解周圍發(fā)生的事情。這需要自動(dòng)駕駛系統(tǒng)中的三維物體偵測演算法可以準(zhǔn)確地感知和描述周圍環(huán)境中的物體,包括它們的位置、形狀、大小和類別。這種全面的環(huán)境意識有助於自動(dòng)駕駛系統(tǒng)更了解駕駛環(huán)境,並做出更精確的決策。

我們對自動(dòng)駕駛中的3D物體偵測演算法進(jìn)行了全面評估,主要考慮了穩(wěn)健性。評估中確定了三個(gè)關(guān)鍵因素:環(huán)境變化性、感測器雜訊和誤對準(zhǔn)。這些因素對於偵測演算法在真實(shí)世界多變條件下的效能表現(xiàn)非常重要。

  1. 環(huán)境變化性:?文章強(qiáng)調(diào)偵測演算法需要適應(yīng)不同的環(huán)境條件,例如光照、天氣和季節(jié)的變化。
  2. 感測器雜訊:?演算法必須有效處理感測器的噪聲,可能包括攝影機(jī)的運(yùn)動(dòng)模糊等問題。
  3. 誤對準(zhǔn):?對於校準(zhǔn)錯(cuò)誤或其他因素引起的誤對準(zhǔn),演算法需要考慮到這些因素,無論是外部的(如不平坦的路面)還是內(nèi)部的(例如係統(tǒng)時(shí)鐘誤對準(zhǔn))。

也深入探討了效能評估的三個(gè)關(guān)鍵領(lǐng)域:準(zhǔn)確性、延遲和穩(wěn)健性。

  • 準(zhǔn)確性:儘管研究通常將準(zhǔn)確性作為關(guān)鍵性能指標(biāo),但在複雜和極端條件下的表現(xiàn)需要更深入的理解,以確保真實(shí)世界的可靠性。
  • 延遲:?自動(dòng)駕駛中的即時(shí)能力至關(guān)重要。檢測方法的延遲影響系統(tǒng)及時(shí)決策的能力,特別是在緊急情況下。
  • 穩(wěn)健性:?呼籲對系統(tǒng)在不同條件下的穩(wěn)定性進(jìn)行更全面的評估,因?yàn)樵S多目前的評估可能沒有完全考慮到真實(shí)世界場景的多樣性。

論文指出了多模態(tài)3D檢測方法在安全感知方面的顯著優(yōu)勢,透過融合不同感測器的數(shù)據(jù),提供了更豐富、多樣化的感知能力,進(jìn)而提高了自動(dòng)駕駛系統(tǒng)的安全性。

1. 資料集

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測?最新綜述!

#上述簡要介紹了用於自動(dòng)駕駛系統(tǒng)中的3D物件偵測資料集,主要關(guān)注評估不同感測器模式的優(yōu)勢和局限性,以及公共資料集的特徵。

首先,表格中展示了三種類型的感測器:相機(jī)、點(diǎn)雲(yún)和多模態(tài)(相機(jī)和雷射雷達(dá))。對於每種類型,列出了它們的硬體成本、優(yōu)點(diǎn)和限制。相機(jī)數(shù)據(jù)的優(yōu)點(diǎn)在於提供豐富的顏色和紋理訊息,但它的局限性是缺乏深度資訊且易受光線和天氣影響。光達(dá)則能提供準(zhǔn)確的深度信息,但成本高且沒有顏色資訊。

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測?最新綜述!

接下來,還有一些其他公共資料集可用於自動(dòng)駕駛中的3D物件偵測。這些資料集包括KITTI、nuScenes和Waymo等。這些數(shù)據(jù)集的詳細(xì)資訊如下: - KITTI資料集包含了多個(gè)年份發(fā)布的數(shù)據(jù),使用了不同類型的感測器。它提供了大量的幀數(shù)和註釋數(shù)量,以及各種場景的多樣性,包括場景數(shù)量和類別,以及不同的場景類型,如白天、晴天、夜晚和雨天等。 - nuScenes資料集也是一個(gè)重要的資料集,它同樣包含了多個(gè)年份發(fā)布的資料。該資料集使用了多種感測器,並提供了大量的幀數(shù)和註釋數(shù)量。它涵蓋了各種場景,包括不同的場景數(shù)量和類別,以及各種場景類型。 - Waymo資料集是另一個(gè)用於自動(dòng)駕駛的資料集,同樣具有多個(gè)年份的資料。此資料集使用了不同類型的感測器,並提供了豐富的幀數(shù)和註釋數(shù)量。它涵蓋了各種場

此外,也提到了關(guān)於「乾淨(jìng)」自動(dòng)駕駛資料集的研究,並強(qiáng)調(diào)了在雜訊場景下評估模型穩(wěn)健性的重要性。一些研究關(guān)注在惡劣條件下的相機(jī)單模態(tài)方法,而其他的多模態(tài)資料集則專注於雜訊問題。例如,GROUNDED數(shù)據(jù)集關(guān)注在不同天氣條件下地面穿透雷達(dá)的定位,而ApolloScape開放數(shù)據(jù)集包括了雷射雷達(dá)、相機(jī)和GPS數(shù)據(jù),涵蓋了多種天氣和光照條件。

由於在真實(shí)世界中收集大規(guī)模雜訊資料的成本過高,許多研究轉(zhuǎn)向使用合成資料集。例如,ImageNet-C是在影像分類模型中對抗常見擾動(dòng)的基準(zhǔn)研究。這一研究方向隨後擴(kuò)展到為自動(dòng)駕駛中的3D物體檢測量身定制的穩(wěn)健性資料集。

2. 基於視覺的3D目標(biāo)偵測

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測?最新綜述!

#2.1 Monocular 3D object detection

在這部分內(nèi)容中,討論了單目3D物體檢測的概念以及三種主要的方法:基於先驗(yàn)的單目3D物體檢測、僅相機(jī)的單目3D物體檢測和深度輔助的單目3D物體檢測。

Prior-guided monocular 3D object detection

這種方法利用隱藏在影像中的物體形狀和場景幾何學(xué)的先驗(yàn)知識來解決單目3D物體檢測的挑戰(zhàn)。透過引入預(yù)先訓(xùn)練的子網(wǎng)路或輔助任務(wù),先驗(yàn)知識可以提供額外資訊或限制來幫助精確定位3D物體,增強(qiáng)偵測的精確度和穩(wěn)健性。常見的先驗(yàn)知識包括物體形狀、幾何一致性、時(shí)間約束和分割資訊。例如,Mono3D演算法首先假設(shè)3D物體位於固定的地面平面上,然後使用物體的先驗(yàn)3D形狀來在3D空間中重建邊界框。

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測?最新綜述!

Camera-only monocular 3D object detection

這種方法僅使用單一相機(jī)捕獲的影像來偵測和定位3D物體。它採用卷積神經(jīng)網(wǎng)路(CNN)直接從影像中回歸3D邊界框參數(shù),從而估計(jì)物體在三維空間中的尺寸和姿態(tài)。這種直接迴歸方法可以以端到端的方式進(jìn)行訓(xùn)練,促進(jìn)了3D物體的整體學(xué)習(xí)和推論。例如,Smoke演算法摒棄了2D邊界框的迴歸,透過結(jié)合單一關(guān)鍵點(diǎn)的估計(jì)值和3D變數(shù)的迴歸來預(yù)測每個(gè)偵測目標(biāo)的3D框。

Depth-assisted monocular 3D object detection

深度估計(jì)在深度輔助的單目3D物件偵測中扮演關(guān)鍵角色。為了實(shí)現(xiàn)更準(zhǔn)確的單目檢測結(jié)果,許多研究利用預(yù)先訓(xùn)練的輔助深度估計(jì)網(wǎng)路。這個(gè)過程首先透過使用預(yù)先訓(xùn)練的深度估計(jì)器(如MonoDepth)將單眼影像轉(zhuǎn)換為深度影像。然後,採用兩種主要方法來處理深度影像和單眼影像。例如,Pseudo-LiDAR偵測器使用預(yù)先訓(xùn)練的深度估計(jì)網(wǎng)路產(chǎn)生Pseudo-LiDAR表示,但由於影像到LiDAR產(chǎn)生的錯(cuò)誤,Pseudo-LiDAR與基於LiDAR的偵測器之間存在著巨大的效能差距。

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測?最新綜述!

透過這些方法的探索和應(yīng)用,單目3D物件偵測在電腦視覺和智慧型系統(tǒng)領(lǐng)域取得了顯著進(jìn)展,為這些領(lǐng)域帶來了突破和機(jī)會。

2.2 Stereo-based 3D object detection

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測?最新綜述!

在這部分內(nèi)容中,討論了基於立體視覺的3D物件偵測技術(shù)。立體視覺3D物件偵測利用一對立體影像來辨識和定位3D物體。透過利用立體攝影機(jī)捕獲的雙重視角,這些方法在透過立體匹配和校準(zhǔn)獲取高精度深度資訊方面表現(xiàn)出色,這是它們與單眼攝影機(jī)設(shè)定不同的特點(diǎn)。儘管存在這些優(yōu)勢,與基於雷射雷達(dá)的方法相比,立體視覺方法仍存在相當(dāng)大的性能差距。此外,從立體影像中進(jìn)行3D物件偵測的領(lǐng)域相對較少被探索,僅有限的研究工作致力於這一領(lǐng)域。

  1. 2D-detection based methods:傳統(tǒng)的2D物件偵測框架可以修改以解決立體偵測問題。例如,Stereo R-CNN使用基於影像的2D偵測器來預(yù)測2D提議,為對應(yīng)的左右影像產(chǎn)生左右感興趣區(qū)域(RoIs)。隨後,在第二階段,它直接估計(jì)基於先前產(chǎn)生的RoIs的3D物體參數(shù)。這種範(fàn)式被後續(xù)的工作廣泛採用。
  2. Pseudo-LiDAR based methods:從立體影像預(yù)測的視差圖可以轉(zhuǎn)換為深度圖,進(jìn)一步轉(zhuǎn)換為偽雷射雷達(dá)點(diǎn)。因此,類似於單目偵測方法,偽雷射雷達(dá)表示也可以用於基於立體視覺的3D物體偵測方法。這些方法旨在增強(qiáng)立體匹配中的視差估計(jì),以實(shí)現(xiàn)更準(zhǔn)確的深度預(yù)測。例如,Wang等人是引入偽雷射雷達(dá)表示的先驅(qū)。這種表示法是由具有深度圖的圖像產(chǎn)生的,要求模型執(zhí)行深度估計(jì)任務(wù)以協(xié)助檢測。隨後的工作遵循了這個(gè)範(fàn)式,並透過引入額外的色彩資訊來增強(qiáng)偽點(diǎn)雲(yún)、輔助任務(wù)(如實(shí)例分割、前景和背景分割、領(lǐng)域適應(yīng))和座標(biāo)變換方案進(jìn)行了最佳化。值得注意的是,Ma等人提出的PatchNet挑戰(zhàn)了利用偽雷射雷達(dá)表示進(jìn)行單目3D物件偵測的傳統(tǒng)觀念。透過為每個(gè)像素編碼3D座標(biāo),PatchNet可以在沒有偽雷射雷達(dá)表示的情況下獲得可比較的單目偵測結(jié)果。這項(xiàng)觀察結(jié)果表明,偽雷射雷達(dá)表示的力量來自於座標(biāo)變換,而不是點(diǎn)雲(yún)表示本身。

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測?最新綜述!

2.3 Multi-view 3D object detection

最近,多視圖3D物件偵測在精確度和穩(wěn)健性方面相較於前述的單目和立體視覺3D物體偵測方法表現(xiàn)出了優(yōu)越性。與基於雷射雷達(dá)的3D物體偵測不同,最新的全景鳥瞰視圖(BEV)方法消除了對高精度地圖的需求,將偵測從2D提升到3D。這項(xiàng)進(jìn)展帶來了多視角3D物體偵測的重大發(fā)展。在多相機(jī)3D物件偵測中,關(guān)鍵挑戰(zhàn)在於識別不同影像中的相同物體並從多重視角輸入中聚合物體特徵。目前的方法涉及將多視角統(tǒng)一映射到鳥瞰視圖(BEV)空間,這是一種常見的做法。

Depth-based Multi-view methods:

#從2D到BEV空間的直接轉(zhuǎn)換構(gòu)成了一個(gè)重大挑戰(zhàn)。 LSS是第一個(gè)提出基於深度的方法的,它利用3D空間作為中介。這種方法首先預(yù)測2D特徵的網(wǎng)格深度分佈,然後將這些特徵提升到體素空間。這種方法為更有效地實(shí)現(xiàn)從2D到BEV空間的轉(zhuǎn)換提供了希望。繼LSS之後,CaDDN採用了類似的深度表示方法。透過將體素空間特徵壓縮到BEV空間,它執(zhí)行最終的3D檢測。值得注意的是,CaDDN並不是多視角3D物體偵測的一部分,而是單視角3D物體偵測,它對隨後的深度研究產(chǎn)生了影響。 LSS和CaDDN的主要區(qū)別在於CaDDN使用實(shí)際的地面真實(shí)深度值來監(jiān)督其分類深度分佈的預(yù)測,從而創(chuàng)建了一個(gè)能夠更準(zhǔn)確地從2D空間提取3D資訊的出色深度網(wǎng)路。

Query-based Multi-view methods

在Transformer技術(shù)的影響下,基於query的多視角方法從3D空間檢索2D空間特徵。 DETR3D引入了3D物體query來解決多視角特徵的聚合問題。它透過從不同視角剪輯影像特徵,並使用學(xué)習(xí)到的3D參考點(diǎn)將它們投影到2D空間,從而在鳥瞰視圖(BEV)空間獲得影像特徵。與基於深度的多視角方法不同,基於query的多視角方法透過使用反向query技術(shù)來獲得稀疏BEV特徵,從根本上影響了後續(xù)基於query的發(fā)展。然而,由於與顯式3D參考點(diǎn)相關(guān)的潛在不準(zhǔn)確性,PETR採用了隱式位置編碼方法來建構(gòu)BEV空間,影響了後續(xù)的工作。

2.4 Analysis: Accuracy, Latency, Robustness

目前,基於鳥瞰視圖(BEV)感知的3D物體偵測解決方案正在迅速發(fā)展。儘管存在許多綜述文章,但對這一領(lǐng)域的全面回顧仍然不足。上海AI實(shí)驗(yàn)室和商湯研究院提供了BEV解決方案技術(shù)路線圖的深入回顧。然而,與現(xiàn)有的綜述不同,我們考慮了自動(dòng)駕駛安全感知等關(guān)鍵面向。在分析了基於相機(jī)解決方案的技術(shù)路線圖和當(dāng)前發(fā)展?fàn)顟B(tài)之後,我們打算基於`準(zhǔn)確性、延遲、穩(wěn)健性'的基本原則進(jìn)行討論。我們將整合安全感知的視角,以指導(dǎo)自動(dòng)駕駛中安全感知的實(shí)際實(shí)施。

  1. 準(zhǔn)確度:大多數(shù)研究文章和綜述中都非常關(guān)注準(zhǔn)確性,這確實(shí)非常重要。雖然準(zhǔn)確性可以通過AP(平均精度)來反映,但僅考慮AP可能無法提供全面的視角,因?yàn)椴煌姆椒ㄓ捎诓煌姆妒娇赡鼙憩F(xiàn)出顯著的差異。如圖所示,我們選擇了10種代表性方法進(jìn)行比較,結(jié)果表明單目3D物體檢測與立體視覺3D物體檢測之間存在顯著的度量差異。目前的情況表明,單目3D物體檢測的準(zhǔn)確性遠(yuǎn)低于立體視覺3D物體檢測。立體視覺3D物體檢測利用從同一場景的兩個(gè)不同視角捕獲的圖像來獲取深度信息。相機(jī)之間的基線越大,捕獲的深度信息范圍越廣。隨著時(shí)間的推移,多視角(鳥瞰視圖感知)3D物體檢測逐漸取代了單目方法,顯著提高了mAP。傳感器數(shù)量的增加對mAP產(chǎn)生了重大影響。
  2. 延遲:在自動(dòng)駕駛領(lǐng)域,延遲至關(guān)重要。它指的是系統(tǒng)對輸入信號做出反應(yīng)所需的時(shí)間,包括從傳感器數(shù)據(jù)采集到系統(tǒng)決策制定和執(zhí)行動(dòng)作的整個(gè)過程。在自動(dòng)駕駛中,對延遲的要求非常嚴(yán)格,因?yàn)槿魏涡问降难舆t都可能導(dǎo)致嚴(yán)重的后果。延遲在自動(dòng)駕駛中的重要性體現(xiàn)在以下幾個(gè)方面:實(shí)時(shí)響應(yīng)性、安全性、用戶體驗(yàn)、互動(dòng)性和緊急響應(yīng)。在3D物體檢測領(lǐng)域,延遲(每秒幀數(shù),F(xiàn)PS)和準(zhǔn)確性是評估算法性能的關(guān)鍵指標(biāo)。如圖所示,單目和立體視覺3D物體檢測的圖表顯示了KITTI數(shù)據(jù)集中等難度級別的平均精度(AP)與FPS的關(guān)系。對于自動(dòng)駕駛的實(shí)現(xiàn),3D物體檢測算法必須在延遲和準(zhǔn)確性之間取得平衡。雖然單目檢測速度快,但缺乏精確度;相反,立體和多視角方法準(zhǔn)確但速度較慢。未來的研究不僅應(yīng)保持高精度,還應(yīng)更加重視提高FPS和降低延遲,以滿足自動(dòng)駕駛中實(shí)時(shí)響應(yīng)性和安全性的雙重要求。
  3. 穩(wěn)健性:穩(wěn)健性是自動(dòng)駕駛安全感知的一個(gè)關(guān)鍵因素,代表了一個(gè)在綜合回顧中以前被忽視的重要話題。在當(dāng)前精心設(shè)計(jì)的干凈數(shù)據(jù)集和基準(zhǔn)測試中,如KITTI、nuScenes和Waymo,這一方面通常沒有得到解決。目前,像RoboBEV、Robo3D這樣的研究作品在3D物體檢測中納入了穩(wěn)健性的考慮,例如傳感器缺失等因素。它們采用了一種方法論,包括在與3D物體檢測相關(guān)的數(shù)據(jù)集中引入干擾,以評估穩(wěn)健性。這包括引入各種類型的噪聲,如天氣條件變化、傳感器故障、運(yùn)動(dòng)干擾和與物體相關(guān)的擾動(dòng),旨在揭示不同噪聲源對模型的不同影響。通常,大多數(shù)研究穩(wěn)健性的論文通過向干凈數(shù)據(jù)集的驗(yàn)證集(如KITTI、nuScenes和Waymo)引入噪聲進(jìn)行評估。另外,我們強(qiáng)調(diào)了參考文獻(xiàn)中的發(fā)現(xiàn),其中強(qiáng)調(diào)了KITTI-C和nuScenes-C作為相機(jī)僅3D物體檢測方法的例子。表格提供了總體比較,顯示總體上,相機(jī)僅方法的穩(wěn)健性低于激光雷達(dá)僅和多模型融合方法。它們非常容易受到各種類型的噪聲的影響。在KITTI-C中,三個(gè)代表性的作品——SMOKE、PGD和ImVoxelNet——顯示出一致較低的整體性能和對噪聲的減少穩(wěn)健性。在nuScenes-C中,值得注意的方法如DETR3D和BEVFormer與FCOS3D和PGD相比表現(xiàn)出更大的穩(wěn)健性,表明隨著傳感器數(shù)量的增加,整體穩(wěn)健性提高??傊?,未來的相機(jī)僅方法需要考慮不僅是成本因素和準(zhǔn)確性指標(biāo)(mAP、NDS等),還有與安全感知和穩(wěn)健性相關(guān)的因素。我們的分析旨在為未來自動(dòng)駕駛系統(tǒng)的安全提供有價(jià)值的見解。

3. 基于Lidar的3D目標(biāo)檢測

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測?最新綜述!

基于體素的3D物體檢測方法提出了將稀疏點(diǎn)云分割并分配到規(guī)則體素中,從而形成密集的數(shù)據(jù)表示,這個(gè)過程稱為體素化。與基于視圖的方法相比,基于體素的方法利用空間卷積有效感知3D空間信息,實(shí)現(xiàn)更高的檢測精度,這對自動(dòng)駕駛中的安全感知至關(guān)重要。然而,這些方法仍面臨以下挑戰(zhàn):

  1. 高計(jì)算複雜度:與基於相機(jī)的方法相比,基於體素的方法需要大量的記憶體和計(jì)算資源,因?yàn)橛渺侗硎?D空間的體素?cái)?shù)量龐大。
  2. 空間資訊遺失:由於體素的離散化特性,在體素化過程中細(xì)節(jié)和形狀資訊可能會遺失或模糊,同時(shí)體素有限的解析度使得難以準(zhǔn)確檢測小物體。
  3. 尺度和密度不一致性:基於體素的方法通常需要在不同尺度和密度的體素網(wǎng)格上進(jìn)行檢測,但由於不同場景中目標(biāo)的尺度和密度變化很大,選擇合適的尺度和密度來適應(yīng)不同目標(biāo)成為挑戰(zhàn)。

為了克服這些挑戰(zhàn),需要解決資料表示的限制、提高網(wǎng)路特徵能力和目標(biāo)定位精度,並加強(qiáng)演算法對複雜場景的理解。儘管最佳化策略各不相同,但通常都旨在從資料表示和模型結(jié)構(gòu)方面進(jìn)行最佳化。

3.1 Voxel-based 3D object detection

得益於PC在深度學(xué)習(xí)中的繁榮,基於點(diǎn)的三維物件偵測繼承了其許多框架,並提出在不進(jìn)行預(yù)處理的情況下直接從原始點(diǎn)偵測三維物件。與voxel-based方法相比,原始點(diǎn)雲(yún)保留了最大量的原始信息,這有利於細(xì)粒度的特徵獲取,result high accuracy。同時(shí),PointNet的一系列工作自然為基於點(diǎn)的方法提供了強(qiáng)大的基礎(chǔ)。基於點(diǎn)的3D物件偵測器有兩個(gè)基本組成部分:點(diǎn)雲(yún)採樣和特徵學(xué)習(xí)%截至目前,Point-based方法的性能仍被兩個(gè)因素所影響:上下文點(diǎn)的數(shù)量和特徵學(xué)習(xí)中採用的上下文半徑。 e.g.增加上下文點(diǎn)的數(shù)量可以獲得更細(xì)緻的3D信息,但會顯著增加模型的推理時(shí)間。類似地,縮小上下文半徑可以獲得相同地效果。因此,為這兩個(gè)因素選擇合適的值,可以使模型在精確度和速度之間達(dá)到一個(gè)平衡。此外,由於需要對點(diǎn)雲(yún)中每一個(gè)點(diǎn)進(jìn)行運(yùn)算,因此點(diǎn)雲(yún)採樣過程是限制point-based方法即時(shí)運(yùn)行的主要因素。具體來說,為解決上述問題,現(xiàn)有的方法大多圍繞基於點(diǎn)的3D物件偵測器的兩個(gè)基本組成部分進(jìn)行最佳化:1) Point Sampling 2) feature learning

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測?最新綜述!

3.2 Point-based 3D object detection

#基於點(diǎn)的3D物體偵測方法繼承了許多深度學(xué)習(xí)框架,並提出直接從原始點(diǎn)雲(yún)中偵測3D物體,而不進(jìn)行預(yù)處理。與基於體素的方法相比,原始點(diǎn)雲(yún)最大限度地保留了原始訊息,有利於細(xì)粒度特徵的獲取,從而實(shí)現(xiàn)高精度。同時(shí),PointNet系列工作為基於點(diǎn)的方法提供了強(qiáng)大的基礎(chǔ)。然而,到目前為止,基於點(diǎn)的方法的性能仍受兩個(gè)因素的影響:上下文點(diǎn)的數(shù)量和特徵學(xué)習(xí)中使用的上下文半徑。例如,增加上下文點(diǎn)的數(shù)量可以獲得更細(xì)緻的3D訊息,但會顯著增加模型的推理時(shí)間。類似地,縮小上下文半徑可以達(dá)到相同的效果。因此,為這兩個(gè)因素選擇適當(dāng)?shù)闹悼梢允鼓P驮诰群退俣戎g實(shí)現(xiàn)平衡。此外,由於需要對點(diǎn)雲(yún)中的每個(gè)點(diǎn)進(jìn)行運(yùn)算,因此點(diǎn)雲(yún)採樣過程是限制基於點(diǎn)方法即時(shí)運(yùn)行的主要因素。為解決這些問題,現(xiàn)有方法主要圍繞基於點(diǎn)的3D物體偵測器的兩個(gè)基本組成部分進(jìn)行最佳化:1) 點(diǎn)雲(yún)採樣;2) 特徵學(xué)習(xí)。

最遠(yuǎn)點(diǎn)採樣(FPS)源自PointNet ,是一種在基於點(diǎn)的方法中廣泛使用的點(diǎn)雲(yún)採樣方法。它的目標(biāo)是從原始點(diǎn)雲(yún)中選擇一組具有代表性的點(diǎn),使它們之間的距離最大化,以最好地覆蓋整個(gè)點(diǎn)雲(yún)的空間分佈。 PointRCNN是基於點(diǎn)的方法中的開創(chuàng)性的兩階段檢測器,使用PointNet 作為骨幹網(wǎng)路。在第一階段,它以自下而上的方式從點(diǎn)雲(yún)中產(chǎn)生3D提議。在第二階段,透過結(jié)合語意特徵和局部空間特徵來精煉提議。然而,現(xiàn)有基於FPS的方法仍面臨一些問題:1) 與檢測無關(guān)的點(diǎn)同樣參與採樣過程,帶來額外的計(jì)算負(fù)擔(dān);2) 點(diǎn)在物體的不同部分分佈不均勻,導(dǎo)致次優(yōu)的採樣策略。為了解決這些問題,後續(xù)工作採用了類似FPS的設(shè)計(jì)範(fàn)式,並進(jìn)行了改進(jìn),例如,透過分割引導(dǎo)的背景點(diǎn)過濾、隨機(jī)採樣、特徵空間採樣、基於體素的採樣和基於光線分組的採樣。

基於點(diǎn)的3D物件偵測方法的特徵學(xué)習(xí)階段旨在從稀疏點(diǎn)雲(yún)資料中提取具有判別性的特徵表示。在特徵學(xué)習(xí)階段使用的神經(jīng)網(wǎng)路應(yīng)具備以下特性:1) 不變性,點(diǎn)雲(yún)骨幹網(wǎng)路應(yīng)對輸入點(diǎn)雲(yún)的排列順序不敏感;2) 具有局部感知能力,能夠?qū)植繀^(qū)域進(jìn)行感知和建模,提取局部特徵;3) 具有整合情境資訊的能力,能夠從全局和局部的上下文資訊中提取特徵。基於上述特性,大量的偵測器被設(shè)計(jì)用於處理原始點(diǎn)雲(yún)。大多數(shù)方法可以根據(jù)所使用的核心算子分為:1) 基於PointNet的方法;2) 基於圖神經(jīng)網(wǎng)路的方法;3) 基於Transformer的方法。

基於PointNet的方法

基於PointNet的方法主要依賴集合抽象來對原始點(diǎn)進(jìn)行降採樣,聚合局部信息,並整合上下文信息,同時(shí)保持原始點(diǎn)的對稱不變性。 Point-RCNN是基於點(diǎn)的方法中的第一個(gè)兩階段工作,取得了出色的性能,但仍面臨高計(jì)算成本的問題。後續(xù)工作透過在偵測過程中引入額外的語意分割任務(wù)來過濾掉對偵測貢獻(xiàn)最小的背景點(diǎn),解決了這個(gè)問題。

基於圖神經(jīng)網(wǎng)路的方法

圖神經(jīng)網(wǎng)路(GNN)具有自適應(yīng)結(jié)構(gòu)、動(dòng)態(tài)鄰域、構(gòu)建局部和全局上下文關(guān)係的能力以及對不規(guī)則採樣的穩(wěn)健性。 Point-GNN是一項(xiàng)開創(chuàng)性的工作,設(shè)計(jì)了一個(gè)單階段圖神經(jīng)網(wǎng)絡(luò),透過自動(dòng)註冊機(jī)制、合併和評分操作來預(yù)測對象的類別和形狀,展示了使用圖神經(jīng)網(wǎng)絡(luò)作為3D物體檢測新方法的潛力。

基於Transformer的方法

近年來,Transformer(Transformer)在點(diǎn)雲(yún)分析中得到了探索,並在許多任務(wù)上表現(xiàn)出色。例如,Pointformer引入了局部和全局注意模組來處理3D點(diǎn)雲(yún),局部Transformer模組用於對局部區(qū)域中的點(diǎn)之間的交互進(jìn)行建模,而全局Transformer旨在學(xué)習(xí)場景級別的上下文感知表示。 Group-free直接利用點(diǎn)雲(yún)中的所有點(diǎn)來計(jì)算每個(gè)物件候選的特徵,其中每個(gè)點(diǎn)的貢獻(xiàn)由自動(dòng)學(xué)習(xí)的注意模組決定。這些方法展示了基於Transformer的方法在處理非結(jié)構(gòu)化和無序的原始點(diǎn)雲(yún)方面的潛力。

3.3 ?Point-Voxel based 3D object detection

點(diǎn)雲(yún)基礎(chǔ)的3D物件偵測方法提供高解析度並保留了原始資料的空間結(jié)構(gòu),但它們在處理稀疏資料時(shí)面臨高計(jì)算複雜性和低效率。相較之下,基於體素的方法提供了結(jié)構(gòu)化的數(shù)據(jù)表示,提高了計(jì)算效率,並促進(jìn)了傳統(tǒng)卷積神經(jīng)網(wǎng)路技術(shù)的應(yīng)用。然而,由於離散化過程,它們通常會失去細(xì)微的空間細(xì)節(jié)。為了解決這些問題,開發(fā)了點(diǎn)-體素(PV)基礎(chǔ)的方法。點(diǎn)-體素方法旨在利用基於點(diǎn)的方法的細(xì)粒度資訊捕獲能力和基於體素的方法的計(jì)算效率。透過整合這些方法,點(diǎn)-體素基礎(chǔ)的方法能夠更詳細(xì)地處理點(diǎn)雲(yún)數(shù)據(jù),捕捉全局結(jié)構(gòu)和微觀幾何細(xì)節(jié)。這對於自動(dòng)駕駛中的安全感知至關(guān)重要,因?yàn)樽詣?dòng)駕駛系統(tǒng)的決策精確度取決於高精確度的偵測結(jié)果。

點(diǎn)-體素方法的關(guān)鍵目標(biāo)是透過點(diǎn)到體素或體素到點(diǎn)的轉(zhuǎn)換,實(shí)現(xiàn)體素和點(diǎn)之間的特徵互動(dòng)。許多工作已經(jīng)探索了在骨幹網(wǎng)路中利用點(diǎn)-體素特徵融合的想法。這些方法可分為兩類:1) 早期融合;2) 後期融合。

a)?早期融合:有些方法已經(jīng)探討了使用新的捲積運(yùn)算子來融合體素和點(diǎn)特徵,PVCNN可能是這方向的首個(gè)工作。在這種方法中,基於體素的分支首先將點(diǎn)轉(zhuǎn)換為低解析度的體素網(wǎng)格,並透過卷積聚合鄰近體素特徵。然後,透過稱為去體素化的過程,將體素級特徵轉(zhuǎn)換回點(diǎn)級特徵,並與基於點(diǎn)的分支獲得的特徵融合?;饵c(diǎn)的分支為每個(gè)單獨(dú)的點(diǎn)提取特徵。由於它不聚合鄰近信息,該方法可以以更高的速度運(yùn)行。接著,SPVCNN在PVCNN的基礎(chǔ)上擴(kuò)展到物體偵測領(lǐng)域。其他方法則試圖從不同的角度進(jìn)行改進(jìn),如輔助任務(wù)或多尺度特徵融合。

b)?後期融合:這一系列方法主要採用兩階段偵測框架。首先,使用基於體素的方法產(chǎn)生初步的物體提議。接著,利用點(diǎn)級特徵對偵測框進(jìn)行精確劃分。 Shi等人提出的PV-RCNN是點(diǎn)-體素基礎(chǔ)方法中的一個(gè)里程碑。它使用SECOND作為第一階段檢測器,並提出了具有RoI網(wǎng)格池的第二階段精煉階段,用於關(guān)鍵點(diǎn)特徵的融合。後續(xù)工作主要遵循上述範(fàn)式,並專注於第二階段檢測的進(jìn)展。值得注意的發(fā)展包括注意力機(jī)制、尺度感知池化和點(diǎn)密度感知精煉模組。

點(diǎn)-體素基礎(chǔ)的方法同時(shí)具有基於體素方法的計(jì)算效率和基於點(diǎn)方法捕獲細(xì)粒度資訊的能力。然而,構(gòu)建點(diǎn)到體素或體素到點(diǎn)的關(guān)係,以及體素和點(diǎn)的特徵融合,會帶來額外的計(jì)算開銷。因此,與基於體素的方法相比,點(diǎn)-體素基礎(chǔ)

的方法可以實(shí)現(xiàn)更好的檢測精度,但代價(jià)是增加了推理時(shí)間。

4.多模態(tài)3D目標(biāo)偵測

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測?最新綜述!

#4.1 Projection-based 3D object detection

基於投影的3D物件偵測方法在特徵融合階段使用投影矩陣來實(shí)現(xiàn)點(diǎn)雲(yún)和影像特徵的整合。這裡的關(guān)鍵是關(guān)注在特徵融合期間的投影,而不是融合階段的其他投影過程,如資料增強(qiáng)等。根據(jù)融合階段所使用的不同類型的投影,可以將投影基礎(chǔ)的3D物件偵測方法進(jìn)一步細(xì)分為以下幾類:

  1. 基於點(diǎn)投影的3D物件偵測:這類方法透過將影像特徵投影到原始點(diǎn)雲(yún)上來增強(qiáng)原始點(diǎn)雲(yún)資料的表示能力。這些方法的第一步是使用校準(zhǔn)矩陣建立雷射雷達(dá)點(diǎn)和影像像素之間的強(qiáng)相關(guān)性。接下來,透過新增額外資料來增強(qiáng)點(diǎn)雲(yún)特徵。這種增強(qiáng)有兩種形式:一種是透過合併分割分?jǐn)?shù)(如PointPainting),另一種是使用來自相關(guān)像素的CNN特徵(如MVP)。 PointPainting透過追加分割分?jǐn)?shù)來增強(qiáng)雷射雷達(dá)點(diǎn),但在有效捕捉影像中的顏色和紋理細(xì)節(jié)方面有其限制。為解決這些問題,開發(fā)了更複雜的方法,如FusionPainting。
  2. 基於特徵投影的3D物件偵測:與基於點(diǎn)投影的方法不同,這類方法主要關(guān)注在點(diǎn)雲(yún)特徵提取階段將點(diǎn)雲(yún)特徵與影像特徵融合。在這個(gè)過程中,透過應(yīng)用校準(zhǔn)矩陣將體素的三維座標(biāo)系統(tǒng)轉(zhuǎn)換為影像的像素座標(biāo)系統(tǒng),從而有效地融合點(diǎn)雲(yún)和影像模態(tài)。例如,ContFuse透過連續(xù)卷積融合多尺度卷積特徵圖。
  3. 自動(dòng)投影基礎(chǔ)的3D物件偵測:許多研究透過直接投影進(jìn)行融合,但沒有解決投影誤差問題。一些工作(如AutoAlignV2)透過學(xué)習(xí)偏移量和鄰域投影等方法來減輕這些誤差。例如,HMFI、GraphAlign和GraphAlign 利用投影校準(zhǔn)矩陣的先驗(yàn)知識進(jìn)行影像投影,並進(jìn)行局部圖建模。
  4. 基於決策投影的3D物件偵測:這類方法使用投影矩陣來對齊感興趣區(qū)域(RoI)或特定結(jié)果中的特徵。例如,Graph-RCNN將圖節(jié)點(diǎn)投影到攝影機(jī)影像中的位置,並透過雙線性內(nèi)插收集攝影機(jī)影像中該像素的特徵向量。 F-PointNet透過2D影像偵測來確定物件的類別和定位,並透過校準(zhǔn)的感測器參數(shù)和3D空間的轉(zhuǎn)換矩陣來獲得對應(yīng)3D空間中的點(diǎn)雲(yún)。

這些方法展示瞭如何在多模態(tài)3D物體檢測中使用投影技術(shù)來實(shí)現(xiàn)特徵融合,但它們在處理不同模態(tài)間的交互和準(zhǔn)確性方面仍存在一定的局限性。

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測?最新綜述!

4.2 Non-Projection-based 3D object detection

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測?最新綜述!

##非投影式三維物體檢測方法透過不依賴特徵對齊來實(shí)現(xiàn)融合,從而產(chǎn)生穩(wěn)健的特徵表示。它們規(guī)避了相機(jī)到雷射雷達(dá)投影的局限性,這種投影通常會降低相機(jī)特徵的語義密度,並影響如Focals Conv和PointPainting等技術(shù)的有效性。非投影式方法通常採用交叉注意力機(jī)製或建構(gòu)統(tǒng)一空間來解決直接特徵投影中固有的不對齊問題。這些方法主要分為兩類:(1)基於query學(xué)習(xí)的方法和(2)基於統(tǒng)一特徵的方法。基於query學(xué)習(xí)的方法完全避免了融合過程中的對齊需求。相反,基於統(tǒng)一特徵的方法雖然建構(gòu)了統(tǒng)一的特徵空間,但並沒有完全避免投影;它通常發(fā)生在單一模態(tài)背景下。例如,BEVFusion利用LSS進(jìn)行相機(jī)到BEV的投影。這個(gè)過程發(fā)生在融合之前,在特徵不對齊的場景中顯示出相當(dāng)?shù)姆€(wěn)健性。

  1. 基於query學(xué)習(xí)的三維物件偵測:基於query學(xué)習(xí)的三維物件偵測方法,如Transfusion、DeepFusion、DeepInteraction、autoalign、CAT-Det、MixedFusion等,避免了特徵融合過程中的投影需求。相反,它們透過交叉注意力機(jī)制在進(jìn)行特徵融合之前實(shí)現(xiàn)特徵對齊。點(diǎn)雲(yún)特徵通常作為query,而影像特徵作為鍵和值,透過全局特徵query獲得高度穩(wěn)健的多模態(tài)特徵。此外,DeepInteraction引入了多模態(tài)交互,其中點(diǎn)雲(yún)和圖像特徵作為不同的query來實(shí)現(xiàn)更進(jìn)一步的特徵交互。與僅使用點(diǎn)雲(yún)特徵作為query相比,全面整合影像特徵導(dǎo)致了更強(qiáng)韌的多模態(tài)特徵的獲得。總的來說,基於query學(xué)習(xí)的三維物件偵測方法採用基於Transformer的結(jié)構(gòu)進(jìn)行特徵query以實(shí)現(xiàn)特徵對齊。最終,多模態(tài)特徵被整合進(jìn)雷射雷達(dá)基礎(chǔ)的流程中,如CenterPoint。
  2. 基於統(tǒng)一特徵的三維物體偵測:基於統(tǒng)一特徵的三維物體偵測方法,如EA-BEV、BEVFusion、cai2023bevfusion4d、FocalFormer3D、FUTR3D、UniTR、Uni3D、virconv、MSMDFusion、 sfd、cmt、UVTR、sparsefusion等,通常在特徵融合前透過投影實(shí)現(xiàn)異構(gòu)模態(tài)的預(yù)融合統(tǒng)一。在BEV融合系列中,使用LSS進(jìn)行深度估計(jì),前視特徵轉(zhuǎn)換為BEV特徵,然後融合BEV影像和BEV點(diǎn)雲(yún)特徵。另一方面,CMT和UniTR使用Transformer進(jìn)行點(diǎn)雲(yún)和影像的標(biāo)記化,透過Transformer編碼建構(gòu)隱式統(tǒng)一空間。 CMT在位置編碼過程中使用投影,但在特徵學(xué)習(xí)層級完全避免了對投影關(guān)係的依賴。 FocalFormer3D、FUTR3D和UVTR利用Transformer的query實(shí)作類似DETR3D的方案,透過query建構(gòu)統(tǒng)一的稀疏BEV特徵空間,減輕了直接投影帶來的不穩(wěn)定性。

VirConv、MSMDFusion和SFD透過偽點(diǎn)雲(yún)建構(gòu)統(tǒng)一空間,在特徵學(xué)習(xí)之前發(fā)生投影。透過後續(xù)特徵學(xué)習(xí)解決了直接投影引入的問題??傊?,基於統(tǒng)一特徵的三維物體偵測方法目前代表了高精度和強(qiáng)魯棒性的解決方案。儘管它們包含投影矩陣,但這種投影不發(fā)生在多模態(tài)融合之間,因此被視為非投影式三維物體偵測方法。與自動(dòng)投影式三維物體偵測方法不同,它們不會直接解決投影誤差問題,而是選擇建構(gòu)統(tǒng)一空間,考慮多模態(tài)三維物體偵測的多個(gè)維度,從而獲得高度穩(wěn)健的多模態(tài)特徵。

5. 結(jié)論

3D物件偵測在自動(dòng)駕駛感知中扮演著至關(guān)重要的角色。近年來,這個(gè)領(lǐng)域快速發(fā)展,產(chǎn)生了大量的研究論文。基於感測器產(chǎn)生的多樣化資料形式,這些方法主要分為三種類型:基於影像的、基於點(diǎn)雲(yún)的和多模態(tài)的。這些方法的主要評估指標(biāo)是高準(zhǔn)確性和低延遲。許多綜述總結(jié)了這些方法,主要關(guān)注`高準(zhǔn)確性和低延遲'的核心原則,描述它們的技術(shù)軌跡。

然而,在自動(dòng)駕駛技術(shù)從突破轉(zhuǎn)向?qū)嶋H應(yīng)用的過程中,現(xiàn)有的綜述沒有將安全感知作為核心關(guān)注點(diǎn),未能涵蓋與安全感知相關(guān)的當(dāng)前技術(shù)路徑。例如,最近的多模態(tài)融合方法在實(shí)驗(yàn)階段通常會進(jìn)行穩(wěn)健性測試,這一方面在目前的綜述中並未得到充分考慮。

因此,重新審視3D物體偵測演算法,以`準(zhǔn)確性、延遲和魯棒性'為關(guān)鍵面向進(jìn)行重點(diǎn)關(guān)注。我們重新分類先前的綜述,特別強(qiáng)調(diào)從安全感知的角度進(jìn)行重新劃分。希望這項(xiàng)工作能為未來3D物體檢測的研究提供新的見解,超越僅僅探索高準(zhǔn)確性的限制。

Camera or Lidar?如何實(shí)現(xiàn)魯棒的3D目標(biāo)檢測?最新綜述!

以上是選擇相機(jī)還是光達(dá)?實(shí)現(xiàn)穩(wěn)健的三維目標(biāo)檢測的最新綜述的詳細(xì)內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程
1597
29
PHP教程
1488
72
為何在自動(dòng)駕駛方面Gaussian Splatting如此受歡迎,開始放棄NeRF? 為何在自動(dòng)駕駛方面Gaussian Splatting如此受歡迎,開始放棄NeRF? Jan 17, 2024 pm 02:57 PM

寫在前面&筆者的個(gè)人理解三維Gaussiansplatting(3DGS)是近年來在顯式輻射場和電腦圖形學(xué)領(lǐng)域出現(xiàn)的一種變革性技術(shù)。這種創(chuàng)新方法的特點(diǎn)是使用了數(shù)百萬個(gè)3D高斯,這與神經(jīng)輻射場(NeRF)方法有很大的不同,後者主要使用隱式的基於座標(biāo)的模型將空間座標(biāo)映射到像素值。 3DGS憑藉其明確的場景表示和可微分的渲染演算法,不僅保證了即時(shí)渲染能力,而且引入了前所未有的控制和場景編輯水平。這將3DGS定位為下一代3D重建和表示的潛在遊戲規(guī)則改變者。為此我們首次系統(tǒng)性地概述了3DGS領(lǐng)域的最新發(fā)展與關(guān)

自動(dòng)駕駛場景中的長尾問題怎麼解決? 自動(dòng)駕駛場景中的長尾問題怎麼解決? Jun 02, 2024 pm 02:44 PM

昨天面試被問到了是否做過長尾相關(guān)的問題,所以就想著簡單總結(jié)一下。自動(dòng)駕駛長尾問題是指自動(dòng)駕駛汽車中的邊緣情況,即發(fā)生機(jī)率較低的可能場景。感知的長尾問題是目前限制單車智慧自動(dòng)駕駛車輛運(yùn)行設(shè)計(jì)域的主要原因之一。自動(dòng)駕駛的底層架構(gòu)和大部分技術(shù)問題已經(jīng)解決,剩下的5%的長尾問題,逐漸成了限制自動(dòng)駕駛發(fā)展的關(guān)鍵。這些問題包括各種零碎的場景、極端的情況和無法預(yù)測的人類行為。自動(dòng)駕駛中的邊緣場景"長尾"是指自動(dòng)駕駛汽車(AV)中的邊緣情況,邊緣情況是發(fā)生機(jī)率較低的可能場景。這些罕見的事件

SIMPL:用於自動(dòng)駕駛的簡單高效的多智能體運(yùn)動(dòng)預(yù)測基準(zhǔn) SIMPL:用於自動(dòng)駕駛的簡單高效的多智能體運(yùn)動(dòng)預(yù)測基準(zhǔn) Feb 20, 2024 am 11:48 AM

原文標(biāo)題:SIMPL:ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving論文連結(jié):https://arxiv.org/pdf/2402.02519.pdf程式碼連結(jié):https://github.com/HKUST-Aerial-Robotics/SIMPLobotics單位論文想法:本文提出了一種用於自動(dòng)駕駛車輛的簡單且有效率的運(yùn)動(dòng)預(yù)測基線(SIMPL)。與傳統(tǒng)的以代理為中心(agent-cent

Sparse4D v3來了!推進(jìn)端到端3D偵測與追蹤 Sparse4D v3來了!推進(jìn)端到端3D偵測與追蹤 Nov 24, 2023 am 11:21 AM

新標(biāo)題:Sparse4Dv3:推進(jìn)端到端的3D檢測和追蹤技術(shù)論文連結(jié):https://arxiv.org/pdf/2311.11722.pdf需要重新寫的內(nèi)容是:程式碼連結(jié):https://github.com/linxuewu/ Sparse4D重寫的內(nèi)容:作者所屬單位為地平線公司論文想法:在自動(dòng)駕駛感知系統(tǒng)中,3D偵測與追蹤是兩項(xiàng)基本任務(wù)。本文基於Sparse4D框架更深入研究了這個(gè)領(lǐng)域。本文引入了兩個(gè)輔助訓(xùn)練任務(wù)(時(shí)序?qū)嵗ルs訊-TemporalInstanceDenoising和品質(zhì)估計(jì)-Q

選擇相機(jī)還是光達(dá)?實(shí)現(xiàn)穩(wěn)健的三維目標(biāo)檢測的最新綜述 選擇相機(jī)還是光達(dá)?實(shí)現(xiàn)穩(wěn)健的三維目標(biāo)檢測的最新綜述 Jan 26, 2024 am 11:18 AM

0.寫在前面&&個(gè)人理解自動(dòng)駕駛系統(tǒng)依賴先進(jìn)的感知、決策和控制技術(shù),透過使用各種感測器(如相機(jī)、光達(dá)、雷達(dá)等)來感知周圍環(huán)境,並利用演算法和模型進(jìn)行即時(shí)分析和決策。這使得車輛能夠識別道路標(biāo)誌、檢測和追蹤其他車輛、預(yù)測行人行為等,從而安全地操作和適應(yīng)複雜的交通環(huán)境。這項(xiàng)技術(shù)目前引起了廣泛的關(guān)注,並認(rèn)為是未來交通領(lǐng)域的重要發(fā)展領(lǐng)域之一。但是,讓自動(dòng)駕駛變得困難的是弄清楚如何讓汽車了解周圍發(fā)生的事情。這需要自動(dòng)駕駛系統(tǒng)中的三維物體偵測演算法可以準(zhǔn)確地感知和描述周圍環(huán)境中的物體,包括它們的位置、

CLIP-BEVFormer:明確監(jiān)督BEVFormer結(jié)構(gòu),提升長尾偵測性能 CLIP-BEVFormer:明確監(jiān)督BEVFormer結(jié)構(gòu),提升長尾偵測性能 Mar 26, 2024 pm 12:41 PM

寫在前面&筆者的個(gè)人理解目前,在整個(gè)自動(dòng)駕駛系統(tǒng)當(dāng)中,感知模組扮演了其中至關(guān)重要的角色,行駛在道路上的自動(dòng)駕駛車輛只有通過感知模組獲得到準(zhǔn)確的感知結(jié)果後,才能讓自動(dòng)駕駛系統(tǒng)中的下游規(guī)控模組做出及時(shí)、正確的判斷和行為決策。目前,具備自動(dòng)駕駛功能的汽車中通常會配備包括環(huán)視相機(jī)感測器、光達(dá)感測器以及毫米波雷達(dá)感測器在內(nèi)的多種數(shù)據(jù)資訊感測器來收集不同模態(tài)的信息,用於實(shí)現(xiàn)準(zhǔn)確的感知任務(wù)?;都円曈X的BEV感知演算法因其較低的硬體成本和易於部署的特點(diǎn),以及其輸出結(jié)果能便捷地應(yīng)用於各種下游任務(wù),因此受到工業(yè)

自動(dòng)駕駛與軌跡預(yù)測看這篇就夠了! 自動(dòng)駕駛與軌跡預(yù)測看這篇就夠了! Feb 28, 2024 pm 07:20 PM

軌跡預(yù)測在自動(dòng)駕駛中承擔(dān)著重要的角色,自動(dòng)駕駛軌跡預(yù)測是指透過分析車輛行駛過程中的各種數(shù)據(jù),預(yù)測車輛未來的行駛軌跡。作為自動(dòng)駕駛的核心模組,軌跡預(yù)測的品質(zhì)對於下游的規(guī)劃控制至關(guān)重要。軌跡預(yù)測任務(wù)技術(shù)堆疊豐富,需熟悉自動(dòng)駕駛動(dòng)/靜態(tài)感知、高精地圖、車道線、神經(jīng)網(wǎng)路架構(gòu)(CNN&GNN&Transformer)技能等,入門難度很高!許多粉絲期望能夠盡快上手軌跡預(yù)測,少踩坑,今天就為大家盤點(diǎn)下軌跡預(yù)測常見的一些問題和入門學(xué)習(xí)方法!入門相關(guān)知識1.預(yù)習(xí)的論文有沒有切入順序? A:先看survey,p

FisheyeDetNet:首個(gè)以魚眼相機(jī)為基礎(chǔ)的目標(biāo)偵測演算法 FisheyeDetNet:首個(gè)以魚眼相機(jī)為基礎(chǔ)的目標(biāo)偵測演算法 Apr 26, 2024 am 11:37 AM

目標(biāo)偵測在自動(dòng)駕駛系統(tǒng)當(dāng)中是一個(gè)比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數(shù)論文當(dāng)中已經(jīng)進(jìn)行了非常全面的研究。然而,利用魚眼相機(jī)進(jìn)行環(huán)視的距離感知相對來說研究較少。由於徑向畸變大,標(biāo)準(zhǔn)的邊界框表示在魚眼相機(jī)當(dāng)中很難實(shí)施。為了緩解上述描述,我們探索了擴(kuò)展邊界框、橢圓、通用多邊形設(shè)計(jì)為極座標(biāo)/角度表示,並定義一個(gè)實(shí)例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優(yōu)於其他模型,並同時(shí)在用於自動(dòng)駕駛的Valeo魚眼相機(jī)資料集上實(shí)現(xiàn)了49.5%的mAP

See all articles