亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目錄
筆者的一些個人思考
什麼是DrivingDiffusion?
DrivingDiffusion產(chǎn)生效果是怎麼樣的?
(1)DrivingDiffusion
DrivingDiffusion是如何解決上述問題的?
DrivingDiffusion方法概述
DrivingDiffusion產(chǎn)生長影片流程
跨視角模型與時序模型的訓(xùn)練架構(gòu)
Consistency Module & Local Prompt
DrivingDiffusion-Future方法概述
實驗分析
DrivingDiffusion的意義和未來工作
首頁 科技週邊 人工智慧 首個多視角自動駕駛場景影片產(chǎn)生世界模型 | DrivingDiffusion: BEV資料與模擬新思路

首個多視角自動駕駛場景影片產(chǎn)生世界模型 | DrivingDiffusion: BEV資料與模擬新思路

Oct 23, 2023 am 11:13 AM
科技 自動駕駛

筆者的一些個人思考

在自動駕駛領(lǐng)域,隨著BEV-based子任務(wù)/端到端方案的發(fā)展,高品質(zhì)的多視圖訓(xùn)練數(shù)據(jù)和對應(yīng)的模擬場景建構(gòu)愈發(fā)重要。針對當(dāng)下任務(wù)的痛點,「高品質(zhì)」可以解耦成三個面向:

  1. 不同維度上的長尾場景:如障礙物資料中近距離的車輛以及切車過程中精準(zhǔn)的朝向角,以及車道線資料中不同曲率的彎道或較難擷取的匝道/匯入/合流等場景。這些往往靠大量的資料收集和複雜的資料探勘策略,成本高昂。
  2. 3D真值-影像的高度一致性:當(dāng)下的BEV資料擷取往往受到感測器安裝/標(biāo)定,高精地圖以及重建演算法本身的誤差影響。這導(dǎo)致了我們很難保證數(shù)據(jù)中的每一組【3D真值-影像-感測器參數(shù)】 的精確一致。
  3. 滿足上述條件基礎(chǔ)上的時序資料:連續(xù)幀的多視角影像和對應(yīng)真值,這對於當(dāng)前的感知/預(yù)測/決策/端到端等任務(wù)都是必必不可少的。

而對模擬來說,可以直接透過佈局進行滿足上述條件的視訊生成,無疑是最直接的multi-agent感測器輸入的建構(gòu)方式。而DrivingDiffusion則從一個新的角度解決了上述問題。

什麼是DrivingDiffusion?

  • DrivingDiffusion是一個用於自動駕駛場景生成的擴散模型框架,實現(xiàn)了佈局控制的多視角圖像/視頻生成並分別實現(xiàn)了SOTA。
  • DrivingDiffusion-Future作為自動駕駛世界模型有根據(jù)單幀圖像預(yù)測未來場景視頻並根據(jù)語言提示影響主車/他車運動規(guī)劃的能力。

DrivingDiffusion產(chǎn)生效果是怎麼樣的?

有需要的同學(xué)可以先看看專案首頁:https://drivingdiffusion.github.io

(1)DrivingDiffusion

#佈局控制的多視角影像產(chǎn)生

首個多視角自動駕駛場景視頻生成世界模型 | DrivingDiffusion: BEV數(shù)據(jù)和仿真新思路

圖中展示了以佈局投影作為輸入的multi-view影像產(chǎn)生效果。

調(diào)整佈局:精確控制產(chǎn)生結(jié)果

首個多視角自動駕駛場景視頻生成世界模型 | DrivingDiffusion: BEV數(shù)據(jù)和仿真新思路

#圖中上半部展示了生成結(jié)果的多樣性以及下文中模組設(shè)計的重要性。下半部展示了對正後方的車輛進行擾動的結(jié)果,包含移動,轉(zhuǎn)向,碰撞甚至懸浮在空中的場景的生成效果。

佈局控制的多重視角影片產(chǎn)生

首個多視角自動駕駛場景視頻生成世界模型 | DrivingDiffusion: BEV數(shù)據(jù)和仿真新思路

首個多視角自動駕駛場景視頻生成世界模型 | DrivingDiffusion: BEV數(shù)據(jù)和仿真新思路



首個多視角自動駕駛場景視頻生成世界模型 | DrivingDiffusion: BEV數(shù)據(jù)和仿真新思路#上:DrivingDiffusion在nuScenes資料上訓(xùn)練後的影片產(chǎn)生結(jié)果。下:DrivingDiffusion在大量私有真實資料上訓(xùn)練後的影片產(chǎn)生結(jié)果。

(2)DrivingDiffusion-Future

#根據(jù)輸入幀文字描述產(chǎn)生後續(xù)影格

首個多視角自動駕駛場景視頻生成世界模型 | DrivingDiffusion: BEV數(shù)據(jù)和仿真新思路

##################################################################################################################### ###使用單幀影像作為輸入,根據(jù)主車/他車的文字描述建立後續(xù)幀駕駛場景。圖中前三行和第四行分別展示了主車和他車行為進行文字描述控制後的生成效果。 (綠框為輸入,藍(lán)框為輸出)#########根據(jù)輸入幀直接產(chǎn)生後續(xù)幀##################無需其他控制,僅使用單幀影像作為輸入,預(yù)測後續(xù)幀駕駛場景。 (綠框為輸入,藍(lán)框為輸出)###

DrivingDiffusion是如何解決上述問題的?

DrivingDiffusion首先人為地建構(gòu)場景中的所有3D真值(障礙物/道路結(jié)構(gòu)),在將真值投影為Layout影像後,以此為模型輸入得到多相機視角下的真實影像/影片。之所以沒有直接使用3D真值(BEV視圖或依照編碼後的實例)作為模型輸入,而是使用參數(shù)進行投影後輸入,是為了消除系統(tǒng)性的3D-2D一致性誤差。 (在這樣的一組資料中,3D真值車輛參數(shù)都是人為地依照實際需求建構(gòu)的,前者帶來了隨意建構(gòu)罕見場景資料能力,後者消除了傳統(tǒng)資料生產(chǎn)中幾何一致性的誤差。)

此時還剩下一個問題:產(chǎn)生的影像/視訊品質(zhì)能否滿足使用需求?

提到建構(gòu)場景,大家往往會想到使用仿真引擎,然而其產(chǎn)生的資料和真實資料存在著較大的domain gap。 GAN-based 方法的產(chǎn)生結(jié)果往往和實際真實資料的分佈存在一定bias。而Diffusion Models則是基於馬可夫鏈透過學(xué)習(xí)噪音來產(chǎn)生資料的特性,其產(chǎn)生結(jié)果的保真度較高,更適合取代真實資料使用。

DrivingDiffusion依照人為構(gòu)造的場景車輛參數(shù),直接產(chǎn)生時序multi-view視圖,不僅可以作為下游自動駕駛?cè)蝿?wù)的訓(xùn)練數(shù)據(jù),還可以建構(gòu)用於回饋自動駕駛演算法的模擬系統(tǒng)。

這裡的「人為構(gòu)造的場景」僅包含障礙物和道路結(jié)構(gòu)信息,但DrivingDiffusion的框架可以輕鬆引入標(biāo)誌牌,紅綠燈,施工區(qū)域等layout信息甚至low-level的occupancy grid/depth map等控制模式。

DrivingDiffusion方法概述

產(chǎn)生多重視角影片時,有幾個困難:

  • 相較常見的圖像生成,多視角視訊生成新增了視角時序兩個維度,如何設(shè)計一個可以進行長視訊生成的框架?如何保持跨視角一致性和跨幀一致性?
  • 從自動駕駛?cè)蝿?wù)的角度,場景中的實例至關(guān)重要,如何保證生成實例的品質(zhì)?

DrivingDiffusion主要設(shè)計了一個通用的訓(xùn)練框架,將stable-diffusion-v1-4模型作為影像的預(yù)訓(xùn)練模型,並使用3D偽卷積將原有影像輸入膨脹,用於處理視角/時序新增的維度後輸入3D-Unet,在得到了處理新增維度的擴散模型後,進行了交替迭代式的視頻擴展,透過關(guān)鍵幀控制微調(diào)的操作保障了短時序和長時序的整體一致性。此外,DrivingDiffusion提出了Consistency Module和Local Prompt,分別解決了跨視角/跨幀一致性和實例品質(zhì)的問題。

DrivingDiffusion產(chǎn)生長影片流程

首個多視角自動駕駛場景視頻生成世界模型 | DrivingDiffusion: BEV數(shù)據(jù)和仿真新思路

  1. #單幀多視角模型:產(chǎn)生multi-view關(guān)鍵幀,
  2. #以關(guān)鍵幀作為額外控制,多視角共享的單視角時序模型:並行對各個view進行時序擴展,
  3. 以產(chǎn)生結(jié)果為額外控制的單幀多視角模型:時序並行地微調(diào)後續(xù)幀,
  4. 確定新關(guān)鍵影格並透過滑動視窗延長影片。

跨視角模型與時序模型的訓(xùn)練架構(gòu)

首個多視角自動駕駛場景視頻生成世界模型 | DrivingDiffusion: BEV數(shù)據(jù)和仿真新思路

#
  • 對於multi-view模型和時序模型來說,3D-Unet的擴展維度分別為視角和時間。二者都有相同的佈局控制器。作者認(rèn)為後續(xù)幀可以從multi-view關(guān)鍵幀獲取場景中的信息,並隱式地學(xué)習(xí)不同目標(biāo)的關(guān)聯(lián)信息。二者分別使用了不同的一致性注意力模組和相同的Local Prompt模組。
  • 佈局編碼:障礙物類別/實例資訊和道路結(jié)構(gòu)分割佈局,分別以不同的固定編碼值編碼為RGB影像,經(jīng)過encode後輸出佈局token。
  • 關(guān)鍵影格控制:所有的時序擴展過程,都採用了某一關(guān)鍵影格的mul??ti-view影像,這是基於在短時序內(nèi)的後續(xù)影格可以從關(guān)鍵影格取得資訊的假設(shè)。所有的微調(diào)過程都以關(guān)鍵幀和其產(chǎn)生的後續(xù)某幀的multi-view影像作為額外控制,輸出優(yōu)化該幀跨視角一致性後multi-view影像。
  • 基於特定視角的光流先驗:對於時序模型,訓(xùn)練時只進行某個視角下資料的取樣。額外使用提前統(tǒng)計的此視角影像下每個像素位置的光流先驗值,編碼後作為相機ID token,進行類似擴散過程中的time embedding對hidden層的交互控制。

Consistency Module & Local Prompt

首個多視角自動駕駛場景視頻生成世界模型 | DrivingDiffusion: BEV數(shù)據(jù)和仿真新思路

#Consistency Module分為兩部分:一致性注意力機制一致性關(guān)聯(lián)損失。

一致性注意力機制關(guān)注了相鄰視角和時序相關(guān)幀的交互,具體來說對於跨幀一致性僅關(guān)注存在overlap的左右相鄰視角的信息交互,對於時序模型,每一幀只關(guān)注關(guān)鍵影格以及前一格。這避免了全局互動帶來的巨大計算量。

一致性關(guān)聯(lián)損失透過像素級關(guān)聯(lián)並回歸位姿來添加幾何約束,其梯度由一個預(yù)先訓(xùn)練的位姿回歸器提供。此回歸器基於LoFTR添加位姿回歸head,並在對應(yīng)資料集的真實資料上使用位姿真值進行訓(xùn)練。對於多視角模型和時序模型此模組分別監(jiān)督相機相對位姿和主車運動位姿。

Local PromptGlobal Prompt配合,復(fù)用了CLIP和stable-diffusion-v1-4的參數(shù)語義,對特定類別實例區(qū)域進行局部增強。如圖所示,在圖像token和全域的文字描述提示的交叉注意力機制基礎(chǔ)上,作者對某類別進行l(wèi)ocal prompt設(shè)計並使用該類別mask區(qū)域的圖像token對local prompt進行查詢。這個過程最大程度地利用了原始模型參數(shù)中在open domain的文字引導(dǎo)圖像生成的概念。

DrivingDiffusion-Future方法概述

首個多視角自動駕駛場景視頻生成世界模型 | DrivingDiffusion: BEV數(shù)據(jù)和仿真新思路

#對於未來場景建立任務(wù)來說,DrivingDiffusion-Future使用了兩種方式:一種是直接透過第一幀影像預(yù)測後續(xù)幀影像(視覺分支),並使用幀間光流作為輔助損失。這種方式較簡單,但根據(jù)文字描述對後續(xù)生成影格進行產(chǎn)生的效果一般。另一種方式是在前者基礎(chǔ)上新增了概念分支,該分支透過第一幀BEV視圖預(yù)測後續(xù)幀BEV視圖,這是因為對BEV視圖的預(yù)測有助於模型捕捉駕駛場景的核心資訊和建立概念。此時文字描述同時作用於兩個分支,並透過BEV2PV的視角轉(zhuǎn)換模組將概念分支的特徵作用於視覺分支,其中視角轉(zhuǎn)換模組的部分參數(shù)是透過使用真值影像替代雜訊輸入預(yù)先訓(xùn)練的(並在後續(xù)訓(xùn)練中凍結(jié))。值得注意的是,主車控製文字描述控制器他車控制/環(huán)境文字描述控制器是解耦的。

實驗分析

為了評估模型的性能,DrivingDiffusion採用幀級Fréchet Inception Distance (FID)來評估生成影像的質(zhì)量,相應(yīng)地使用FVD來評估生成視訊品質(zhì)。所有指標(biāo)都是在nuScenes驗證集上計算的。如表1所示,和自動駕駛場景中的影像產(chǎn)生任務(wù)BEVGen 和影片產(chǎn)生任務(wù)DriveDreamer相比,DrivingDiffusion在不同設(shè)定下的效能指標(biāo)都有較大優(yōu)勢。

首個多視角自動駕駛場景視頻生成世界模型 | DrivingDiffusion: BEV數(shù)據(jù)和仿真新思路

儘管FID等方法通常用於衡量影像合成的質(zhì)量,但它們並沒有完全回饋任務(wù)的設(shè)計目標(biāo),也沒有反映不同語意類別的合成品質(zhì)。由於任務(wù)致力於產(chǎn)生與3D佈局一致的多視圖影像,DrivingDiffuison提出使用BEV感知模型指標(biāo)來衡量一致性方面的性能:利用CVT和BEVFusion的官方模型作為評測器,採用與nuScenes驗證集相同的以真實3D佈局為條件的生成影像,對每組產(chǎn)生的影像進行CVT和BevFusion推理,然後將預(yù)測的結(jié)果與真實結(jié)果進行比較,對其中可駕駛區(qū)域的平均交叉路口(mIoU)分?jǐn)?shù)和所有物件類別的NDS進行了統(tǒng)計,如表2所示。實驗結(jié)果表明,對合成資料評測集的感知指標(biāo)和真實評測集的指標(biāo)十分接近,這反映了生成結(jié)果和3D真值的高度一致性和影像品質(zhì)的高保真度。

首個多視角自動駕駛場景視頻生成世界模型 | DrivingDiffusion: BEV數(shù)據(jù)和仿真新思路

除了上述實驗外,DrivingDiffusion針對其主要解決的問題-提升自動駕駛下游任務(wù)表現(xiàn),進行了加入合成資料訓(xùn)練的實驗。表3展示了合成資料增強在BEV感知任務(wù)中所實現(xiàn)的效能改進。在原始訓(xùn)練資料中,存在長尾分佈的問題,特別是小目標(biāo)、近距車輛和車輛定向角度。 DrivingDiffusion專注於為這些樣本有限的類別產(chǎn)生額外的數(shù)據(jù)來解決這個問題。在增加了專注於改善障礙物朝向角度的分佈的2000幀數(shù)據(jù)後,NDS略有改善,而mAOE從0.5613顯著下降到0.5295。在使用6000幀更全面,更專注於罕見場景的合成資料來輔助訓(xùn)練後,可以觀察到nuScenes驗證集有顯著的增強:NDS由0.412上升至0.434, mAOE由0.5613下降至0.5130。這證明了合成資料的資料增強對感知任務(wù)帶來的顯著的提升。使用者可以根據(jù)實際需求,對資料中各個維度的分佈進行統(tǒng)計,再針對性地使用合成資料進行補充。

DrivingDiffusion的意義和未來工作

DrivingDiffuison同時實現(xiàn)了多視角的自動駕駛場景視訊生成和未來預(yù)測的能力,對自動駕駛?cè)蝿?wù)有著重大意義。其中佈局參數(shù)全部人為構(gòu)造且3D-2D之間的轉(zhuǎn)換透過投影而非依賴可學(xué)習(xí)的模型參數(shù),這消除了在以往獲取資料過程中的幾何誤差,有較強的實用價值。同時DrivingDiffuison的可擴展性極強,支援新增場景內(nèi)容layout以及額外的controller,同時也可以透過超解析度和視訊插幀技術(shù)無損地提升生成品質(zhì)。

在自動駕駛模擬中,關(guān)於Nerf的嘗試越來越多。然而在街景生成這一任務(wù)上,對動靜態(tài)內(nèi)容的分離,大範(fàn)圍街區(qū)重建,解耦天氣等維度的表觀控制等等,帶來了巨大工程量,此外Nerf往往需要再特定範(fàn)圍場景內(nèi)進行訓(xùn)練後才可支援後續(xù)的模擬中的新視角合成任務(wù)。而DrivingDiffusion天然包含了一定的通識先驗,包括視覺-文字的聯(lián)繫,對視覺內(nèi)容的概念理解等,可以僅透過構(gòu)造佈局快速地根據(jù)需求建立一段場景。但如上文所述,整個流程較為複雜,且對於長影片的生成需要後處理的模型微調(diào)和擴展。 DrivingDiffusion將持續(xù)探索視角維度和時間維度的壓縮,以及結(jié)合Nerf進行新視角生成和轉(zhuǎn)換,持續(xù)提升生成品質(zhì)以及可擴展性。

以上是首個多視角自動駕駛場景影片產(chǎn)生世界模型 | DrivingDiffusion: BEV資料與模擬新思路的詳細(xì)內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程
1597
29
PHP教程
1488
72
為何在自動駕駛方面Gaussian Splatting如此受歡迎,開始放棄NeRF? 為何在自動駕駛方面Gaussian Splatting如此受歡迎,開始放棄NeRF? Jan 17, 2024 pm 02:57 PM

寫在前面&筆者的個人理解三維Gaussiansplatting(3DGS)是近年來在顯式輻射場和電腦圖形學(xué)領(lǐng)域出現(xiàn)的一種變革性技術(shù)。這種創(chuàng)新方法的特點是使用了數(shù)百萬個3D高斯,這與神經(jīng)輻射場(NeRF)方法有很大的不同,後者主要使用隱式的基於座標(biāo)的模型將空間座標(biāo)映射到像素值。 3DGS憑藉其明確的場景表示和可微分的渲染演算法,不僅保證了即時渲染能力,而且引入了前所未有的控制和場景編輯水平。這將3DGS定位為下一代3D重建和表示的潛在遊戲規(guī)則改變者。為此我們首次系統(tǒng)性地概述了3DGS領(lǐng)域的最新發(fā)展與關(guān)

自動駕駛場景中的長尾問題怎麼解決? 自動駕駛場景中的長尾問題怎麼解決? Jun 02, 2024 pm 02:44 PM

昨天面試被問到了是否做過長尾相關(guān)的問題,所以就想著簡單總結(jié)一下。自動駕駛長尾問題是指自動駕駛汽車中的邊緣情況,即發(fā)生機率較低的可能場景。感知的長尾問題是目前限制單車智慧自動駕駛車輛運行設(shè)計域的主要原因之一。自動駕駛的底層架構(gòu)和大部分技術(shù)問題已經(jīng)解決,剩下的5%的長尾問題,逐漸成了限制自動駕駛發(fā)展的關(guān)鍵。這些問題包括各種零碎的場景、極端的情況和無法預(yù)測的人類行為。自動駕駛中的邊緣場景"長尾"是指自動駕駛汽車(AV)中的邊緣情況,邊緣情況是發(fā)生機率較低的可能場景。這些罕見的事件

DualBEV:大幅超越BEVFormer、BEVDet4D,開卷! DualBEV:大幅超越BEVFormer、BEVDet4D,開卷! Mar 21, 2024 pm 05:21 PM

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準(zhǔn)確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉(zhuǎn)換特徵,這一轉(zhuǎn)換是透過視覺轉(zhuǎn)換(VT)模組實施的?,F(xiàn)有的方法大致分為兩種策略:2D到3D和3D到2D轉(zhuǎn)換。 2D到3D的方法透過預(yù)測深度機率來提升密集的2D特徵,但深度預(yù)測的固有不確定性,尤其是在遠(yuǎn)處區(qū)域,可能會引入不準(zhǔn)確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學(xué)習(xí)3D和2D特徵之間對應(yīng)關(guān)係的注意力權(quán)重,這增加了計算和部署的

SIMPL:用於自動駕駛的簡單高效的多智能體運動預(yù)測基準(zhǔn) SIMPL:用於自動駕駛的簡單高效的多智能體運動預(yù)測基準(zhǔn) Feb 20, 2024 am 11:48 AM

原文標(biāo)題:SIMPL:ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving論文連結(jié):https://arxiv.org/pdf/2402.02519.pdf程式碼連結(jié):https://github.com/HKUST-Aerial-Robotics/SIMPLobotics單位論文想法:本文提出了一種用於自動駕駛車輛的簡單且有效率的運動預(yù)測基線(SIMPL)。與傳統(tǒng)的以代理為中心(agent-cent

Stable Diffusion 3論文終於發(fā)布,架構(gòu)細(xì)節(jié)大揭秘,對復(fù)現(xiàn)Sora有幫助? Stable Diffusion 3論文終於發(fā)布,架構(gòu)細(xì)節(jié)大揭秘,對復(fù)現(xiàn)Sora有幫助? Mar 06, 2024 pm 05:34 PM

StableDiffusion3的論文終于來了!這個模型于兩周前發(fā)布,采用了與Sora相同的DiT(DiffusionTransformer)架構(gòu),一經(jīng)發(fā)布就引起了不小的轟動。與之前版本相比,StableDiffusion3生成的圖質(zhì)量有了顯著提升,現(xiàn)在支持多主題提示,并且文字書寫效果也得到了改善,不再出現(xiàn)亂碼情況。StabilityAI指出,StableDiffusion3是一個系列模型,其參數(shù)量從800M到8B不等。這一參數(shù)范圍意味著該模型可以在許多便攜設(shè)備上直接運行,從而顯著降低了使用AI

選擇相機還是光達?實現(xiàn)穩(wěn)健的三維目標(biāo)檢測的最新綜述 選擇相機還是光達?實現(xiàn)穩(wěn)健的三維目標(biāo)檢測的最新綜述 Jan 26, 2024 am 11:18 AM

0.寫在前面&&個人理解自動駕駛系統(tǒng)依賴先進的感知、決策和控制技術(shù),透過使用各種感測器(如相機、光達、雷達等)來感知周圍環(huán)境,並利用演算法和模型進行即時分析和決策。這使得車輛能夠識別道路標(biāo)誌、檢測和追蹤其他車輛、預(yù)測行人行為等,從而安全地操作和適應(yīng)複雜的交通環(huán)境。這項技術(shù)目前引起了廣泛的關(guān)注,並認(rèn)為是未來交通領(lǐng)域的重要發(fā)展領(lǐng)域之一。但是,讓自動駕駛變得困難的是弄清楚如何讓汽車了解周圍發(fā)生的事情。這需要自動駕駛系統(tǒng)中的三維物體偵測演算法可以準(zhǔn)確地感知和描述周圍環(huán)境中的物體,包括它們的位置、

自動駕駛與軌跡預(yù)測看這篇就夠了! 自動駕駛與軌跡預(yù)測看這篇就夠了! Feb 28, 2024 pm 07:20 PM

軌跡預(yù)測在自動駕駛中承擔(dān)著重要的角色,自動駕駛軌跡預(yù)測是指透過分析車輛行駛過程中的各種數(shù)據(jù),預(yù)測車輛未來的行駛軌跡。作為自動駕駛的核心模組,軌跡預(yù)測的品質(zhì)對於下游的規(guī)劃控制至關(guān)重要。軌跡預(yù)測任務(wù)技術(shù)堆疊豐富,需熟悉自動駕駛動/靜態(tài)感知、高精地圖、車道線、神經(jīng)網(wǎng)路架構(gòu)(CNN&GNN&Transformer)技能等,入門難度很高!許多粉絲期望能夠盡快上手軌跡預(yù)測,少踩坑,今天就為大家盤點下軌跡預(yù)測常見的一些問題和入門學(xué)習(xí)方法!入門相關(guān)知識1.預(yù)習(xí)的論文有沒有切入順序? A:先看survey,p

FisheyeDetNet:首個以魚眼相機為基礎(chǔ)的目標(biāo)偵測演算法 FisheyeDetNet:首個以魚眼相機為基礎(chǔ)的目標(biāo)偵測演算法 Apr 26, 2024 am 11:37 AM

目標(biāo)偵測在自動駕駛系統(tǒng)當(dāng)中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數(shù)論文當(dāng)中已經(jīng)進行了非常全面的研究。然而,利用魚眼相機進行環(huán)視的距離感知相對來說研究較少。由於徑向畸變大,標(biāo)準(zhǔn)的邊界框表示在魚眼相機當(dāng)中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設(shè)計為極座標(biāo)/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優(yōu)於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現(xiàn)了49.5%的mAP

See all articles