亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目錄
寫在前面&筆者的個人理解
詳解OmniDrive
#整體結(jié)構(gòu)
Multi-task and Temporal Modeling
Training Strategy
OmniDrive-nuScenes
Offline Question-Answering
Online Question-Answering
Metrics
實驗結(jié)果
討論
結(jié)論
首頁 科技週邊 人工智慧 LLM全搞定! OmniDrive:集3D感知、推理規(guī)劃於一體(英偉達(dá)最新)

LLM全搞定! OmniDrive:集3D感知、推理規(guī)劃於一體(英偉達(dá)最新)

May 09, 2024 pm 04:55 PM
3d 模型 自動駕駛

寫在前面&筆者的個人理解

這篇論文致力於解決當(dāng)前多模態(tài)大語言模型(MLLMs)在自動駕駛應(yīng)用中存在的關(guān)鍵挑戰(zhàn),即將MLLMs從2D理解擴(kuò)展到3D空間的問題。由於自動駕駛車輛(AVs)需要針對3D環(huán)境做出準(zhǔn)確的決策,這項擴(kuò)展顯得格外重要。 3D空間理解對於AV來說至關(guān)重要,因為它直接影響車輛做出明智決策、預(yù)測未來狀態(tài)以及與環(huán)境安全互動的能力。

LLM全搞定! OmniDrive:集3D感知、推理規(guī)劃於一體(英偉達(dá)最新)

目前的多模態(tài)大語言模型(如LLaVA-1.5)通常僅能處理較低解析度的影像輸入(例如),這是由於視覺編碼器的分辨率限制,LLM序列長度的限制。然而,自動駕駛應(yīng)用需要高解析度的多視角視訊輸入,以確保車輛能在長距離內(nèi)感知環(huán)境並安全決策。 此外,現(xiàn)有的許多2D模型架構(gòu)難以有效處理這些輸入,因為它們需要大量的運算和儲存資源。 為了解決這些問題,研究人員正在努力開發(fā)新的模型架構(gòu)和儲存資源。

在此背景下,本文提出了全新的3D MLLM架構(gòu),並借鑒了Q-Former風(fēng)格的設(shè)計。該架構(gòu)採用交叉注意力解碼器,將高解析度的視覺資訊壓縮到稀疏查詢中,使其更易於擴(kuò)展到高解析度輸入。這種架構(gòu)與視角模型家族(如DETR3D、PETR(v2)、StreamPETR和Far3D)具有相似性,因為它們都利用了稀疏的3D查詢機(jī)制。透過對這些查詢附加3D位置編碼並與多視角輸入進(jìn)行交互,本文的架構(gòu)實現(xiàn)了3D空間的理解,從而更好地利用了2D影像中的預(yù)訓(xùn)練知識。

除了模型架構(gòu)的創(chuàng)新,本文也提出了一個更具挑戰(zhàn)性的基準(zhǔn)-OmniDrive-nuScenes。此基準(zhǔn)涵蓋了一系列需要3D空間理解和長距離推理的複雜任務(wù),並引入了反事實推理基準(zhǔn),以模擬解決方案和軌跡來評估結(jié)果。這項基準(zhǔn)有效彌補(bǔ)了目前開放式評估中偏向單一專家軌跡的問題,從而避免了在專家軌跡上的過度擬合。

本文介紹了一個全面的端到端自主驅(qū)動框架OmniDrive,它在LLM-agent的基礎(chǔ)上提供了一種有效的3D推理和規(guī)劃模型,並建立了一個更具挑戰(zhàn)性的基準(zhǔn),推動了自動駕駛領(lǐng)域的進(jìn)一步發(fā)展。具體貢獻(xiàn)如下:

  1. 提出了一個3D Q-Former架構(gòu),適用於各種駕駛相關(guān)任務(wù),包括目標(biāo)偵測、車道偵測、3D視覺定位、決策制定和規(guī)劃。
  2. 引入了OmniDrive-nuScenes基準(zhǔn),這是第一個為解決規(guī)劃相關(guān)挑戰(zhàn)而設(shè)計的QA基準(zhǔn),涵蓋了精確的3D空間資訊。
  3. 實現(xiàn)了在規(guī)劃任務(wù)上的最佳表現(xiàn)。

詳解OmniDrive

LLM全搞定! OmniDrive:集3D感知、推理規(guī)劃於一體(英偉達(dá)最新)

#整體結(jié)構(gòu)

本文提出的OmniDrive -Agent結(jié)合了Q-Former和基於查詢的3D感知模型的優(yōu)點,在多視角圖像特徵中高效獲取3D空間信息,解決自主駕駛中的3D感知與規(guī)劃任務(wù)。整體架構(gòu)如圖所示。

  1. 視覺編碼器:首先,使用共享的視覺編碼器來擷取多視角影像特徵。
  2. 位置編碼:將擷取的影像特徵與位置編碼一起輸入到Q-Former3D中。
  3. Q-Former3D模組:其中,表示拼接運算。為了簡潔起見,公式中省略了位置編碼。此步驟後,查詢集合成為互動後的。其中,表示3D位置編碼,是多視角影像特徵。
  • 多視角影像特徵擷取:接下來,這些查詢從多視角影像中收集資訊:
  • 查詢初始化與自注意力:在Q-Former3D中,初始化偵測查詢和載體查詢,並進(jìn)行自註意力操作以交換它們之間的資訊:
  1. 輸出處理
  • #感知任務(wù)預(yù)測:利用感知查詢預(yù)測前景元素的類別和座標(biāo)。
  • 載體查詢對齊與文字產(chǎn)生:載體查詢則透過單層MLP對齊至LLM令牌的維度(如LLaMA中的4096維度),並進(jìn)一步用於文字產(chǎn)生。
  1. 載體查詢的作用

#透過該架構(gòu)設(shè)計,OmniDrive-Agent能夠有效率地從多視角圖像中獲取豐富的3D空間信息,並結(jié)合LLM進(jìn)行文本生成,為3D空間感知和自主駕駛提供新的解決方案。

Multi-task and Temporal Modeling

作者的方法受益於多任務(wù)學(xué)習(xí)和時序建模。在多任務(wù)學(xué)習(xí)中,作者可以為每個感知任務(wù)整合特定的Q-Former3D模組,並採用統(tǒng)一的初始化策略(請參閱\cref{Training Strategy})。在不同的任務(wù)中,載體查詢能夠夠收集不同交通元素的資訊。作者的實現(xiàn)涵蓋了諸如中心線建置和3D目標(biāo)偵測等任務(wù)。在訓(xùn)練和推理階段,這些模組共享相同的3D位置編碼。 作者的方法透過豐富了諸如中心線建置和3D目標(biāo)偵測等任務(wù)。在訓(xùn)練和推理階段,這些模組共享相同的3D位置編碼。 作者的方法透過豐富了諸如中心線建置和3D目標(biāo)偵測等任務(wù)。在訓(xùn)練和推理階段,這些模組共享相同的3D位置編碼。

關(guān)於時序建模,作者將具有top-k分類分?jǐn)?shù)的感知查詢儲存在記憶庫中,並逐幀傳播。傳播後的查詢透過交叉注意力與當(dāng)前幀的感知查詢和載體查詢進(jìn)行交互,從而擴(kuò)展模型對視訊輸入的處理能力。

Training Strategy

OmniDrive-Agent的訓(xùn)練策略分為兩個階段:2D預(yù)訓(xùn)練和3D微調(diào)。在初始階段,作者首先在2D影像任務(wù)上對多模態(tài)大模型(MLLMs)進(jìn)行預(yù)先訓(xùn)練,以初始化Q-Former和載體查詢。移除偵測查詢後,OmniDrive模型可以被視為一個標(biāo)準(zhǔn)的視覺語言模型,能夠基於圖像生成文字。因此,作者採用LLaVA v1.5的訓(xùn)練策略與數(shù)據(jù),在558K圖文對上預(yù)先訓(xùn)練OmniDrive。在預(yù)訓(xùn)練期間,除Q-Former外,所有參數(shù)保持凍結(jié)狀態(tài)。隨後,使用LLaVA v1.5的指令調(diào)優(yōu)資料集對MLLMs進(jìn)行微調(diào)。在微調(diào)過程中,影像編碼器保持凍結(jié),其他參數(shù)均可訓(xùn)練。

在3D微調(diào)階段,目標(biāo)是增強(qiáng)模型的3D定位能力,同時盡可能保留其2D語意理解能力。為此,作者為原始的Q-Former添加了3D位置編碼和時序模組。在這個階段,作者使用LoRA技術(shù)以較小的學(xué)習(xí)率微調(diào)視覺編碼器和大語言模型,並以相對較大的學(xué)習(xí)率訓(xùn)練Q-Former3D。在這兩個階段中,OmniDrive-Agent的損失計算僅包括文字產(chǎn)生損失,而不考慮BLIP-2中的對比學(xué)習(xí)和匹配損失。

OmniDrive-nuScenes

LLM全搞定! OmniDrive:集3D感知、推理規(guī)劃於一體(英偉達(dá)最新)

為了對駕駛多模態(tài)大模型代理程式進(jìn)行基準(zhǔn)測試,作者提出了OmniDrive-nuScenes,這是一個基於nuScenes資料集的新型基準(zhǔn),包含高品質(zhì)的視覺問答(QA)對,涵蓋了3D領(lǐng)域的感知、推理和規(guī)劃任務(wù)。

OmniDrive-nuScenes的亮點在於其完全自動化的QA生成流程,該流程使用GPT-4產(chǎn)生問題和答案。類似於LLaVA,作者的流程將3D感知的標(biāo)註作為上下文資訊提供給GPT-4。在此基礎(chǔ)上,作者進(jìn)一步利用交通規(guī)則和規(guī)劃模擬作為額外輸入,幫助GPT-4更能理解3D環(huán)境。作者的基準(zhǔn)不僅測試模型的感知和推理能力,還透過涉及注意力、反事實推理和開環(huán)規(guī)劃的長時域問題,挑戰(zhàn)模型在3D空間中的真實空間理解和規(guī)劃能力,因為這些問題要求對未來幾秒鐘內(nèi)的駕駛規(guī)劃進(jìn)行模擬以得出正確答案。

除了用於離線問答的生成流程外,作者還提出了一個在線生成多樣化定位問題的流程。這個流程可以看作是一種隱含的資料增強(qiáng)方式,用來提升模型的3D空間理解和推理能力。

Offline Question-Answering

在離線QA產(chǎn)生流程中,作者使用上下文資訊來產(chǎn)生nuScenes上的QA對。首先,作者使用GPT-4產(chǎn)生場景描述,並將三個視角的前視圖和三個視角的後視圖拼接成兩個獨立的圖像輸入到GPT-4。透過提示輸入,GPT-4可以描述天氣、時間、場景類型等訊息,並辨識各視角的方向,同時避免逐視角描述,而是以相對自車的位置描述內(nèi)容。

接下來,為了讓GPT-4V更能理解交通元素之間的相對空間關(guān)係,作者將物件和車道線的關(guān)係表示成類似文件樹的結(jié)構(gòu),並根據(jù)物件的3D邊界框,將其訊息轉(zhuǎn)換成自然語言描述。

隨後,作者透過模擬不同的駕駛意圖產(chǎn)生軌跡,包括車道保持、左側(cè)換道和右側(cè)換道,並利用深度優(yōu)先搜尋演算法將車道中心線連接起來,產(chǎn)生所有可能的行駛路徑。此外,作者對nuScenes資料集中自車軌跡進(jìn)行了聚類,選取具有代表性的駕駛路徑,並將其作為模擬軌跡的一部分。

最終,透過對離線QA產(chǎn)生流程中的不同情境資訊進(jìn)行組合,作者能夠產(chǎn)生多種類型的QA對,包括情境描述、注意力對象辨識、反事實推理和決策規(guī)劃。 GPT-4可以基於模擬和專家軌跡識別威脅對象,並透過對駕駛路徑的安全性進(jìn)行推理,給予合理的駕駛建議。

LLM全搞定! OmniDrive:集3D感知、推理規(guī)劃於一體(英偉達(dá)最新)

Online Question-Answering

#為了充分利用自動駕駛資料集中的3D感知標(biāo)註,作者在訓(xùn)練過程中以在線方式產(chǎn)生大量定位類任務(wù)。這些任務(wù)旨在加強(qiáng)模型的3D空間理解和推理能力,包括:

  1. 2D到3D定位:給定特定相機(jī)上的2D邊界框,模型需要提供對應(yīng)物件的3D屬性,包括類別、位置、大小、朝向和速度。
  2. 3D距離:基於隨機(jī)產(chǎn)生的3D座標(biāo),識別目標(biāo)位置附近的交通元素,並提供它們的3D屬性。
  3. 車道到物件:基於隨機(jī)選擇的車道中心線,列出該車道上的所有物件及其3D屬性。

Metrics

OmniDrive-nuScenes資料集涉及場景描述、開環(huán)規(guī)劃和反事實推理任務(wù)。每個任務(wù)著重不同的方面,難以使用單一指標(biāo)進(jìn)行評估。因此,作者針對不同的任務(wù)設(shè)計了不同的評量標(biāo)準(zhǔn)。

對於情境描述相關(guān)任務(wù)(如情境描述和注意力對象選擇),作者採用常用的語言評估指標(biāo),包括METEOR、ROUGE和CIDEr來評估句子相似性。在開環(huán)規(guī)劃任務(wù)中,作者使用碰撞率和道路邊界交叉率來評估模型的表現(xiàn)。對於反事實推理任務(wù),作者使用GPT-3.5提取預(yù)測中的關(guān)鍵字,並將這些關(guān)鍵字與真實情況進(jìn)行比較,以計算不同事故類別的精確率和召回率。

實驗結(jié)果

LLM全搞定! OmniDrive:集3D感知、推理規(guī)劃於一體(英偉達(dá)最新)

上表展示了規(guī)劃相關(guān)任務(wù)的消融研究結(jié)果,包括反事實推理和開環(huán)規(guī)劃的性能評估。

完整模型,即Q-Former3D,在反事實推理和開環(huán)規(guī)劃任務(wù)上都表現(xiàn)出色。在反事實推理任務(wù)中,模型在「紅燈違規(guī)」和「可通行區(qū)域違規(guī)」類別上都展示了較高的精準(zhǔn)率和召回率,分別為57.6%/58.3%和48.5%/58.6%。同時,該模型在「碰撞」類別中取得了最高的召回率(72.6%)。在開環(huán)規(guī)劃任務(wù)中,Q-Former3D在平均碰撞率和路界交叉率上都表現(xiàn)出色,分別達(dá)到了3.79%和4.59%。

移除線上訓(xùn)練資料(No Online)後,反事實推理任務(wù)中的「紅燈違規(guī)」類別召回率有所提高(65.6%),但整體效能略有下降。碰撞和可通行區(qū)域違規(guī)的精準(zhǔn)率和召回率均較完整模型略低,而開環(huán)規(guī)劃任務(wù)的平均碰撞率上升至4.93%,平均路界交叉率下降到4.02%,這反映出在線訓(xùn)練數(shù)據(jù)對於提高模型整體規(guī)劃效能的重要性。

在架構(gòu)消融實驗中,Q-Former2D版本在「紅燈違規(guī)」類別上取得最高精準(zhǔn)率(58.3%)和較高召回率(61.1%),但其他類別的表現(xiàn)不如完整模型,特別是「碰撞」和「可通行區(qū)域違規(guī)」類別的召回率明顯下降。在開環(huán)規(guī)劃任務(wù)中,平均碰撞率和路界交叉率均高於完整模型,分別為3.98%和6.03%。

採用Dense BEV架構(gòu)的模型在所有類別的反事實推理任務(wù)上表現(xiàn)較好,但召回率整體偏低。開環(huán)規(guī)劃任務(wù)中的平均碰撞率和路界交叉率分別達(dá)到了4.43%和8.56%。

當(dāng)移除時間模組時(No Temporal),模型在反事實推理任務(wù)的表現(xiàn)顯著下降,特別是平均碰撞率上升至6.07%,路界交叉率達(dá)到5.83%。

在感知監(jiān)督方面,移除車道線監(jiān)督(No Lane)後,模型在「碰撞」類別的召回率顯著下降,而反事實推理任務(wù)的其他類別和開環(huán)規(guī)劃任務(wù)的指標(biāo)表現(xiàn)相對穩(wěn)定。完全移除物體與車道線的3D感知監(jiān)督(No Object & Lane)後,反事實推理任務(wù)各類別的精準(zhǔn)率和召回率均有下降,特別是「碰撞」類別的召回率降至53.2%。開環(huán)規(guī)劃任務(wù)中的平均碰撞率和路界交叉率分別升至6.77%和8.43%,顯著高於完整模型。

從上述實驗結(jié)果可以看出,完整模型在反事實推理和開環(huán)規(guī)劃任務(wù)中表現(xiàn)優(yōu)異。線上訓(xùn)練資料、時間模組以及車道線與物體的3D感知監(jiān)督對模型性能的提升起到了重要作用。完整模型能夠有效地利用多模態(tài)資訊進(jìn)行高效率的規(guī)劃與決策,而消融實驗的結(jié)果進(jìn)一步驗證了這些組件在自動駕駛?cè)蝿?wù)中的關(guān)鍵作用。

LLM全搞定! OmniDrive:集3D感知、推理規(guī)劃於一體(英偉達(dá)最新)

同時,來看NuScenes-QA的表現(xiàn):展示了OmniDrive在開環(huán)規(guī)劃任務(wù)中的效能,與其他現(xiàn)有方法進(jìn)行了比較。結(jié)果顯示,OmniDrive (完整版本)在各項指標(biāo)上均取得了最佳表現(xiàn),尤其在開環(huán)規(guī)劃的平均誤差、碰撞率和路界交叉率三個方面均優(yōu)於其他方法。

OmniDrive 的表現(xiàn):OmniDrive 模型在1秒、2秒和3秒的預(yù)測時間內(nèi),L2平均誤差分別為0.14、0.29和0.55米,最終平均誤差僅為0.33米。此外,該模型的平均碰撞率和平均路界交叉率也分別達(dá)到了0.30%和3.00%,遠(yuǎn)低於其他方法。尤其在碰撞率方面,OmniDrive 在1秒和2秒的預(yù)測時間內(nèi)都實現(xiàn)了零碰撞率,充分展現(xiàn)了其出色的規(guī)劃和避障能力。

與其他方法的比較:相較於其他先進(jìn)的基準(zhǔn)模型,例如UniAD、BEV-Planner 和Ego-MLP,OmniDrive 在所有關(guān)鍵指標(biāo)上都表現(xiàn)優(yōu)異。 UniAD在使用高階指令和自車狀態(tài)資訊的情況下,其L2平均誤差為0.46米,而OmniDrive 在相同設(shè)定下的誤差較低,為0.33米。同時,OmniDrive 的碰撞率和路界交叉率也比UniAD顯著降低,尤其在碰撞率方面減少了近一半。

與BEV-Planner 相比,OmniDrive 在所有預(yù)測時間內(nèi)的L2誤差均顯著降低,尤其在3秒預(yù)測時間內(nèi),誤差由0.57公尺降至0.55公尺。同時,在碰撞率和路界交叉率方面,OmniDrive 也優(yōu)於BEV-Planner ,碰撞率由0.34%降至0.30%,路界交叉率由3.16%降至3.00%。

消融實驗:為了進(jìn)一步評估OmniDrive架構(gòu)中的關(guān)鍵模組對效能的影響,作者也比較了不同版本的OmniDrive模型的表現(xiàn)。 OmniDrive(不使用高階指令和自車狀態(tài)資訊)在預(yù)測誤差、碰撞率和路界交叉率方面均明顯遜於完整模型,尤其是在3秒預(yù)測時間內(nèi)的L2誤差達(dá)到了2.84米,平均碰撞率高達(dá)3.79%。

當(dāng)僅使用OmniDrive模型(無高階指令和自車狀態(tài)資訊)時,預(yù)測誤差、碰撞率和路界交叉率有所改善,但與完整模型相比仍有差距。這表明,整合高層級命令和自車狀態(tài)資訊對提高模型的整體規(guī)劃性能具有顯著作用。

整體而言,實驗結(jié)果清楚地展示了OmniDrive 在開環(huán)規(guī)劃任務(wù)上的卓越表現(xiàn)。透過整合多模態(tài)資訊、高階指令和自車狀態(tài)信息,OmniDrive 在複雜的規(guī)劃任務(wù)中實現(xiàn)了更精準(zhǔn)的路徑預(yù)測和更低的碰撞率與路界交叉率,為自主駕駛的規(guī)劃與決策提供了強(qiáng)有力的支持。

討論

LLM全搞定! OmniDrive:集3D感知、推理規(guī)劃於一體(英偉達(dá)最新)

作者提出的OmniDrive代理和OmniDrive-nuScenes資料集在多模態(tài)大模型領(lǐng)域引入了一種新的範(fàn)式,能夠解決3D環(huán)境中的駕駛問題,並為此類模型的評估提供了一個全面的基準(zhǔn)。然而,每個新方法和資料集都具有其優(yōu)點和不足之處。

OmniDrive代理程式提出了兩階段的訓(xùn)練策略:2D預(yù)訓(xùn)練和3D微調(diào)。在2D預(yù)訓(xùn)練階段,透過利用LLaVA v1.5的圖像文字配對資料集預(yù)訓(xùn)練Q-Former和carrier queries,實現(xiàn)了圖像特徵與大型語言模型之間的更好對齊。在3D微調(diào)階段,引入了3D位置資訊編碼和時間模組,增強(qiáng)了模型的3D定位能力。透過利用LoRA對視覺編碼器和語言模型進(jìn)行微調(diào),OmniDrive既保持了對2D語意的理解,也增強(qiáng)了對3D定位的掌握。這樣分階段的訓(xùn)練策略充分發(fā)揮了多模態(tài)大模型的潛力,使其在3D駕駛場景中具有更強(qiáng)的感知、推理和規(guī)劃能力。另一方面,OmniDrive-nuScenes作為一種全新的基準(zhǔn),專門為評估駕駛大模型的能力而設(shè)計。其完全自動化的QA生成流程透過GPT-4產(chǎn)生高品質(zhì)的問答對,涵蓋了從感知到規(guī)劃的不同任務(wù)。此外,線上產(chǎn)生的定位任務(wù)也為模型提供了隱含的資料增強(qiáng),幫助其更好地理解3D環(huán)境。該資料集的優(yōu)勢還在於它不僅測試模型的感知和推理能力,還透過長時域問題來評估模型的空間理解和規(guī)劃能力。這種全面的基準(zhǔn)為未來多模態(tài)大模型的研發(fā)提供了強(qiáng)而有力的支持。

然而,OmniDrive代理和OmniDrive-nuScenes數(shù)據(jù)集也存在一些不足之處。首先,由于OmniDrive代理在3D微調(diào)階段需要微調(diào)整個模型,訓(xùn)練資源需求較高,使得訓(xùn)練時間和硬件成本顯著增加。此外,OmniDrive-nuScenes的數(shù)據(jù)生成完全依賴GPT-4,雖然保證了問題的質(zhì)量和多樣性,但也導(dǎo)致生成的問題更傾向于自然語言能力強(qiáng)的模型,這可能使模型在基準(zhǔn)測試時更依賴于語言特性而非實際駕駛能力。盡管OmniDrive-nuScenes提供了一個全面的QA基準(zhǔn),但其覆蓋的駕駛場景仍然有限。數(shù)據(jù)集中涉及的交通規(guī)則和規(guī)劃模擬僅基于nuScenes數(shù)據(jù)集,這使得生成的問題難以完全代表現(xiàn)實世界中的各種駕駛場景。此外,由于數(shù)據(jù)生成流程的高度自動化,生成的問題難免會受到數(shù)據(jù)偏見和提示設(shè)計的影響。

結(jié)論

作者提出的OmniDrive代理和OmniDrive-nuScenes數(shù)據(jù)集為3D駕駛場景中的多模態(tài)大模型研究帶來了新的視角和評估基準(zhǔn)。OmniDrive代理的兩階段訓(xùn)練策略成功地結(jié)合了2D預(yù)訓(xùn)練和3D微調(diào),使得模型在感知、推理和規(guī)劃方面均表現(xiàn)出色。OmniDrive-nuScenes作為全新的QA基準(zhǔn),為評估駕駛大模型提供了全面的指標(biāo)。然而,仍需進(jìn)一步研究以優(yōu)化模型的訓(xùn)練資源需求,改進(jìn)數(shù)據(jù)集的生成流程,并確保生成的問題能夠更準(zhǔn)確地代表現(xiàn)實駕駛環(huán)境??傮w而言,作者的方法和數(shù)據(jù)集在推進(jìn)駕駛領(lǐng)域多模態(tài)大模型研究方面具有重要意義,為未來的工作奠定了堅實基礎(chǔ)。

以上是LLM全搞定! OmniDrive:集3D感知、推理規(guī)劃於一體(英偉達(dá)最新)的詳細(xì)內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程
1597
29
PHP教程
1488
72
自動駕駛場景中的長尾問題怎麼解決? 自動駕駛場景中的長尾問題怎麼解決? Jun 02, 2024 pm 02:44 PM

昨天面試被問到了是否做過長尾相關(guān)的問題,所以就想著簡單總結(jié)一下。自動駕駛長尾問題是指自動駕駛汽車中的邊緣情況,即發(fā)生機(jī)率較低的可能場景。感知的長尾問題是目前限制單車智慧自動駕駛車輛運行設(shè)計域的主要原因之一。自動駕駛的底層架構(gòu)和大部分技術(shù)問題已經(jīng)解決,剩下的5%的長尾問題,逐漸成了限制自動駕駛發(fā)展的關(guān)鍵。這些問題包括各種零碎的場景、極端的情況和無法預(yù)測的人類行為。自動駕駛中的邊緣場景"長尾"是指自動駕駛汽車(AV)中的邊緣情況,邊緣情況是發(fā)生機(jī)率較低的可能場景。這些罕見的事件

你好,電動Atlas!波士頓動力機(jī)器人復(fù)活,180度詭異動作嚇到馬斯克 你好,電動Atlas!波士頓動力機(jī)器人復(fù)活,180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas,正式進(jìn)入電動機(jī)器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞臺,今天波士頓動力就宣布:電動Atlas上崗??磥恚谏逃萌诵螜C(jī)器人領(lǐng)域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內(nèi),就已經(jīng)有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機(jī)器人的爆發(fā)年。網(wǎng)友銳評:機(jī)器人的進(jìn)步,讓今年看起來像人類的開幕式動作、自由度遠(yuǎn)超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應(yīng)該是仰面朝天。接下來,讓人驚掉下巴

全球最強(qiáng)開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 全球最強(qiáng)開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下,一個人工智慧模型,不僅擁有超越傳統(tǒng)運算的能力,還能以更低的成本實現(xiàn)更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強(qiáng)開源MoE模型來了。 DeepSeek-V2是一個強(qiáng)大的專家混合(MoE)語言模型,具有訓(xùn)練經(jīng)濟(jì)、推理高效的特點。它由236B個參數(shù)組成,其中21B個參數(shù)用於啟動每個標(biāo)記。與DeepSeek67B相比,DeepSeek-V2效能更強(qiáng),同時節(jié)省了42.5%的訓(xùn)練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

特斯拉機(jī)器人進(jìn)廠打工,馬斯克:手的自由度今年將達(dá)到22個! 特斯拉機(jī)器人進(jìn)廠打工,馬斯克:手的自由度今年將達(dá)到22個! May 06, 2024 pm 04:13 PM

特斯拉機(jī)器人Optimus最新影片出爐,已經(jīng)可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預(yù)。而且在Optimus的視角之下,它還可以把放歪了的電池重新?lián)炱饋矸胖?,主打一個自動糾錯:對於Optimus的手,英偉達(dá)科學(xué)家JimFan給出了高度的評價:Optimus的手是全球五指機(jī)器人裡最靈巧的之一。它的手不僅有觸覺

替代MLP的KAN,被開源專案擴(kuò)展到卷積了 替代MLP的KAN,被開源專案擴(kuò)展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初,來自MIT等機(jī)構(gòu)的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準(zhǔn)確性和可解釋性方面表現(xiàn)優(yōu)於MLP。而且它能以非常少的參數(shù)量勝過以更大參數(shù)量運行的MLP。例如,作者表示,他們用KAN以更小的網(wǎng)路和更高的自動化程度重現(xiàn)了DeepMind的結(jié)果。具體來說,DeepMind的MLP有大約300,000個參數(shù),而KAN只有約200個參數(shù)。 KAN與MLP一樣具有強(qiáng)大的數(shù)學(xué)基礎(chǔ),MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

本地運作效能超越 OpenAI Text-Embedding-Ada-002 的 Embedding 服務(wù),太方便了! 本地運作效能超越 OpenAI Text-Embedding-Ada-002 的 Embedding 服務(wù),太方便了! Apr 15, 2024 am 09:01 AM

Ollama是一款超實用的工具,讓你能夠在本地輕鬆運行Llama2、Mistral、Gemma等開源模型。本文我將介紹如何使用Ollama實現(xiàn)對文本的向量化處理。如果你本地還沒有安裝Ollama,可以閱讀這篇文章。本文我們將使用nomic-embed-text[2]模型。它是一種文字編碼器,在短的上下文和長的上下文任務(wù)上,效能超越了OpenAItext-embedding-ada-002和text-embedding-3-small。啟動nomic-embed-text服務(wù)當(dāng)你已經(jīng)成功安裝好o

FisheyeDetNet:首個以魚眼相機(jī)為基礎(chǔ)的目標(biāo)偵測演算法 FisheyeDetNet:首個以魚眼相機(jī)為基礎(chǔ)的目標(biāo)偵測演算法 Apr 26, 2024 am 11:37 AM

目標(biāo)偵測在自動駕駛系統(tǒng)當(dāng)中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數(shù)論文當(dāng)中已經(jīng)進(jìn)行了非常全面的研究。然而,利用魚眼相機(jī)進(jìn)行環(huán)視的距離感知相對來說研究較少。由於徑向畸變大,標(biāo)準(zhǔn)的邊界框表示在魚眼相機(jī)當(dāng)中很難實施。為了緩解上述描述,我們探索了擴(kuò)展邊界框、橢圓、通用多邊形設(shè)計為極座標(biāo)/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優(yōu)於其他模型,並同時在用於自動駕駛的Valeo魚眼相機(jī)資料集上實現(xiàn)了49.5%的mAP

牛津大學(xué)最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\'24) 牛津大學(xué)最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

寫在前面項目連結(jié):https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應(yīng)關(guān)係來估計它們之間的相機(jī)姿態(tài)。通常,這些對應(yīng)關(guān)係是二維到二維的,而我們估計的姿態(tài)在尺度上是不確定的。一些應(yīng)用,例如隨時隨地實現(xiàn)即時增強(qiáng)現(xiàn)實,需要尺度度量的姿態(tài)估計,因此它們依賴外部的深度估計器來恢復(fù)尺度。本文提出了MicKey,這是一個關(guān)鍵點匹配流程,能夠夠預(yù)測三維相機(jī)空間中的度量對應(yīng)關(guān)係。透過學(xué)習(xí)跨影像的三維座標(biāo)匹配,我們能夠在沒有深度測試的情況下推斷度量相對

See all articles