亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目次
前に書いた&著者の個人的な理解
全體的なアーキテクチャとネットワーク モデルの詳細
真の値 BEV の生成
True value ターゲット クエリの相互作用
実験結果と評価指標
定量分析部分
定性分析パート
結論
ホームページ テクノロジー周辺機器 AI CLIP-BEVFormer: BEVFormer 構造を明示的に監(jiān)視して、ロングテール検出パフォーマンスを向上させます。

CLIP-BEVFormer: BEVFormer 構造を明示的に監(jiān)視して、ロングテール検出パフォーマンスを向上させます。

Mar 26, 2024 pm 12:41 PM
アルゴリズム 3d

前に書いた&著者の個人的な理解

現(xiàn)在、自動運転システム全體において、道路を走行するときに認識モジュールが重要な役割を果たします 自動運転車の後にのみ認識モジュールを通じて正確なセンシング結果を取得し、自動運転システムの下流の制御モジュールはタイムリーで正しい判斷と行動決定を行うことができます?,F(xiàn)在、自動運転機能を備えた自動車には通常、サラウンドビューカメラセンサー、ライダーセンサー、ミリ波レーダーセンサーなどのさまざまなデータ情報センサーが搭載されており、さまざまなモダリティで情報を収集して正確な認識タスクを実現(xiàn)しています。

純粋な視覚に基づくBEV知覚アルゴリズムは、ハードウェアコストが低く、導入が容易であり、その出力結果はさまざまな下流タスクに簡単に適用できるため、産業(yè)界および學界から広く注目されています。近年、BEV空間に基づく多くの視覚認識アルゴリズムが次々に登場し、公開データセット上で優(yōu)れた認識性能を実証しています。

現(xiàn)在、BEV 空間に基づく知覚アルゴリズムは、BEV 特徴の構築方法に基づいて 2 種類のアルゴリズム モデルに大別できます。

  • 1 つのタイプは前方 BEV 特徴で表されます。 LSS アルゴリズムによる 構築方法: このタイプの知覚アルゴリズム モデルは、最初に知覚モデル內の深度推定ネットワークを使用して、特徴マップの各ピクセルの意味論的特徴情報と離散深度確率分布を予測し、次に外部メソッドを使用して、意味的特徴情報と離散深さ確率を取得し、積演算によって意味的錐臺特徴を構築し、BEV プーリングおよびその他の方法を使用して、最終的に BEV 空間特徴の構築プロセスを完了します。
  • もう 1 つのタイプは、BEVFormer アルゴリズムに代表される逆 BEV 特徴構築方法です。このタイプの知覚アルゴリズム モデルは、まず知覚される BEV 空間內の 3D ボクセル座標點を明示的に生成し、次にカメラの內部および外部の座標點を使用します。パラメータは、3D ボクセル座標點を畫像座標系に投影し、対応する特徴位置でピクセル特徴を抽出および集約して、BEV 空間內に BEV 特徴を構築します。

どちらのアルゴリズムも BEV 空間で正確に特徴を生成し、3D 知覚結果を達成できますが、BEVFormer アルゴリズムなど、BEV 空間に基づく現(xiàn)在の 3D ターゲット知覚アルゴリズムには次の 2 つの問題があります。 ##

  • 質問 1: BEVFormer 知覚アルゴリズム モデルの全體的なフレームワークはエンコーダー-デコーダー ネットワーク構造を採用しているため、主なアイデアはエンコーダー モジュールを使用して BEV 空間の特徴を取得し、その後デコーダーを使用することです。最終的な知覚結果を予測するモジュールを実裝し、出力された知覚結果と真の目標値との間の損失を計算することにより、モデルの BEV 空間特性を予測するプロセスが実現(xiàn)されます。ただし、このネットワーク モデルのパラメータ更新方法は、デコーダ モジュールの知覚パフォーマンスに依存しすぎるため、モデルによって出力される BEV 特徴が真の値の BEV 特徴と一致しないという問題が発生する可能性があり、そのため、さらに制約が生じます。知覚モデルの最終パフォーマンス。
  • 質問 2: BEVFormer 知覚アルゴリズム モデルの Decoder モジュールは依然としてセルフ アテンション モジュール -> クロス アテンション モジュール -> フィードフォワード ニューラル ネットワーク ステップを Transformer で使用して、クエリ機能の構築を完了します。検出結果に関しては、プロセス全體が依然としてブラック ボックス モデルであり、適切な解釈性に欠けています。同時に、モデルトレーニングプロセス中のオブジェクトクエリと真の値ターゲットの間の1対1マッチングプロセスには大きな不確実性もあります。

BEVFormer 知覚アルゴリズム モデルの問題點を解決するために、我々はそれを改良し、サラウンド畫像に基づく 3D 検出アルゴリズム モデル CLIP-BEVFormer を提案しました。対照學習手法を導入することで、BEV 特徴を構築するモデルの能力が強化され、nuScenes データセットで最高レベルの知覚パフォーマンスを達成しました。

記事リンク: https://arxiv.org/pdf/2403.08919.pdf

全體的なアーキテクチャとネットワーク モデルの詳細

詳細この記事で提案する CLIP-BEVFormer 知覚アルゴリズム モデルの詳細を紹介する前に、次の図に CLIP-BEVFormer アルゴリズムの全體的なネットワーク構造を示します。

CLIP-BEVFormer: BEVFormer 構造を明示的に監(jiān)視して、ロングテール検出パフォーマンスを向上させます。この記事で提案するCLIP-BEVFormer知覚アルゴリズムモデルの全體フローチャート

アルゴリズムの全體フローチャートから、CLIP-BEVFormerアルゴリズムモデルがこの記事で提案するアルゴリズムは BEVFormer アルゴリズム モデルに基づいており、その改良點に基づいて、BEVFormer 知覚アルゴリズム モデルの実裝プロセスを簡単にレビューします。まず、BEVFormer アルゴリズム モデルは、カメラ センサーによって収集されたサラウンド畫像データを入力し、2D 畫像特徴抽出ネットワークを使用して、入力サラウンド畫像のマルチスケール意味論的特徴情報を抽出します。次に、時間的セルフ アテンションと空間的クロス アテンションを含むエンコーダ モジュールを使用して、2D 畫像特徴から BEV 空間特徴への変換プロセスを完了します。次に、オブジェクト クエリのセットが 3D 知覚空間で正規(guī)分布の形式で生成され、デコーダ モジュールに送信され、エンコーダ モジュールが出力する BEV 空間特徴との空間特徴のインタラクティブな利用が完了します。最後に、フィードフォワード ニューラル ネットワークを使用して、オブジェクト クエリによってクエリされた意味特徴を予測し、ネットワーク モデルの最終的な分類と回帰の結果が出力されます。同時に、BEVFormer アルゴリズム モデルのトレーニング プロセス中に、1 対 1 のハンガリー マッチング戦略を使用して陽性サンプルと陰性サンプルの分配プロセスを完了し、分類と回帰損失を使用してサンプルの更新プロセスを完了します。全體的なネットワーク モデル パラメーター。 BEVFormer アルゴリズム モデルの全體的な検出プロセスは、次の數(shù)式で表すことができます。

CLIP-BEVFormer: BEVFormer 構造を明示的に監(jiān)視して、ロングテール検出パフォーマンスを向上させます。

このうち、式中の は、BEVFormerアルゴリズムにおけるEncoder特徴抽出モジュールを表し、BEVFormerアルゴリズムにおけるDecoder復號モジュールを表し、データセットにおける真?zhèn)帴咯`ゲットラベルを表し、現(xiàn)在の BEVFormer アルゴリズム モデルを表し、3D 認識結果を出力します。

真の値 BEV の生成

前述したように、BEV 空間に基づく既存の 3D ターゲット検出アルゴリズムのほとんどには明示的な位置合わせがありません。生成される BEV 空間特徴は次のとおりです。これは、モデルによって生成された BEV 特徴が実際の BEV 特徴と一致しない可能性があるという問題につながり、この BEV 空間特徴の分布の違いにより、モデルの最終的な知覚パフォーマンスが制限されます。この検討に基づいて、私たちは Ground Truth BEV モジュールを提案しました。このモジュールを設計する際の中心的なアイデアは、モデルによって生成された BEV 特徴を現(xiàn)在の真の値の BEV 特徴と一致させ、それによってモデルのパフォーマンスを向上させることです。

具體的には、全體的なネットワーク フレームワーク図に示すように、グラウンド トゥルース エンコーダー () を使用して、BEV 特徴マップ上の任意のグラウンド トゥルース インスタンスのカテゴリ ラベルと空間境界ボックスの位置情報をエンコードします。このプロセスは、次の形式の式で表すことができます。

式は、生成された BEV 特徴マップと同じサイズの特徴次元を持ち、真?zhèn)帴咯`ゲットの符號化された特徴情報を表します。符號化処理では、大規(guī)模言語モデル (LLM) と多層パーセプトロン (MLP) の 2 つの形式を採用しましたが、実験の結果、2 つの方式は基本的に同じ性能を達成できることがわかりました。

さらに、BEV 特徴マップ上の真?zhèn)帴咯`ゲットの境界情報をさらに強化するために、空間的位置に応じて BEV 特徴マップ上の真?zhèn)帴咯`ゲットをクロップし、クロッピングを実行します。特徴はプーリング操作を使用して、対応する特徴情報表現(xiàn)を構築します。プロセスは次の形式で表現(xiàn)できます:

最後に、モデルによって生成された BEV 特徴を真の値の BEV 特徴とさらに調整するために、比較學習手法を採用し、2 種類の BEV 特徴間の要素関係と距離を最適化します。最適化プロセスは次の形式で表現(xiàn)できます。生成された BEV 特徴量と真の BEV 特徴量の間の類似度行列は、対比學習における論理スケール ファクターを表し、行列間の乗算演算を表し、クロスエントロピー損失関數(shù)を表します。上記の対照學習方法を通じて、私たちが提案する方法は、生成されたBEV特徴に対してより明確な特徴ガイダンスを提供し、モデルの知覚能力を向上させることができます。

True value ターゲット クエリの相互作用

この部分については、前の記事でも説明しています。BEVFormer 認識アルゴリズム モデルのオブジェクト クエリは、Decoder モジュールを通じて生成された BEV 特徴と相互作用し、対応するターゲットクエリの特性を取得しますが、プロセス全體としては依然としてブラックボックスプロセスであり、プロセスの完全な理解が不足しています。この問題に対処するために、真理値クエリ インタラクション モジュールを導入しました。このモジュールは、真理値ターゲットを使用して Decoder モジュールの BEV 特徴インタラクションを実行し、モデル パラメーターの學習プロセスを刺激します。具體的には、truth encoder()モジュールが出力する真理ターゲットの符號化情報をObject Queryに導入し、Decoderモジュールの復號処理に參加させ、通常のObject Queryと同様にセルフアテンションモジュール、クロスアテンションモジュールに參加します。フィードフォワード ニューラル ネットワークは、最終的な知覚結果を出力します。ただし、デコード処理中、すべてのオブジェクト クエリは、真の値のターゲット情報の漏洩を防ぐために並列計算を使用することに注意する必要があります。真理値ターゲットクエリ対話プロセス全體は、次の形式で抽象的に表現(xiàn)できます。

CLIP-BEVFormer: BEVFormer 構造を明示的に監(jiān)視して、ロングテール検出パフォーマンスを向上させます。

このうち、式內の は初期化されたオブジェクトクエリを表し、真理値オブジェクトを表します。それぞれクエリ処理 デコーダモジュールとセンシング検出ヘッドの出力結果。モデルトレーニングプロセスに真?zhèn)帴咯`ゲットのインタラクションプロセスを導入することにより、私たちが提案した真?zhèn)帴咯`ゲットクエリインタラクションモジュールは、真?zhèn)帴咯`ゲットクエリと真?zhèn)嶣EV特徴の間のインタラクションを実現(xiàn)し、それによって、モデルのパラメータ更新プロセスを支援します。モデルデコーダモジュール。

実験結果と評価指標

定量分析部分

CLIP-BEVFormerアルゴリズムの有効性を検証するために私たちが提案した性別モデルを使用して、3D 知覚効果、データセット內のターゲット カテゴリのロングテール分布、ロバスト性の観點から nuScenes データセットで関連する実験を実施しました。次の表は、私たちが提案したアルゴリズム モデルと他のアルゴリズム モデルの違いを示しています。 3D 認識アルゴリズム モデル nuScenes データセットでの精度比較。

CLIP-BEVFormer: BEVFormer 構造を明示的に監(jiān)視して、ロングテール検出パフォーマンスを向上させます。

本記事で提案する手法と他の知覚アルゴリズムモデルの比較結果

実験のこの部分では、さまざまなモデル構成での知覚パフォーマンスを評価しました。具體的には、CLIP-BEVFormer アルゴリズム モデルを BEVFormer の小さなバリアントと基本バリアントに適用しました。さらに、事前トレーニングされた CLIP モデルまたは MLP レイヤーをグランド トゥルース ターゲット エンコーダーとして使用した場合のモデルの知覚パフォーマンスへの影響も調査しました。実験結果から、オリジナルの tiny バリアントであっても、base バリアントであっても、私たちが提案した CLIP-BEVFormer アルゴリズムを適用した後、NDS および mAP インジケーターのパフォーマンスが安定して向上していることがわかります。さらに、実験結果を通じて、私たちが提案したアルゴリズム モデルは、グランド トゥルース ターゲット エンコーダーに MLP 層または言語モデルが選択されるかどうかに影響を受けないことがわかり、この柔軟性により、私たちが提案した CLIP-BEVFormer アルゴリズムをより効果的にすることができます。適応性があり、車両への導入が簡単です。要約すると、提案されたアルゴリズム モデルのさまざまなバリアントのパフォーマンス指標は、提案された CLIP-BEVFormer アルゴリズム モデルが優(yōu)れた知覚ロバスト性を持ち、さまざまなモデルの複雑さとパラメーター量の下で優(yōu)れた検出パフォーマンスを達成できることを一貫して示しています。

3D 認識タスクで提案した CLIP-BEVFormer のパフォーマンスを検証することに加えて、データセット內のロングテール分布に対するアルゴリズムの堅牢性を評価するためにロングテール分布実験も実施しました。スティッキー性と汎化能力、実験結果は次の表にまとめられています。

CLIP-BEVFormer: BEVFormer 構造を明示的に監(jiān)視して、ロングテール検出パフォーマンスを向上させます。

ロングテール問題に対する提案された CLIP-BEVFormer アルゴリズム モデルのパフォーマンス

表の実験結果から、nuScenes データセットはカテゴリ數(shù)に大きな不均衡を示していることがわかります。(建設車両、バス、オートバイ、自転車など) などの一部のカテゴリは、非常に大きな割合を占めています。割合は低いですが、自動車の場合はその割合が非常に高くなります。ロングテール分布を使用して関連する実験を実行することにより、特徴カテゴリに対する提案された CLIP-BEVFormer アルゴリズム モデルの知覚パフォーマンスを評価し、それによってあまり一般的ではないカテゴリを解決するその処理能力を検証します。上記の実験データから、提案された CLIP-BEVFormer アルゴリズム モデルがすべてのカテゴリでパフォーマンスの向上を達成し、非常に小さな割合を占めるカテゴリでは、CLIP-BEVFormer アルゴリズム モデルが明らかな実質的なパフォーマンスの向上を示していることがわかります。

実際の環(huán)境における自動運転システムは、ハードウェアの故障、厳しい気象條件、人工障害物によって容易に引き起こされるセンサーの故障などの問題に直面する必要があることを考慮して、提案されたアルゴリズムの堅牢性をさらに実験的に検証しました。モデル。具體的には、センサーの故障問題をシミュレートするために、モデルの実裝推論プロセス中にカメラのカメラをランダムにブロックして、カメラが故障する可能性のあるシーンをシミュレートしました。関連する実験結果は以下の表に示されています

CLIP-BEVFormer: BEVFormer 構造を明示的に監(jiān)視して、ロングテール検出パフォーマンスを向上させます。提案されたCLIP-BEVFormerアルゴリズムモデルのロバストネス実験結果

実験結果から、tiny または Base のモデル パラメーター構成に関係なく、私たちが提案した CLIP-BEVFormer アルゴリズム モデルは、BEVFormer の同じ構成のベースライン モデルよりも常に優(yōu)れていることがわかります。アルゴリズム モデルはシミュレーションで良好なパフォーマンスを発揮します。 センサーの故障狀況下でも優(yōu)れたパフォーマンスと優(yōu)れた堅牢性を備えています。

定性分析パート

次の図は、私たちが提案したCLIP-BEVFormerアルゴリズムモデルとBEVFormerアルゴリズムモデルの知覚結果の視覚的な比較を示しています。視覚的な結果から、私たちが提案したCLIP-BEVFormerアルゴリズムモデルの知覚結果が真の値ターゲットに近いことがわかり、私たちが提案した真の値BEV特徴生成モジュールと真の値ターゲットクエリインタラクションモジュールの有効性を示しています。

CLIP-BEVFormer: BEVFormer 構造を明示的に監(jiān)視して、ロングテール検出パフォーマンスを向上させます。

提案されたCLIP-BEVFormerアルゴリズムモデルとBEVFormerアルゴリズムモデルの知覚結果の視覚的比較

結論

この記事では、元の BEVFormer アルゴリズムで BEV 特徴マップを生成するプロセスにおける表示監(jiān)視の欠如と、Decoder モジュールのオブジェクト クエリと BEV 特徴の間の対話型クエリの不確実性を考慮して、CLIP- BEVFormer アルゴリズム モデルから始まり、アルゴリズム モデルの 3D 認識性能、ターゲットのロングテール分布、センサー故障に対するロバスト性について実験が行われ、多くの実験結果が私たちが提案した CLIP-BEVFormer アルゴリズム モデルの有効性を示しています。

以上がCLIP-BEVFormer: BEVFormer 構造を明示的に監(jiān)視して、ロングテール検出パフォーマンスを向上させます。の詳細內容です。詳細については、PHP 中國語 Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明
この記事の內容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當する法的責任を負いません。盜作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脫衣畫像を無料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中國語版

SublimeText3 中國語版

中國語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統(tǒng)合開発環(huán)境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

CLIP-BEVFormer: BEVFormer 構造を明示的に監(jiān)視して、ロングテール検出パフォーマンスを向上させます。 CLIP-BEVFormer: BEVFormer 構造を明示的に監(jiān)視して、ロングテール検出パフォーマンスを向上させます。 Mar 26, 2024 pm 12:41 PM

上記および筆者の個人的な理解: 現(xiàn)在、自動運転システム全體において、認識モジュールが重要な役割を果たしている?道路を走行する自動運転車は、認識モジュールを通じてのみ正確な認識結果を得ることができる?下流の規(guī)制および制御モジュール自動運転システムでは、タイムリーかつ正確な判斷と行動決定が行われます?,F(xiàn)在、自動運転機能を備えた自動車には通常、サラウンドビューカメラセンサー、ライダーセンサー、ミリ波レーダーセンサーなどのさまざまなデータ情報センサーが搭載されており、さまざまなモダリティで情報を収集して正確な認識タスクを実現(xiàn)しています。純粋な視覚に基づく BEV 認識アルゴリズムは、ハードウェア コストが低く導入が容易であるため、業(yè)界で好まれており、その出力結果はさまざまな下流タスクに簡単に適用できます。

人工知能は犯罪を予測できるのか? CrimeGPT の機能を調べる 人工知能は犯罪を予測できるのか? CrimeGPT の機能を調べる Mar 22, 2024 pm 10:10 PM

人工知能 (AI) と法執(zhí)行機関の融合により、犯罪の予防と検出の新たな可能性が開かれます。人工知能の予測機能は、犯罪行為を予測するためにCrimeGPT (犯罪予測技術) などのシステムで広く使用されています。この記事では、犯罪予測における人工知能の可能性、その現(xiàn)在の応用、人工知能が直面する課題、およびこの技術の倫理的影響について考察します。人工知能と犯罪予測: 基本 CrimeGPT は、機械學習アルゴリズムを使用して大規(guī)模なデータセットを分析し、犯罪がいつどこで発生する可能性があるかを予測できるパターンを特定します。これらのデータセットには、過去の犯罪統(tǒng)計、人口統(tǒng)計情報、経済指標、気象パターンなどが含まれます。人間のアナリストが見逃す可能性のある傾向を特定することで、人工知能は法執(zhí)行機関に力を與えることができます

C++ での機械學習アルゴリズムの実裝: 一般的な課題と解決策 C++ での機械學習アルゴリズムの実裝: 一般的な課題と解決策 Jun 03, 2024 pm 01:25 PM

C++ の機械學習アルゴリズムが直面する一般的な課題には、メモリ管理、マルチスレッド、パフォーマンスの最適化、保守性などがあります。解決策には、スマート ポインター、最新のスレッド ライブラリ、SIMD 命令、サードパーティ ライブラリの使用、コーディング スタイル ガイドラインの遵守、自動化ツールの使用が含まれます。実踐的な事例では、Eigen ライブラリを使用して線形回帰アルゴリズムを実裝し、メモリを効果的に管理し、高性能の行列演算を使用する方法を示します。

オックスフォード大學の最新情報!ミッキー:2D畫像を3D SOTAでマッチング! (CVPR\'24) オックスフォード大學の最新情報!ミッキー:2D畫像を3D SOTAでマッチング! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

前に書かれたプロジェクトのリンク: https://nianticlabs.github.io/mickey/ 2 枚の寫真が與えられた場合、それらの寫真間の対応関係を確立することで、それらの間のカメラのポーズを推定できます。通常、これらの対応は 2D 対 2D であり、推定されたポーズはスケール不定です。いつでもどこでもインスタント拡張現(xiàn)実などの一部のアプリケーションでは、スケール メトリクスの姿勢推定が必要なため、スケールを回復するために外部深度推定器に依存します。この論文では、3D カメラ空間でのメトリックの対応を予測できるキーポイント マッチング プロセスである MicKey を提案します。畫像全體の 3D 座標マッチングを學習することで、相対的なメトリックを推測できるようになります。

C++sort 関數(shù)の基礎となる原則とアルゴリズムの選択を調べる C++sort 関數(shù)の基礎となる原則とアルゴリズムの選択を調べる Apr 02, 2024 pm 05:36 PM

C++sort 関數(shù)の最下層はマージ ソートを使用し、その複雑さは O(nlogn) で、クイック ソート、ヒープ ソート、安定したソートなど、さまざまなソート アルゴリズムの選択肢を提供します。

3D ビジョンには點群の登録が不可欠です。すべての主流のソリューションと課題を 1 つの記事で理解する 3D ビジョンには點群の登録が不可欠です。すべての主流のソリューションと課題を 1 つの記事で理解する Apr 02, 2024 am 11:31 AM

點の集合體である點群は、3D再構築、工業(yè)用検査、ロボット操作などを通じて、物體の3次元(3D)表面情報の取得と生成に変化をもたらすことが期待されています。最も困難だが重要なプロセスは、點群の登録です。つまり、2 つの異なる座標で取得された 2 つの點群を位置合わせして一致させる空間変換を取得します。このレビューは、點群登録の概要と基本原理を紹介し、さまざまな方法を體系的に分類して比較し、點群登録に存在する技術的問題を解決することで、分野外の學術研究者やエンジニアに指導を提供し、統(tǒng)一されたビジョンに関する議論を促進することを目的としています。點群登録用。一般的な點群取得方法はアクティブ方式とパッシブ方式に分けられ、センサーが能動的に點群を取得するのがアクティブ方式で、點群は後で再構成されます。

LLMはすべて完了しました! OmniDrive: 3D 認識と推論プランニングの統(tǒng)合 (NVIDIA の最新) LLMはすべて完了しました! OmniDrive: 3D 認識と推論プランニングの統(tǒng)合 (NVIDIA の最新) May 09, 2024 pm 04:55 PM

上記と著者の個人的な理解: この論文は、自動運転アプリケーションにおける現(xiàn)在のマルチモーダル大規(guī)模言語モデル (MLLM) の主要な課題、つまり MLLM を 2D 理解から 3D 空間に拡張する問題の解決に特化しています。自動運転車 (AV) は 3D 環(huán)境について正確な決定を下す必要があるため、この拡張は特に重要です。 3D 空間の理解は、情報に基づいて意思決定を行い、將來の狀態(tài)を予測し、環(huán)境と安全に対話する車両の能力に直接影響を與えるため、AV にとって重要です?,F(xiàn)在のマルチモーダル大規(guī)模言語モデル (LLaVA-1.5 など) は、ビジュアル エンコーダーの解像度制限や LLM シーケンス長の制限により、低解像度の畫像入力しか処理できないことがよくあります。ただし、自動運転アプリケーションには次の要件が必要です。

58 ポートレート プラットフォームの構築におけるアルゴリズムの適用 58 ポートレート プラットフォームの構築におけるアルゴリズムの適用 May 09, 2024 am 09:01 AM

1. 58 Portraits プラットフォーム構築の背景 まず、58 Portraits プラットフォーム構築の背景についてお話ししたいと思います。 1. 従來のプロファイリング プラットフォームの従來の考え方ではもはや十分ではありません。ユーザー プロファイリング プラットフォームを構築するには、複數(shù)のビジネス分野からのデータを統(tǒng)合して、ユーザーの行動や関心を理解するためのデータ マイニングも必要です。最後に、ユーザー プロファイル データを効率的に保存、クエリ、共有し、プロファイル サービスを提供するためのデータ プラットフォーム機能も必要です。自社構築のビジネス プロファイリング プラットフォームとミドルオフィス プロファイリング プラットフォームの主な違いは、自社構築のプロファイリング プラットフォームは単一のビジネス ラインにサービスを提供し、オンデマンドでカスタマイズできることです。ミッドオフィス プラットフォームは複數(shù)のビジネス ラインにサービスを提供し、複雑な機能を備えていることです。モデリングを提供し、より一般的な機能を提供します。 2.58 中間プラットフォームのポートレート構築の背景のユーザーのポートレート 58

See all articles