亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目錄
寫(xiě)在前面&筆者的個(gè)人理解
網(wǎng)絡(luò)模型的整體架構(gòu)&細(xì)節(jié)梳理
真值BEV的生成
真值目標(biāo)查詢(xún)交互
實(shí)驗(yàn)結(jié)果&評(píng)價(jià)指標(biāo)
定量分析部分
定性分析部分
結(jié)論
首頁(yè) 科技周邊 人工智能 CLIP-BEVFormer:顯式監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾檢測(cè)性能

CLIP-BEVFormer:顯式監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾檢測(cè)性能

Mar 26, 2024 pm 12:41 PM
算法 3d

寫(xiě)在前面&筆者的個(gè)人理解

目前,在整個(gè)自動(dòng)駕駛系統(tǒng)當(dāng)中,感知模塊扮演了其中至關(guān)重要的角色,行駛在道路上的自動(dòng)駕駛車(chē)輛只有通過(guò)感知模塊獲得到準(zhǔn)確的感知結(jié)果后,才能讓自動(dòng)駕駛系統(tǒng)中的下游規(guī)控模塊做出及時(shí)、正確的判斷和行為決策。目前,具備自動(dòng)駕駛功能的汽車(chē)中通常會(huì)配備包括環(huán)視相機(jī)傳感器、激光雷達(dá)傳感器以及毫米波雷達(dá)傳感器在內(nèi)的多種數(shù)據(jù)信息傳感器來(lái)收集不同模態(tài)的信息,用于實(shí)現(xiàn)準(zhǔn)確的感知任務(wù)。

基于純視覺(jué)的BEV感知算法因其較低的硬件成本和易于部署的特點(diǎn),以及其輸出結(jié)果能便捷地應(yīng)用于各種下游任務(wù),因此受到工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。近年來(lái),許多基于BEV空間的視覺(jué)感知算法相繼涌現(xiàn),且在公開(kāi)數(shù)據(jù)集上展現(xiàn)出色的感知性能。

目前,基于BEV空間的感知算法根據(jù)構(gòu)建BEV特征的方式可以大體分成兩類(lèi)算法模型:

  • 一類(lèi)是以LSS算法為代表的前向BEV特征構(gòu)建方式,這類(lèi)感知算法模型首先是利用感知模型中的深度估計(jì)網(wǎng)絡(luò)來(lái)預(yù)測(cè)特征圖的每個(gè)像素點(diǎn)的語(yǔ)義特征信息以及離散深度概率分布,然后將得到的語(yǔ)義特征信息與離散深度概率采用外積運(yùn)算的方式構(gòu)建語(yǔ)義視錐特征,采用BEV池化等方式最終完成BEV空間特征的構(gòu)建過(guò)程。
  • 另外一類(lèi)是以BEVFormer算法為代表的反向BEV特征構(gòu)建方式,這類(lèi)感知算法模型首先是在感知的BEV空間下顯式的生成3D體素坐標(biāo)點(diǎn),然后利用相機(jī)的內(nèi)外參將3D體素坐標(biāo)點(diǎn)投影回圖像坐標(biāo)系下,并對(duì)相應(yīng)特征位置的像素特征進(jìn)行提取和聚合,從而構(gòu)建出BEV空間下的BEV特征。

盡管兩種算法都能夠準(zhǔn)確生成BEV空間下的特征并實(shí)現(xiàn)3D感知結(jié)果,但在目前基于BEV空間的3D目標(biāo)感知算法中,比如BEVFormer算法,存在以下兩個(gè)問(wèn)題:

  • 問(wèn)題一:由于BEVFormer感知算法模型整體框架采用的是Encoder-Decoder的網(wǎng)絡(luò)結(jié)構(gòu),其主要思想是利用Encoder模塊獲取BEV空間下的特征,然后利用Decoder模塊預(yù)測(cè)最終的感知結(jié)果,并通過(guò)將輸出的感知結(jié)果與真值目標(biāo)計(jì)算損失來(lái)實(shí)現(xiàn)模型預(yù)測(cè)的BEV空間特征的過(guò)程。但通過(guò)這種網(wǎng)絡(luò)模型的參數(shù)更新方式會(huì)過(guò)于依賴(lài)Decoder模塊的感知性能,導(dǎo)致可能存在模型輸出的BEV特征與真值BEV特征并不對(duì)齊的問(wèn)題,從而進(jìn)一步制約感知模型最終的表現(xiàn)性能。
  • 問(wèn)題二:由于BEVFormer感知算法模型的Decoder模塊依舊沿用Transformer中的自注意力模塊->交叉注意力模塊->前饋神經(jīng)網(wǎng)絡(luò)的步驟完成Query特征的構(gòu)建輸出最終的檢測(cè)結(jié)果,其整個(gè)過(guò)程依舊是一個(gè)黑盒模型,缺乏良好的可解釋性。同時(shí),Object Query與真值目標(biāo)之間的一對(duì)一匹配過(guò)程在模型訓(xùn)練的過(guò)程中也存在著很大的不確定性。

為了解決BEVFormer感知算法模型存在的問(wèn)題,我們對(duì)其進(jìn)行了改進(jìn),提出了基于環(huán)視圖像的3D檢測(cè)算法模型CLIP-BEVFormer。我們通過(guò)引入對(duì)比學(xué)習(xí)的方法,增強(qiáng)了模型對(duì)BEV特征的構(gòu)建能力,并在nuScenes數(shù)據(jù)集上實(shí)現(xiàn)了領(lǐng)先水平的感知性能。

文章鏈接:https://arxiv.org/pdf/2403.08919.pdf

網(wǎng)絡(luò)模型的整體架構(gòu)&細(xì)節(jié)梳理

在詳細(xì)介紹本文提出的CLIP-BEVFormer感知算法模型細(xì)節(jié)之前,下圖展示了CLIP-BEVFormer算法的整體網(wǎng)絡(luò)結(jié)構(gòu)。

CLIP-BEVFormer:顯式監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾檢測(cè)性能本文提出的CLIP-BEVFormer感知算法模型整體流程圖

通過(guò)算法的整體流程圖可以看出,本文提出的CLIP-BEVFormer算法模型是在BEVFormer算法模型的基礎(chǔ)上進(jìn)行改進(jìn)的,這里先簡(jiǎn)單回顧一下BEVFormer感知算法模型的實(shí)現(xiàn)過(guò)程。首先,BEVFormer算法模型輸入的是相機(jī)傳感器采集到的環(huán)視圖像數(shù)據(jù),利用2D的圖像特征提取網(wǎng)絡(luò)提取輸入環(huán)視圖像的多尺度語(yǔ)義特征信息。其次,利用包含時(shí)序自注意力和空間交叉注意力的Encoder模塊完成2D圖像特征向BEV空間特征的轉(zhuǎn)換過(guò)程。然后,在3D感知空間中以正態(tài)分布的形式生成一組Object Query,并送入到Decoder模塊中完成與Encoder模塊輸出的BEV空間特征的空間特征交互利用。最后利用前饋神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)Object Query查詢(xún)到的語(yǔ)義特征,輸出網(wǎng)絡(luò)模型最終的分類(lèi)和回歸結(jié)果。同時(shí),在BEVFormer算法模型訓(xùn)練的過(guò)程中,采用一對(duì)一的匈牙利匹配策略完成正負(fù)樣本的分配過(guò)程,并利用分類(lèi)和回歸損失完成整體網(wǎng)絡(luò)模型參數(shù)的更新過(guò)程。BEVFormer算法模型整體的檢測(cè)過(guò)程可以用如下的數(shù)學(xué)公式進(jìn)行表示:

CLIP-BEVFormer:顯式監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾檢測(cè)性能

其中,公式中的代表BEVFormer算法中的Encoder特征提取模塊,代表BEVFormer算法中的Decoder解碼模塊,代表數(shù)據(jù)集中的真值目標(biāo)標(biāo)簽,代表當(dāng)前BEVFormer算法模型輸出的3D感知結(jié)果。

真值BEV的生成

在上文中已經(jīng)有提到,現(xiàn)有的絕大多數(shù)基于BEV空間的3D目標(biāo)檢測(cè)算法沒(méi)有顯式的對(duì)生成的BEV空間特征進(jìn)行監(jiān)督,導(dǎo)致模型生成的BEV特征可能存在與真實(shí)的BEV特征不一致的問(wèn)題,這種BEV空間特征的分布差異會(huì)制約模型最終的感知性能?;谶@一考慮出發(fā),我們提出了Ground Truth BEV模塊,我們?cè)O(shè)計(jì)該模塊的核心思路是想讓模型生成的BEV特征可以和當(dāng)前真值BEV特征進(jìn)行對(duì)齊,從而提高模型的表現(xiàn)性能。

具體而言,如整體網(wǎng)絡(luò)框架圖所示,我們使用了一個(gè)真值編碼器()用來(lái)對(duì)BEV特征圖上的任意一個(gè)真值實(shí)例的類(lèi)別標(biāo)簽和空間邊界框位置信息進(jìn)行編碼,該過(guò)程可以用公式表述成如下的形式:

其中公式中的具有和生成的BEV特征圖同等大小的特征維度,代表某個(gè)真值目標(biāo)被編碼后的特征信息。在編碼的過(guò)程中,我們采用了兩種形式,一種是大語(yǔ)言模型(LLM),另外一種是多層感知機(jī)(MLP),通過(guò)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),兩種方式基本達(dá)到了同樣的性能。

除此之外,我們?yōu)榱诉M(jìn)一步增強(qiáng)真值目標(biāo)在BEV特征圖上的邊界信息,我們?cè)贐EV特征圖上根據(jù)真值目標(biāo)所在的空間位置將其裁剪下來(lái),并對(duì)裁剪后的特征采用池化操作構(gòu)建對(duì)應(yīng)的特征信息表示,該過(guò)程可以表述成如下的形式:

最后,我們?yōu)榱藢?shí)現(xiàn)模型生成的BEV特征與真值BEV特征的進(jìn)一步對(duì)齊,我們采用了對(duì)比學(xué)習(xí)的方法來(lái)優(yōu)化兩類(lèi)BEV特征之間的元素關(guān)系和距離,其優(yōu)化過(guò)程可以表述成如下的形式:

CLIP-BEVFormer:顯式監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾檢測(cè)性能

其中公式中的和分別代表生成的BEV特征和真值BEV特征之間的相似度矩陣,代表對(duì)比學(xué)習(xí)中的邏輯尺度因子,表示矩陣間的乘法運(yùn)算,代表交叉熵?fù)p失函數(shù)。通過(guò)上述對(duì)比學(xué)習(xí)的方式,我們提出的方法可以為生成的BEV特征提供更加明確的特征指導(dǎo),提高模型的感知能力。

真值目標(biāo)查詢(xún)交互

這部分在前文中也有提到,BEVFormer感知算法模型中的Object Query通過(guò)Decoder模塊與生成的BEV特征進(jìn)行交互,獲得對(duì)應(yīng)的目標(biāo)查詢(xún)特征,但該過(guò)程整體還是一個(gè)黑盒過(guò)程,缺少一個(gè)完整的流程理解。針對(duì)這一問(wèn)題,我們引入了真值查詢(xún)交互模塊,通過(guò)將真值目標(biāo)來(lái)執(zhí)行Decoder模塊的BEV特征交互來(lái)激發(fā)模型參數(shù)的學(xué)習(xí)過(guò)程。具體而言,我們將真值編碼器()模塊輸出的真值目標(biāo)編碼信息引入到Object Query當(dāng)中參與Decoder模塊的解碼過(guò)程,與正常的Object Query參與相同的自注意力模塊,交叉注意力模塊以及前饋神經(jīng)網(wǎng)絡(luò)輸出最終的感知結(jié)果。但需要注意的是,在解碼的過(guò)程中,所有的Object Query均是采用了并行計(jì)算的方式,防止發(fā)生真值目標(biāo)信息的泄露。整個(gè)真值目標(biāo)查詢(xún)交互過(guò)程,可以抽象表述成如下的形式:

CLIP-BEVFormer:顯式監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾檢測(cè)性能

其中,公式中的代表初始化的Object Query,和分別代表真值Object Query經(jīng)過(guò)Decoder模塊和感知檢測(cè)頭的輸出結(jié)果。通過(guò)在模型訓(xùn)練的過(guò)程中引入真值目標(biāo)的交互過(guò)程,我們提出的真值目標(biāo)查詢(xún)交互模塊可以實(shí)現(xiàn)真值目標(biāo)查詢(xún)與真值BEV特征進(jìn)行交互,從而輔助模型Decoder模塊的參數(shù)更新過(guò)程。

實(shí)驗(yàn)結(jié)果&評(píng)價(jià)指標(biāo)

定量分析部分

為了驗(yàn)證我們提出的CLIP-BEVFormer算法模型的有效性,我們分別在nuScenes數(shù)據(jù)集上從3D感知效果、數(shù)據(jù)集中目標(biāo)類(lèi)別的長(zhǎng)尾分布情況以及魯棒性等角度出發(fā)進(jìn)行了相關(guān)實(shí)驗(yàn),下表是我們提出的算法模型與其他3D感知算法模型在nuScenes數(shù)據(jù)集上的精度對(duì)比情況。

CLIP-BEVFormer:顯式監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾檢測(cè)性能

本文提出的方法與其他感知算法模型的對(duì)比結(jié)果

在這部分實(shí)驗(yàn)中,我們分別評(píng)估了不同模型配置情況下的感知性能,具體而言,我們將CLIP-BEVFormer算法模型應(yīng)用于BEVFormer的tiny和base變體中。此外,我們還探索了將預(yù)訓(xùn)練的CLIP模型或者M(jìn)LP層作為真值目標(biāo)編碼器對(duì)于模型感知性能的影響。通過(guò)實(shí)驗(yàn)結(jié)果可以看出,無(wú)論是原先的tiny還是base變體,在應(yīng)用了我們提出的CLIP-BEVFormer算法后,NDS和mAP指標(biāo)均有穩(wěn)定的性能提升。除此之外,通過(guò)實(shí)驗(yàn)結(jié)果我們可以發(fā)現(xiàn),對(duì)于真值目標(biāo)編碼器選擇MLP層還是語(yǔ)言模型,我們提出的算法模型對(duì)于此并不敏感,這種靈活性可以使得我們提出的CLIP-BEVFormer算法更具有適應(yīng)能力并且方便上車(chē)部署??傊?,我們提出的算法模型的各類(lèi)變體的性能指標(biāo)一致表明提出的CLIP-BEVFormer算法模型具有很好的感知魯棒性,可以在不同模型復(fù)雜度和參數(shù)量的情況下實(shí)現(xiàn)出色的檢測(cè)性能。

除了驗(yàn)證我們提出的CLIP-BEVFormer在3D感知任務(wù)上的性能外,我們還進(jìn)行了長(zhǎng)尾分布的實(shí)驗(yàn)來(lái)評(píng)估我們的算法在面對(duì)數(shù)據(jù)集中存在長(zhǎng)尾分布情況下的魯棒性和泛化能力,實(shí)驗(yàn)結(jié)果匯總在下表

CLIP-BEVFormer:顯式監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾檢測(cè)性能

提出的CLIP-BEVFormer算法模型在長(zhǎng)尾問(wèn)題上的表現(xiàn)性能

通過(guò)上表的實(shí)驗(yàn)結(jié)果可以看出,nuScenes數(shù)據(jù)集中表現(xiàn)出了極大的類(lèi)別數(shù)量不均衡的問(wèn)題,其中一些類(lèi)別如(建筑車(chē)輛、公交車(chē)、摩托車(chē)、自行車(chē)等)占比很低,但是對(duì)于小汽車(chē)的占比非常高。我們通過(guò)進(jìn)行長(zhǎng)尾分布的相關(guān)實(shí)驗(yàn)來(lái)評(píng)估提出的CLIP-BEVFormer算法模型在特征類(lèi)別上的感知性能,從而驗(yàn)證其解決不太常見(jiàn)類(lèi)別的處理能力。通過(guò)上述的實(shí)驗(yàn)數(shù)據(jù)可以看出,提出的CLIP-BEVFormer算法模型在所有類(lèi)別上均實(shí)現(xiàn)了性能的提升,并且在對(duì)于占比極少的類(lèi)別上,CLIP-BEVFormer算法模型展示出了明顯的實(shí)質(zhì)性改進(jìn)。

考慮到在真實(shí)環(huán)境下的自動(dòng)駕駛系統(tǒng)需要面臨硬件故障、惡劣天氣狀況或者人造障礙物容易引發(fā)的傳感器故障等問(wèn)題,我們進(jìn)一步實(shí)驗(yàn)驗(yàn)證了提出的算法模型的魯棒性。具體而言,我們?yōu)榱四M傳感器的故障問(wèn)題,我們?cè)谀P蛯?shí)施推理的過(guò)程中隨機(jī)對(duì)一個(gè)相機(jī)的攝像頭進(jìn)行遮擋,從而實(shí)現(xiàn)對(duì)于相機(jī)可能出現(xiàn)故障的場(chǎng)景進(jìn)行模擬,相關(guān)的實(shí)驗(yàn)結(jié)果如下表所示

CLIP-BEVFormer:顯式監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾檢測(cè)性能提出的CLIP-BEVFormer算法模型的魯棒性實(shí)驗(yàn)結(jié)果

通過(guò)實(shí)驗(yàn)結(jié)果可以看出,無(wú)論是在tiny還是base的模型參數(shù)配置下,我們提出的CLIP-BEVFormer算法模型始終要優(yōu)于BEVFormer的相同配置的基線(xiàn)模型,驗(yàn)證了我們的算法模型在模擬傳感器故障情況下的優(yōu)越性能和優(yōu)秀的魯棒性。

定性分析部分

下圖展示了我們提出的CLIP-BEVFormer算法模型與BEVFormer算法模型的感知結(jié)果可視化對(duì)比情況。通過(guò)可視化的結(jié)果可以看出,我們提出的CLIP-BEVFormer算法模型的感知結(jié)果與真值目標(biāo)更加的接近,表明我們提出的真值BEV特征生成模塊與真值目標(biāo)查詢(xún)交互模塊的有效性。

CLIP-BEVFormer:顯式監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾檢測(cè)性能

提出的CLIP-BEVFormer算法模型與BEVFormer算法模型感知結(jié)果的可視化對(duì)比情況

結(jié)論

在本文中,針對(duì)原有的BEVFormer算法當(dāng)中存在的生成BEV特征圖過(guò)程中缺少顯示監(jiān)督以及Decoder模塊中Object Query與BEV特征交互查詢(xún)的不確定問(wèn)題,我們提出了CLIP-BEVFormer算法模型,并從算法模型的3D感知性能、目標(biāo)長(zhǎng)尾分布以及在傳感器故障的魯棒性等方面進(jìn)行實(shí)驗(yàn),大量的實(shí)驗(yàn)結(jié)果表明我們提出的CLIP-BEVFormer算法模型的有效性。

以上是CLIP-BEVFormer:顯式監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾檢測(cè)性能的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請(qǐng)聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線(xiàn)人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)代碼編輯軟件(SublimeText3)

熱門(mén)話(huà)題

Laravel 教程
1597
29
PHP教程
1488
72
CLIP-BEVFormer:顯式監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾檢測(cè)性能 CLIP-BEVFormer:顯式監(jiān)督BEVFormer結(jié)構(gòu),提升長(zhǎng)尾檢測(cè)性能 Mar 26, 2024 pm 12:41 PM

寫(xiě)在前面&筆者的個(gè)人理解目前,在整個(gè)自動(dòng)駕駛系統(tǒng)當(dāng)中,感知模塊扮演了其中至關(guān)重要的角色,行駛在道路上的自動(dòng)駕駛車(chē)輛只有通過(guò)感知模塊獲得到準(zhǔn)確的感知結(jié)果后,才能讓自動(dòng)駕駛系統(tǒng)中的下游規(guī)控模塊做出及時(shí)、正確的判斷和行為決策。目前,具備自動(dòng)駕駛功能的汽車(chē)中通常會(huì)配備包括環(huán)視相機(jī)傳感器、激光雷達(dá)傳感器以及毫米波雷達(dá)傳感器在內(nèi)的多種數(shù)據(jù)信息傳感器來(lái)收集不同模態(tài)的信息,用于實(shí)現(xiàn)準(zhǔn)確的感知任務(wù)?;诩円曈X(jué)的BEV感知算法因其較低的硬件成本和易于部署的特點(diǎn),以及其輸出結(jié)果能便捷地應(yīng)用于各種下游任務(wù),因此受到工業(yè)

人工智能可以預(yù)測(cè)犯罪嗎?探索CrimeGPT的能力 人工智能可以預(yù)測(cè)犯罪嗎?探索CrimeGPT的能力 Mar 22, 2024 pm 10:10 PM

人工智能(AI)與執(zhí)法領(lǐng)域的融合為犯罪預(yù)防和偵查開(kāi)辟了新的可能性。人工智能的預(yù)測(cè)能力被廣泛應(yīng)用于CrimeGPT(犯罪預(yù)測(cè)技術(shù))等系統(tǒng),用于預(yù)測(cè)犯罪活動(dòng)。本文探討了人工智能在犯罪預(yù)測(cè)領(lǐng)域的潛力、目前的應(yīng)用情況、所面臨的挑戰(zhàn)以及相關(guān)技術(shù)可能帶來(lái)的道德影響。人工智能和犯罪預(yù)測(cè):基礎(chǔ)知識(shí)CrimeGPT利用機(jī)器學(xué)習(xí)算法來(lái)分析大量數(shù)據(jù)集,識(shí)別可以預(yù)測(cè)犯罪可能發(fā)生的地點(diǎn)和時(shí)間的模式。這些數(shù)據(jù)集包括歷史犯罪統(tǒng)計(jì)數(shù)據(jù)、人口統(tǒng)計(jì)信息、經(jīng)濟(jì)指標(biāo)、天氣模式等。通過(guò)識(shí)別人類(lèi)分析師可能忽視的趨勢(shì),人工智能可以為執(zhí)法機(jī)構(gòu)

使用C++實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法:常見(jiàn)挑戰(zhàn)及解決方案 使用C++實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法:常見(jiàn)挑戰(zhàn)及解決方案 Jun 03, 2024 pm 01:25 PM

C++中機(jī)器學(xué)習(xí)算法面臨的常見(jiàn)挑戰(zhàn)包括內(nèi)存管理、多線(xiàn)程、性能優(yōu)化和可維護(hù)性。解決方案包括使用智能指針、現(xiàn)代線(xiàn)程庫(kù)、SIMD指令和第三方庫(kù),并遵循代碼風(fēng)格指南和使用自動(dòng)化工具。實(shí)踐案例展示了如何利用Eigen庫(kù)實(shí)現(xiàn)線(xiàn)性回歸算法,有效地管理內(nèi)存和使用高性能矩陣操作。

牛津大學(xué)最新!Mickey:3D中的2D圖像匹配SOTA!(CVPR\'24) 牛津大學(xué)最新!Mickey:3D中的2D圖像匹配SOTA!(CVPR\'24) Apr 23, 2024 pm 01:20 PM

寫(xiě)在前面項(xiàng)目鏈接:https://nianticlabs.github.io/mickey/給定兩張圖片,可以通過(guò)建立圖片之間的對(duì)應(yīng)關(guān)系來(lái)估計(jì)它們之間的相機(jī)姿態(tài)。通常,這些對(duì)應(yīng)關(guān)系是二維到二維的,而我們估計(jì)的姿態(tài)在尺度上是不確定的。一些應(yīng)用,例如隨時(shí)隨地實(shí)現(xiàn)即時(shí)增強(qiáng)現(xiàn)實(shí),需要尺度度量的姿態(tài)估計(jì),因此它們依賴(lài)于外部的深度估計(jì)器來(lái)恢復(fù)尺度。本文提出了MicKey,這是一個(gè)關(guān)鍵點(diǎn)匹配流程,能夠夠預(yù)測(cè)三維相機(jī)空間中的度量對(duì)應(yīng)關(guān)系。通過(guò)學(xué)習(xí)跨圖像的三維坐標(biāo)匹配,我們能夠在沒(méi)有深度測(cè)試的情況下推斷出度量相對(duì)

探究C++sort函數(shù)的底層原理與算法選擇 探究C++sort函數(shù)的底層原理與算法選擇 Apr 02, 2024 pm 05:36 PM

C++sort函數(shù)底層采用歸并排序,其復(fù)雜度為O(nlogn),并提供不同的排序算法選擇,包括快速排序、堆排序和穩(wěn)定排序。

3D視覺(jué)繞不開(kāi)的點(diǎn)云配準(zhǔn)!一文搞懂所有主流方案與挑戰(zhàn) 3D視覺(jué)繞不開(kāi)的點(diǎn)云配準(zhǔn)!一文搞懂所有主流方案與挑戰(zhàn) Apr 02, 2024 am 11:31 AM

作為點(diǎn)集合的點(diǎn)云有望通過(guò)3D重建、工業(yè)檢測(cè)和機(jī)器人操作中,在獲取和生成物體的三維(3D)表面信息方面帶來(lái)一場(chǎng)改變。最具挑戰(zhàn)性但必不可少的過(guò)程是點(diǎn)云配準(zhǔn),即獲得一個(gè)空間變換,該變換將在兩個(gè)不同坐標(biāo)中獲得的兩個(gè)點(diǎn)云對(duì)齊并匹配。這篇綜述介紹了點(diǎn)云配準(zhǔn)的概述和基本原理,對(duì)各種方法進(jìn)行了系統(tǒng)的分類(lèi)和比較,并解決了點(diǎn)云配準(zhǔn)中存在的技術(shù)問(wèn)題,試圖為該領(lǐng)域以外的學(xué)術(shù)研究人員和工程師提供指導(dǎo),并促進(jìn)對(duì)點(diǎn)云配準(zhǔn)統(tǒng)一愿景的討論。點(diǎn)云獲取的一般方式分為主動(dòng)和被動(dòng)方式,由傳感器主動(dòng)獲取的點(diǎn)云為主動(dòng)方式,后期通過(guò)重建的方式

LLM全搞定!OmniDrive:集3D感知、推理規(guī)劃于一體(英偉達(dá)最新) LLM全搞定!OmniDrive:集3D感知、推理規(guī)劃于一體(英偉達(dá)最新) May 09, 2024 pm 04:55 PM

寫(xiě)在前面&筆者的個(gè)人理解這篇論文致力于解決當(dāng)前多模態(tài)大語(yǔ)言模型(MLLMs)在自動(dòng)駕駛應(yīng)用中存在的關(guān)鍵挑戰(zhàn),即將MLLMs從2D理解擴(kuò)展到3D空間的問(wèn)題。由于自動(dòng)駕駛車(chē)輛(AVs)需要針對(duì)3D環(huán)境做出準(zhǔn)確的決策,這一擴(kuò)展顯得尤為重要。3D空間理解對(duì)于AV來(lái)說(shuō)至關(guān)重要,因?yàn)樗苯佑绊戃?chē)輛做出明智決策、預(yù)測(cè)未來(lái)狀態(tài)以及與環(huán)境安全互動(dòng)的能力。當(dāng)前的多模態(tài)大語(yǔ)言模型(如LLaVA-1.5)通常僅能處理較低分辨率的圖像輸入(例如),這是由于視覺(jué)編碼器的分辨率限制,LLM序列長(zhǎng)度的限制。然而,自動(dòng)駕駛應(yīng)用需

算法在 58 畫(huà)像平臺(tái)建設(shè)中的應(yīng)用 算法在 58 畫(huà)像平臺(tái)建設(shè)中的應(yīng)用 May 09, 2024 am 09:01 AM

一、58畫(huà)像平臺(tái)建設(shè)背景首先和大家分享下58畫(huà)像平臺(tái)的建設(shè)背景。1.傳統(tǒng)的畫(huà)像平臺(tái)傳統(tǒng)的思路已經(jīng)不夠,建設(shè)用戶(hù)畫(huà)像平臺(tái)依賴(lài)數(shù)據(jù)倉(cāng)庫(kù)建模能力,整合多業(yè)務(wù)線(xiàn)數(shù)據(jù),構(gòu)建準(zhǔn)確的用戶(hù)畫(huà)像;還需要數(shù)據(jù)挖掘,理解用戶(hù)行為、興趣和需求,提供算法側(cè)的能力;最后,還需要具備數(shù)據(jù)平臺(tái)能力,高效存儲(chǔ)、查詢(xún)和共享用戶(hù)畫(huà)像數(shù)據(jù),提供畫(huà)像服務(wù)。業(yè)務(wù)自建畫(huà)像平臺(tái)和中臺(tái)類(lèi)型畫(huà)像平臺(tái)主要區(qū)別在于,業(yè)務(wù)自建畫(huà)像平臺(tái)服務(wù)單條業(yè)務(wù)線(xiàn),按需定制;中臺(tái)平臺(tái)服務(wù)多條業(yè)務(wù)線(xiàn),建模復(fù)雜,提供更為通用的能力。2.58中臺(tái)畫(huà)像建設(shè)的背景58的用戶(hù)畫(huà)像

See all articles