亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目錄
簡(jiǎn)單介紹
簡(jiǎn)單結(jié)果展示
背景及現(xiàn)狀
常見的Two-stage演算法
Matrix Nets
2、層範(fàn)圍
3、Matrix Nets的優(yōu)點(diǎn)
Matrix Nets 用於基於關(guān)鍵點(diǎn)的偵測(cè)" >Matrix Nets 用於基於關(guān)鍵點(diǎn)的偵測(cè)
實(shí)驗(yàn)結(jié)果
首頁(yè) 科技週邊 人工智慧 最新的目標(biāo)偵測(cè)的深度架構(gòu) 參數(shù)少一半、速度快3倍+

最新的目標(biāo)偵測(cè)的深度架構(gòu) 參數(shù)少一半、速度快3倍+

Apr 09, 2023 am 11:41 AM
架構(gòu) 目標(biāo)偵測(cè) 深度

簡(jiǎn)單介紹

研究作者提出了?Matrix Net (xNet),一種用於目標(biāo)偵測(cè)的新深度架構(gòu)。 xNets將具有不同大小尺寸和縱橫比的目標(biāo)映射到網(wǎng)路層中,其中目標(biāo)在層內(nèi)的大小和縱橫比幾乎是均勻的。因此,xNets提供了一種尺寸和縱橫比感知結(jié)構(gòu)。研究者利用xNets增強(qiáng)基於關(guān)鍵點(diǎn)的目標(biāo)偵測(cè)。新的架構(gòu)實(shí)現(xiàn)了比任何其他單鏡頭偵測(cè)器的時(shí)效性高,具有47.8的mAP在MS COCO資料集,同時(shí)使用了一半的參數(shù)而且相比於第二好框架,其在訓(xùn)練上快了3倍。

簡(jiǎn)單結(jié)果展示

最新的目標(biāo)偵測(cè)的深度架構(gòu) 參數(shù)少一半、速度快3倍+

上圖所示,xNet的參數(shù)及效率要遠(yuǎn)遠(yuǎn)超過(guò)其它模型。其中FSAF在基於錨點(diǎn)的偵測(cè)器中效果是最好的,它超過(guò)了經(jīng)典的RetinaNet。研究者提出的模型在參數(shù)量類似的情況下表現(xiàn)超過(guò)了所有其他single-shot架構(gòu)。

背景及現(xiàn)狀

目標(biāo)偵測(cè)是電腦視覺(jué)中最廣泛研究的任務(wù)之一,具有許多應(yīng)用到其他視覺(jué)任務(wù),如目標(biāo)追蹤、實(shí)例分割和圖片字幕。目標(biāo)偵測(cè)結(jié)構(gòu)可分為兩類:single-shot偵測(cè)器two-stage偵測(cè)器。 Two-stage偵測(cè)器利用區(qū)域候選網(wǎng)路找到固定數(shù)量的目標(biāo)候選,然後使用第二個(gè)網(wǎng)路來(lái)預(yù)測(cè)每個(gè)候選的分?jǐn)?shù)並改善其邊界框。

常見的Two-stage演算法

最新的目標(biāo)偵測(cè)的深度架構(gòu) 參數(shù)少一半、速度快3倍+

#Single-shot偵測(cè)器也可以分為兩類:基於錨定的偵測(cè)器和基於關(guān)鍵點(diǎn)的偵測(cè)器?;跺^的偵測(cè)器包含許多錨點(diǎn)??邊界框,然後預(yù)測(cè)每個(gè)模板的偏移量和類別。最著名的基於錨的體系結(jié)構(gòu)是RetinaNet,它提出了focal損失函數(shù),以幫助修正錨定邊界框的類別不平衡。性能最好的基於錨的探測(cè)器是FSAF。 FSAF將錨基輸出與無(wú)錨輸出頭整合在一起,以進(jìn)一步提高效能。

另一方面,基於關(guān)鍵點(diǎn)的偵測(cè)器可以預(yù)測(cè)左上角和右下角的熱圖,並使用特徵嵌入將它們匹配起來(lái)。最初的基於關(guān)鍵點(diǎn)的偵測(cè)器是CornerNet,它利用一個(gè)特殊的coener池化層來(lái)準(zhǔn)確地偵測(cè)不同大小的目標(biāo)。從那時(shí)起,Centerne透過(guò)預(yù)測(cè)目標(biāo)中心和角,大幅改進(jìn)了CornerNet體系結(jié)構(gòu)。

Matrix Nets

下圖所示為Matrix nets(xNets),使用分層矩陣建模具有不同大小和叢橫比的目標(biāo),其中矩陣中的每個(gè)條目i、j 表示一個(gè)層li,j,矩陣左上角層l1,1 中寬度降採(cǎi)樣2^(i-1),高度降採(cǎi)樣2^(j-1)。對(duì)角線層是不同大小的方形層,相當(dāng)於一個(gè) FPN,而非對(duì)角層是長(zhǎng)方形層(這是xNets所特有的)。?層l1,1是最大的層,每向右一步,層寬度減半,而每向下一步高度減半。

最新的目標(biāo)偵測(cè)的深度架構(gòu) 參數(shù)少一半、速度快3倍+

例如,層l3,4是層l3,3寬度的一半。對(duì)角層建模寬高比接近方形的目標(biāo),而非對(duì)角層建模寬高比不接近方形的目標(biāo)。接近矩陣右上角或左下角的層建模寬高比極高或極低的目標(biāo)。這類目標(biāo)非常罕見,所以可以將它們剪枝以提升效率。

1、Layer Generation

產(chǎn)生矩陣層是一個(gè)關(guān)鍵的步驟,因?yàn)樗鼤?huì)影響模型參數(shù)的數(shù)量。參數(shù)越多,模型表達(dá)越強(qiáng),優(yōu)化問(wèn)題越困難,因此研究者選擇盡可能少引入新的參數(shù)。對(duì)角線層可以從主幹的不同階段獲得,也可以使用特徵金字塔框架。上三角層是在對(duì)角線層上施加一系列具有1x2步長(zhǎng)的共享3x3卷積得到的。類似地,左下角層是使用具有2x1步長(zhǎng)的共享3x3卷積得到的。參數(shù)在所有下採(cǎi)樣卷積之間共享,以最小化新參數(shù)的數(shù)量。

2、層範(fàn)圍

矩陣中的每個(gè)層都對(duì)具有一定寬度和高度的目標(biāo)進(jìn)行建模,因此我們需要定義分配給矩陣中每個(gè)層的目標(biāo)的寬度和高度範(fàn)圍。範(fàn)圍需要反映矩陣層特徵向量的感受野。矩陣中向右的每一步都有效地使水平維度中的感受野加倍,而每一步都使垂直維度上的感受場(chǎng)加倍。因此,當(dāng)我們?cè)诰仃囍邢蛴一蛳蛳乱苿?dòng)時(shí),寬度或高度的範(fàn)圍需要加倍。一旦定義了第一層l1,1的範(fàn)圍,我們就可以使用上述規(guī)則為矩陣層的其餘部分產(chǎn)生範(fàn)圍。

3、Matrix Nets的優(yōu)點(diǎn)

Matrix Nets的主要優(yōu)點(diǎn)是它們?cè)试S方形卷積核準(zhǔn)確地收集有關(guān)不同縱橫比的資訊。在傳統(tǒng)的目標(biāo)偵測(cè)模型中,如RetinaNet,需要一個(gè)方形卷積核來(lái)輸出不同的長(zhǎng)寬比和尺度。這與直覺(jué)相反,因?yàn)椴煌矫娴倪吔缈蛐枰煌谋尘啊T贛atrix Nets中,由於每個(gè)矩陣層的上下文發(fā)生變化,因此相同的方形卷積核可以用於不同比例和長(zhǎng)寬比的邊界框。

由於目標(biāo)大小在其指定的層內(nèi)幾乎是均勻的,因此與其他架構(gòu)(例如FPN)相比,寬度和高度的動(dòng)態(tài)範(fàn)圍更小。因此,回歸目標(biāo)的高度和寬度將變得更容易優(yōu)化問(wèn)題。最後Matrix Nets可用作任何目標(biāo)檢測(cè)架構(gòu)、基於錨或基於關(guān)鍵點(diǎn)、one-shot或two-shots檢測(cè)器。

Matrix Nets 用於基於關(guān)鍵點(diǎn)的偵測(cè)

在CornerNet被提出來(lái)的時(shí)候,其是為了替代基於錨點(diǎn)的檢測(cè),它利用一對(duì)角(左上角和右下角)來(lái)預(yù)測(cè)邊界框。對(duì)於每個(gè)角落來(lái)說(shuō),CornerNet可預(yù)測(cè)熱圖、偏移量和嵌入。 最新的目標(biāo)偵測(cè)的深度架構(gòu) 參數(shù)少一半、速度快3倍+

上圖是基於關(guān)鍵點(diǎn)的目標(biāo)偵測(cè)框架- KP-xNet,它包含4個(gè)步驟。

  • (a-b):使用了xNet的主幹;
  • (c):使用了共享輸出子網(wǎng)絡(luò),而針對(duì)每個(gè)矩陣層,預(yù)測(cè)了左上角和右下角的熱圖和偏移量,並在目標(biāo)層內(nèi)對(duì)它們進(jìn)行中心點(diǎn)預(yù)測(cè);
  • (d):利用中心點(diǎn)預(yù)測(cè)匹配同一層中的角,然後將所有層的輸出與soft非極大值抑制結(jié)合,從而得到最終輸出。

實(shí)驗(yàn)結(jié)果

下表展示了在MS COCO資料集上的結(jié)果:

最新的目標(biāo)偵測(cè)的深度架構(gòu) 參數(shù)少一半、速度快3倍+

研究者也比較了新提出的模型與其他模型在不同的backbones上基於參數(shù)的數(shù)量。在第一張圖中,我們發(fā)現(xiàn)KP-xNet在所有參數(shù)層級(jí)上都優(yōu)於所有其他結(jié)構(gòu)。研究者認(rèn)為這是因?yàn)镵P-xNet使用了一種尺度和縱橫比感知的體系結(jié)構(gòu)。

論文網(wǎng)址:https://arxiv.org/pdf/1908.04646.pdf

#

以上是最新的目標(biāo)偵測(cè)的深度架構(gòu) 參數(shù)少一半、速度快3倍+的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程
1597
29
PHP教程
1488
72
如何在 iPhone 上使用深度效果 [2023] 如何在 iPhone 上使用深度效果 [2023] Sep 07, 2023 pm 11:25 PM

如果有一件事你可以在iPhone上挑出與眾不同,那就是你在處理iPhone的鎖定畫面時(shí)擁有的自訂選項(xiàng)的數(shù)量。在這些選項(xiàng)中,有深度效果功能,它使您的壁紙看起來(lái)像與鎖定螢?zāi)粫r(shí)鐘小部件互動(dòng)。我們將解釋深度效果,何時(shí)何地可以應(yīng)用它,以及如何在iPhone上使用它。 iPhone上的深度效果是什麼?當(dāng)您新增具有不同元素的牆紙時(shí),iPhone會(huì)將其拆分為幾層深度。為此,iOS利用內(nèi)建的神經(jīng)引擎來(lái)檢測(cè)壁紙中的深度訊息,將您想要出現(xiàn)在焦點(diǎn)中的主題與所選背景的其他元素分開。這將產(chǎn)生一種看起來(lái)很酷的效果,其中牆紙中的主

Spring Data JPA 的架構(gòu)和工作原理是什麼? Spring Data JPA 的架構(gòu)和工作原理是什麼? Apr 17, 2024 pm 02:48 PM

SpringDataJPA基於JPA架構(gòu),透過(guò)映射、ORM和事務(wù)管理與資料庫(kù)互動(dòng)。其儲(chǔ)存庫(kù)提供CRUD操作,派生查詢簡(jiǎn)化了資料庫(kù)存取。此外,它使用延遲加載,僅在必要時(shí)檢索數(shù)據(jù),從而提高了效能。

手撕Llama3第1層: 從零開始實(shí)現(xiàn)llama3 手撕Llama3第1層: 從零開始實(shí)現(xiàn)llama3 Jun 01, 2024 pm 05:45 PM

一、Llama3的架構(gòu)在本系列文章中,我們從頭開始實(shí)作llama3。 Llama3的整體架構(gòu):圖片Llama3的模型參數(shù):讓我們來(lái)看看這些參數(shù)在LlaMa3模型中的實(shí)際數(shù)值。圖片[1]上下文視窗(context-window)在實(shí)例化LlaMa類別時(shí),變數(shù)max_seq_len定義了context-window。類別中還有其他參數(shù),但這個(gè)參數(shù)與transformer模型的關(guān)係最為直接。這裡的max_seq_len是8K。圖片[2]字彙量(Vocabulary-size)和注意力層(AttentionL

目標(biāo)偵測(cè)新SOTA:YOLOv9問(wèn)世,新架構(gòu)讓傳統(tǒng)卷積重?zé)ㄉ鷻C(jī) 目標(biāo)偵測(cè)新SOTA:YOLOv9問(wèn)世,新架構(gòu)讓傳統(tǒng)卷積重?zé)ㄉ鷻C(jī) Feb 23, 2024 pm 12:49 PM

在目標(biāo)檢測(cè)領(lǐng)域,YOLOv9在實(shí)現(xiàn)過(guò)程中不斷進(jìn)步,通過(guò)采用新架構(gòu)和方法,有效提高了傳統(tǒng)卷積的參數(shù)利用率,這使得其性能遠(yuǎn)超前代產(chǎn)品。繼2023年1月YOLOv8正式發(fā)布一年多以后,YOLOv9終于來(lái)了!自2015年JosephRedmon和AliFarhadi等人提出了第一代YOLO模型以來(lái),目標(biāo)檢測(cè)領(lǐng)域的研究者們對(duì)其進(jìn)行了多次更新和迭代。YOLO是一種基于圖像全局信息的預(yù)測(cè)系統(tǒng),其模型性能不斷得到增強(qiáng)。通過(guò)不斷改進(jìn)算法和技術(shù),研究人員取得了顯著的成果,使得YOLO在目標(biāo)檢測(cè)任務(wù)中表現(xiàn)出越來(lái)越強(qiáng)大

1.3ms耗時(shí)!清華最新開源行動(dòng)裝置神經(jīng)網(wǎng)路架構(gòu) RepViT 1.3ms耗時(shí)!清華最新開源行動(dòng)裝置神經(jīng)網(wǎng)路架構(gòu) RepViT Mar 11, 2024 pm 12:07 PM

論文地址:https://arxiv.org/abs/2307.09283代碼地址:https://github.com/THU-MIG/RepViTRepViT在移動(dòng)端ViT架構(gòu)中表現(xiàn)出色,展現(xiàn)出顯著的優(yōu)勢(shì)。接下來(lái),我們將探討本研究的貢獻(xiàn)所在。文中提到,輕量級(jí)ViTs通常比輕量級(jí)CNNs在視覺(jué)任務(wù)上表現(xiàn)得更好,這主要?dú)w功于它們的多頭自注意力模塊(MSHA)可以讓模型學(xué)習(xí)全局表示。然而,輕量級(jí)ViTs和輕量級(jí)CNNs之間的架構(gòu)差異尚未得到充分研究。在這項(xiàng)研究中,作者們通過(guò)整合輕量級(jí)ViTs的有效

用於精確目標(biāo)偵測(cè)的多網(wǎng)格冗餘邊界框標(biāo)註 用於精確目標(biāo)偵測(cè)的多網(wǎng)格冗餘邊界框標(biāo)註 Jun 01, 2024 pm 09:46 PM

一、前言目前領(lǐng)先的目標(biāo)偵測(cè)器是基於深度CNN的主幹分類器網(wǎng)路重新調(diào)整用途的兩級(jí)或單級(jí)網(wǎng)路。 YOLOv3就是這樣一種眾所周知的最先進(jìn)的單級(jí)檢測(cè)器,它接收輸入圖像並將其劃分為大小相等的網(wǎng)格矩陣。具有目標(biāo)中心的網(wǎng)格單元負(fù)責(zé)偵測(cè)特定目標(biāo)。今天分享的,就是提出了一種新的數(shù)學(xué)方法,該方法為每個(gè)目標(biāo)分配多個(gè)網(wǎng)格,以實(shí)現(xiàn)精確的tight-fit邊界框預(yù)測(cè)。研究者也提出了一種有效的離線複製貼上資料增強(qiáng)來(lái)進(jìn)行目標(biāo)偵測(cè)。新提出的方法顯著優(yōu)於一些目前最先進(jìn)的目標(biāo)偵測(cè)器,並有望獲得更好的效能。二、背景目標(biāo)偵測(cè)網(wǎng)路旨在使用

AI基礎(chǔ)架構(gòu):IT和資料科學(xué)團(tuán)隊(duì)協(xié)作的重要性 AI基礎(chǔ)架構(gòu):IT和資料科學(xué)團(tuán)隊(duì)協(xié)作的重要性 May 18, 2023 pm 11:08 PM

人工智慧(AI)已經(jīng)改變了許多行業(yè)的遊戲規(guī)則,使企業(yè)能夠提高效率、決策和客戶體驗(yàn)。隨著人工智慧的不斷發(fā)展和變得越來(lái)越複雜,企業(yè)投資於合適的基礎(chǔ)設(shè)施來(lái)支援其開發(fā)和部署至關(guān)重要。這個(gè)基礎(chǔ)設(shè)施的一個(gè)關(guān)鍵方面是IT和數(shù)據(jù)科學(xué)團(tuán)隊(duì)之間的協(xié)作,因?yàn)閮烧咴诖_保人工智慧計(jì)畫的成功方面都發(fā)揮著關(guān)鍵作用。人工智慧的快速發(fā)展導(dǎo)致對(duì)運(yùn)算能力、儲(chǔ)存和網(wǎng)路能力的需求不斷增加。這種需求為傳統(tǒng)IT基礎(chǔ)架構(gòu)帶來(lái)了壓力,而傳統(tǒng)IT基礎(chǔ)架構(gòu)並非設(shè)計(jì)用於處理AI所需的複雜和資源密集型工作負(fù)載。因此,企業(yè)現(xiàn)在正在尋求建構(gòu)能夠支持AI工作負(fù)

多路徑多領(lǐng)域通吃! GoogleAI發(fā)布多領(lǐng)域?qū)W習(xí)通用模型MDL 多路徑多領(lǐng)域通吃! GoogleAI發(fā)布多領(lǐng)域?qū)W習(xí)通用模型MDL May 28, 2023 pm 02:12 PM

面向視覺(jué)任務(wù)(如影像分類)的深度學(xué)習(xí)模型,通常使用單一視覺(jué)域(如自然影像或電腦生成的影像)的資料進(jìn)行端到端的訓(xùn)練。一般情況下,一個(gè)為多個(gè)領(lǐng)域完成視覺(jué)任務(wù)的應(yīng)用程式需要為每個(gè)單獨(dú)的領(lǐng)域建立多個(gè)模型,分別獨(dú)立訓(xùn)練,不同領(lǐng)域之間不共享數(shù)據(jù),在推理時(shí),每個(gè)模型將處理特定領(lǐng)域的輸入資料。即使是面向不同領(lǐng)域,這些模型之間的早期層的有些特徵都是相似的,所以,對(duì)這些模型進(jìn)行聯(lián)合訓(xùn)練的效率更高。這能減少延遲和功耗,降低儲(chǔ)存每個(gè)模型參數(shù)的記憶體成本,這種方法稱為多領(lǐng)域?qū)W習(xí)(MDL)。此外,MDL模型也可以優(yōu)於單

See all articles