亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目錄
Spotlight:理解手機(jī)介面
Spotlight模型
實(shí)驗(yàn)結(jié)果
首頁(yè) 科技週邊 人工智慧 兩位Google華人研究員發(fā)布首個(gè)純視覺「行動(dòng)UI理解」模型,四大任務(wù)刷新SOTA

兩位Google華人研究員發(fā)布首個(gè)純視覺「行動(dòng)UI理解」模型,四大任務(wù)刷新SOTA

Apr 12, 2023 pm 04:40 PM
介面 ui 模型

對(duì)AI來說,「玩手機(jī)」可不是一件易事,光是辨識(shí)各種使用者介面(user interface, UI)就是一大難題:不光要辨識(shí)出各個(gè)元件的類型,還要根據(jù)其所使用的符號(hào)、位置來判斷組件的功能。

兩位Google華人研究員發(fā)布首個(gè)純視覺「行動(dòng)UI理解」模型,四大任務(wù)刷新SOTA

對(duì)行動(dòng)裝置UI的理解,能夠幫助實(shí)現(xiàn)各種人機(jī)互動(dòng)任務(wù),例如UI自動(dòng)化等。

先前的工作對(duì)行動(dòng)UI的建模通常依賴螢?zāi)坏囊晥D層次信息,直接利用了UI的結(jié)構(gòu)數(shù)據(jù),並藉此繞過了從螢?zāi)幌袼亻_始對(duì)組件進(jìn)行識(shí)別的難題。

不過並不是所有的場(chǎng)景下都有可用的視圖層次,這種方法通常會(huì)因?yàn)槲锛枋龅娜笔Щ蚪Y(jié)構(gòu)資訊的錯(cuò)位而輸出錯(cuò)誤結(jié)果,所以儘管使用視圖層次結(jié)構(gòu)可以提升短期效能,但最終可能會(huì)阻礙模型的適用性和泛化性能。

最近Google Research的兩位研究人員提出了一個(gè)可用於行動(dòng)端UI理解的純視覺方法Spotlight,在視覺語(yǔ)言模型的基礎(chǔ)上,只需要將使用者介面的截圖和螢?zāi)簧系囊粋€(gè)感興趣的區(qū)域(focus)作為輸入即可。

兩位Google華人研究員發(fā)布首個(gè)純視覺「行動(dòng)UI理解」模型,四大任務(wù)刷新SOTA

論文連結(jié):https://arxiv.org/pdf/2209.14927.pdf

Spotlight的這種通用架構(gòu)很容易擴(kuò)展,並且能夠執(zhí)行一系列的使用者介面建模任務(wù)。

文中的實(shí)驗(yàn)結(jié)果表明,Spotlight模型在幾個(gè)有代表性的使用者介面任務(wù)上均達(dá)到了sota的效能,成功超越先前使用螢?zāi)唤貓D和視圖層次結(jié)構(gòu)作為輸入的方法。

此外,文中也探索了Spotlight模型的多任務(wù)學(xué)習(xí)和few-shot提示的能力,在多任務(wù)學(xué)習(xí)方向上也展現(xiàn)出了有前景的實(shí)驗(yàn)結(jié)果。

論文作者Yang Li是Google研究中心的高級(jí)研究員,也是華盛頓大學(xué) CSE 的附屬教員,在中國(guó)科學(xué)院獲得電腦科學(xué)博士學(xué)位,並在加州大學(xué)柏克萊分校 EECS 進(jìn)行博士後研究。他領(lǐng)導(dǎo)開發(fā)了下一個(gè) Android 應(yīng)用程式預(yù)測(cè),也是 Android 上在裝置上互動(dòng)機(jī)器學(xué)習(xí)的先驅(qū),也開發(fā)手勢(shì)搜尋等。

兩位Google華人研究員發(fā)布首個(gè)純視覺「行動(dòng)UI理解」模型,四大任務(wù)刷新SOTA

Spotlight:理解手機(jī)介面

#對(duì)使用者介面的運(yùn)算理解是實(shí)現(xiàn)智慧 UI 行為的關(guān)鍵一步。

在此之前,該團(tuán)隊(duì)研究過各種UI 建模任務(wù),包括視窗標(biāo)題(widget)、螢?zāi)徽╯creen summarization)和command grounding,這些任務(wù)解決了不同互動(dòng)場(chǎng)景下的自動(dòng)化和可訪問性問題。

後續(xù)也利用這些功能演示了機(jī)器學(xué)習(xí)如何幫助「使用者體驗(yàn)從業(yè)者」透過診斷可點(diǎn)擊性混淆來提高UI 質(zhì)量,並為改進(jìn)UI 設(shè)計(jì)提供思路,所有這些工作與其他領(lǐng)域的工作共同展現(xiàn)了深度神經(jīng)網(wǎng)路如何潛在地改變終端使用者的體驗(yàn)及互動(dòng)設(shè)計(jì)實(shí)踐。

兩位Google華人研究員發(fā)布首個(gè)純視覺「行動(dòng)UI理解」模型,四大任務(wù)刷新SOTA

雖然在處理「單一UI 任務(wù)」時(shí)取得了一定程度上的成功,但接下來的問題是:是否能夠從「特定UI 辨識(shí)”任務(wù)中提升對(duì)「通用UI」的處理能力。

Spotlight模型也是對(duì)這個(gè)問題的解決方案進(jìn)行的第一次嘗試,研究人員開發(fā)了一個(gè)多任務(wù)模型來同時(shí)處理一系列UI 任務(wù),儘管工作上取得了一些進(jìn)展,但仍存在一些難題。

之前的UI 模型嚴(yán)重依賴UI 視圖層次結(jié)構(gòu),也就是行動(dòng)端UI 螢?zāi)坏慕Y(jié)構(gòu)或元數(shù)據(jù),例如網(wǎng)頁(yè)的文件物件模型(Document Object Model),模型直接取得螢?zāi)簧蟄I 物件的詳細(xì)信息,包括類型、文字內(nèi)容和位置等。

這種元資料使得先前的模型相對(duì)於純視覺的模型來說更有優(yōu)勢(shì),但視圖層次結(jié)構(gòu)資料的可訪問性是一大難題,物件描述缺失或結(jié)構(gòu)資訊對(duì)齊不當(dāng)?shù)葐栴}經(jīng)常發(fā)生。

因此,儘管使用視圖層次結(jié)構(gòu)可以獲得短期收益,但它最終可能會(huì)阻礙模型的效能和適用性。此外,先前的模型必須處理跨資料集和跨 UI 任務(wù)的異質(zhì)訊息,往往會(huì)導(dǎo)致更複雜的模型體系結(jié)構(gòu),最終難以跨任務(wù)擴(kuò)展或泛化。

Spotlight模型

純視覺的Spotlight方法旨在完全從原始像素實(shí)現(xiàn)通用的使用者介面理解能力。

研究人員引入了一個(gè)統(tǒng)一的方法來表示不同的UI 任務(wù),其中的資訊可以通用地表示為兩種核心模式:視覺和語(yǔ)言,其中視覺模式捕獲用戶從UI 螢?zāi)簧峡吹降膬?nèi)容,語(yǔ)言模式可以是自然語(yǔ)言或任何與任務(wù)相關(guān)的token序列。

Spotlight 模型輸入為三元組:螢?zāi)豢煺?、螢?zāi)簧细信d趣的區(qū)域和任務(wù)的文字描述;輸出是關(guān)於感興趣區(qū)域的文字描述或回應(yīng)。

模型的這種簡(jiǎn)單的輸入和輸出表示更加通用,可以適用於各種 UI 任務(wù),並且可擴(kuò)展到多種模型架構(gòu)上。

兩位Google華人研究員發(fā)布首個(gè)純視覺「行動(dòng)UI理解」模型,四大任務(wù)刷新SOTA

在模型設(shè)計(jì)上能夠進(jìn)行一系列的學(xué)習(xí)策略和設(shè)置,從特定任務(wù)的微調(diào),到多任務(wù)學(xué)習(xí)和few-shot學(xué)習(xí)。

Spotlight 模型能夠利用了現(xiàn)有的架構(gòu)建構(gòu)模組,例如ViT 和T5,這些模組在高資源的通用視覺語(yǔ)言領(lǐng)域中進(jìn)行了預(yù)訓(xùn)練,可以直接在這些通用領(lǐng)域模型之上進(jìn)行模型構(gòu)建。

因?yàn)閁I 任務(wù)通常與螢?zāi)簧系奶囟ㄎ锛騾^(qū)域有關(guān),模型需要能夠聚焦於物件或感興趣的區(qū)域,研究人員將焦點(diǎn)區(qū)域擷取器(Focus Region Extractor)引入視覺語(yǔ)言模型中,使模型能夠根據(jù)螢?zāi)簧舷挛木劢轨对搮^(qū)域。

研究人員還設(shè)計(jì)了一個(gè)區(qū)域總結(jié)器(Region Summarizer),透過使用區(qū)域邊界框生成的注意力query來獲得基於 ViT 編碼的螢?zāi)粎^(qū)域的潛在表徵。

具體來說,就是每個(gè)座標(biāo)(標(biāo)量值,包括左,上,右或底部)的邊界框,在螢?zāi)唤貓D中表示為黃色框。

先透過一個(gè)多層感知機(jī)(MLP)將輸入轉(zhuǎn)換為作為一個(gè)稠密向量的集合,然後回饋給Transformer模型,根據(jù)座標(biāo)類型取得嵌入向量(coordinate-type embedding),對(duì)稠密向量及其對(duì)應(yīng)的座標(biāo)類型嵌入進(jìn)行顏色編碼,以顯示它們與每個(gè)座標(biāo)值之間的關(guān)係。

兩位Google華人研究員發(fā)布首個(gè)純視覺「行動(dòng)UI理解」模型,四大任務(wù)刷新SOTA

然後座標(biāo)查詢(Coordinate queries)透過「交叉注意力」參與ViT 輸出的螢?zāi)痪幋a,最終Transformer的注意力輸出被用作T5下游解碼的區(qū)域表示。

實(shí)驗(yàn)結(jié)果

研究人員使用兩個(gè)沒有無標(biāo)籤的(unlabeled)資料集對(duì)Spotlight模型進(jìn)行預(yù)訓(xùn)練,分別是基於C4語(yǔ)料庫(kù)的內(nèi)部資料集和一個(gè)內(nèi)部移動(dòng)資料集,總共包含250萬(wàn)個(gè)行動(dòng)UI 螢?zāi)缓?000萬(wàn)個(gè)網(wǎng)頁(yè)。

接著分別針對(duì)四個(gè)下游任務(wù),標(biāo)題、摘要、grouding和可點(diǎn)擊性,對(duì)預(yù)訓(xùn)練後的模型進(jìn)行微調(diào)。

對(duì)於視窗標(biāo)題(widget captioning)和螢?zāi)徽蝿?wù),使用CIDEr指標(biāo)來衡量模型文字描述與評(píng)分者創(chuàng)建的一組參考的相似程度;對(duì)於command grounding任務(wù),準(zhǔn)確率指標(biāo)為模型響應(yīng)用戶指令成功定位目標(biāo)物件的百分比;對(duì)於可點(diǎn)擊性預(yù)測(cè),使用F1分?jǐn)?shù)來衡量模型區(qū)分可點(diǎn)擊物件和不可點(diǎn)擊物件的能力。

實(shí)驗(yàn)中,將Spotlight 與幾個(gè)基準(zhǔn)模型進(jìn)行了比較:WidgetCaption 使用視圖層次結(jié)構(gòu)和每個(gè)UI 物件的圖像為物件產(chǎn)生文字描述;Screen2Words 使用視圖層次結(jié)構(gòu)和螢?zāi)唤貓D以及輔助功能(例如,應(yīng)用程式描述)來為螢?zāi)划a(chǎn)生摘要;VUT 結(jié)合了螢?zāi)唤貓D和視圖層次結(jié)構(gòu)來執(zhí)行多個(gè)任務(wù);原始的Tappability 模型利用來自視圖層次結(jié)構(gòu)的物件元資料和螢?zāi)豢煺諄眍A(yù)測(cè)物件的Tappability.

#Spotlight 在四個(gè)UI 建模任務(wù)中大大超越了先前的sota模型。

兩位Google華人研究員發(fā)布首個(gè)純視覺「行動(dòng)UI理解」模型,四大任務(wù)刷新SOTA

在一個(gè)更有難度的任務(wù)設(shè)定中,要求模型同時(shí)學(xué)習(xí)多個(gè)任務(wù),因?yàn)槎嗳蝿?wù)模型可以大幅減少模型的能源消耗(model footprint),結(jié)果表明,Spotlight模型的性能仍然具有競(jìng)爭(zhēng)力。

兩位Google華人研究員發(fā)布首個(gè)純視覺「行動(dòng)UI理解」模型,四大任務(wù)刷新SOTA

為了理解區(qū)域總結(jié)器(Region Summarizer)如何使Spotlight 能夠聚焦於螢?zāi)簧系哪繕?biāo)區(qū)域和相關(guān)區(qū)域,研究人員分析了窗口標(biāo)題和螢?zāi)豢偨Y(jié)任務(wù)的注意力權(quán)重,能夠指示出模型注意力在螢?zāi)唤貓D上的位置。

兩位Google華人研究員發(fā)布首個(gè)純視覺「行動(dòng)UI理解」模型,四大任務(wù)刷新SOTA

在下圖中,對(duì)於視窗標(biāo)題任務(wù),模型在預(yù)測(cè)「選擇切爾西隊(duì)」(select Chelsea team)時(shí),左側(cè)的複選框以紅色邊框突出顯示,可以從右邊的注意力熱力圖中看到,模型不僅學(xué)會(huì)了注意複選框的目標(biāo)區(qū)域,還學(xué)會(huì)了關(guān)注最左邊的文本“Chelsea”來生成標(biāo)題。

兩位Google華人研究員發(fā)布首個(gè)純視覺「行動(dòng)UI理解」模型,四大任務(wù)刷新SOTA

對(duì)於螢?zāi)徽蝿?wù),模型預(yù)測(cè)「頁(yè)面顯示一個(gè)學(xué)習(xí)應(yīng)用程式的教學(xué)」(page displaying the tutorial of a learning app),並給出左側(cè)的截圖,在範(fàn)例中,目標(biāo)區(qū)域是整個(gè)螢?zāi)?,模型可以學(xué)習(xí)處理螢?zāi)簧系闹匾糠忠赃M(jìn)行摘要。

參考資料:

http://ipnx.cn/link/64517d8435994992e682b3e4aa0a0661

##

以上是兩位Google華人研究員發(fā)布首個(gè)純視覺「行動(dòng)UI理解」模型,四大任務(wù)刷新SOTA的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁(yè)開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程
1597
29
PHP教程
1488
72
AI顛覆數(shù)學(xué)研究!菲爾茲獎(jiǎng)得主、華裔數(shù)學(xué)家領(lǐng)銜11篇頂刊論文|陶哲軒轉(zhuǎn)贊 AI顛覆數(shù)學(xué)研究!菲爾茲獎(jiǎng)得主、華裔數(shù)學(xué)家領(lǐng)銜11篇頂刊論文|陶哲軒轉(zhuǎn)贊 Apr 09, 2024 am 11:52 AM

AI,的確正在改變數(shù)學(xué)。最近,一直十分關(guān)注這個(gè)議題的陶哲軒,轉(zhuǎn)發(fā)了最近一期的《美國(guó)數(shù)學(xué)學(xué)會(huì)通報(bào)》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機(jī)器會(huì)改變數(shù)學(xué)嗎?」這個(gè)話題,許多數(shù)學(xué)家發(fā)表了自己的觀點(diǎn),全程火花四射,內(nèi)容硬核,精彩紛呈。作者陣容強(qiáng)大,包括菲爾茲獎(jiǎng)得主AkshayVenkatesh、華裔數(shù)學(xué)家鄭樂雋、紐大電腦科學(xué)家ErnestDavis等多位業(yè)界知名學(xué)者。 AI的世界已經(jīng)發(fā)生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

你好,電動(dòng)Atlas!波士頓動(dòng)力機(jī)器人復(fù)活,180度詭異動(dòng)作嚇到馬斯克 你好,電動(dòng)Atlas!波士頓動(dòng)力機(jī)器人復(fù)活,180度詭異動(dòng)作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動(dòng)力Atlas,正式進(jìn)入電動(dòng)機(jī)器人時(shí)代!昨天,液壓Atlas剛「含淚」退出歷史舞臺(tái),今天波士頓動(dòng)力就宣布:電動(dòng)Atlas上崗??磥?,在商用人形機(jī)器人領(lǐng)域,波士頓動(dòng)力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時(shí)內(nèi),就已經(jīng)有一百多萬(wàn)觀看。舊人離去,新角色登場(chǎng),這是歷史的必然。毫無疑問,今年是人形機(jī)器人的爆發(fā)年。網(wǎng)友銳評(píng):機(jī)器人的進(jìn)步,讓今年看起來像人類的開幕式動(dòng)作、自由度遠(yuǎn)超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應(yīng)該是仰面朝天。接下來,讓人驚掉下巴

全球最強(qiáng)開源 MoE 模型來了,中文能力比肩 GPT-4,價(jià)格僅 GPT-4-Turbo 的近百分之一 全球最強(qiáng)開源 MoE 模型來了,中文能力比肩 GPT-4,價(jià)格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下,一個(gè)人工智慧模型,不僅擁有超越傳統(tǒng)運(yùn)算的能力,還能以更低的成本實(shí)現(xiàn)更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強(qiáng)開源MoE模型來了。 DeepSeek-V2是一個(gè)強(qiáng)大的專家混合(MoE)語(yǔ)言模型,具有訓(xùn)練經(jīng)濟(jì)、推理高效的特點(diǎn)。它由236B個(gè)參數(shù)組成,其中21B個(gè)參數(shù)用於啟動(dòng)每個(gè)標(biāo)記。與DeepSeek67B相比,DeepSeek-V2效能更強(qiáng),同時(shí)節(jié)省了42.5%的訓(xùn)練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓(xùn)練最快選擇 Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓(xùn)練最快選擇 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基準(zhǔn)測(cè)試中表現(xiàn)已經(jīng)超過Pytorch和TensorFlow,7項(xiàng)指標(biāo)排名第一。而且測(cè)試並不是JAX性能表現(xiàn)最好的TPU上完成的。雖然現(xiàn)在在開發(fā)者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會(huì)基於JAX平臺(tái)進(jìn)行訓(xùn)練和運(yùn)行。模型最近,Keras團(tuán)隊(duì)為三個(gè)後端(TensorFlow、JAX、PyTorch)與原生PyTorch實(shí)作以及搭配TensorFlow的Keras2進(jìn)行了基準(zhǔn)測(cè)試。首先,他們?yōu)樯墒胶头巧墒饺斯ぶ腔廴蝿?wù)選擇了一組主流

特斯拉機(jī)器人進(jìn)廠打工,馬斯克:手的自由度今年將達(dá)到22個(gè)! 特斯拉機(jī)器人進(jìn)廠打工,馬斯克:手的自由度今年將達(dá)到22個(gè)! May 06, 2024 pm 04:13 PM

特斯拉機(jī)器人Optimus最新影片出爐,已經(jīng)可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點(diǎn)之一在於Optimus在廠子裡完成這項(xiàng)工作,是完全自主的,全程沒有人為的干預(yù)。而且在Optimus的視角之下,它還可以把放歪了的電池重新?lián)炱饋矸胖?,主打一個(gè)自動(dòng)糾錯(cuò):對(duì)於Optimus的手,英偉達(dá)科學(xué)家JimFan給出了高度的評(píng)價(jià):Optimus的手是全球五指機(jī)器人裡最靈巧的之一。它的手不僅有觸覺

替代MLP的KAN,被開源專案擴(kuò)展到卷積了 替代MLP的KAN,被開源專案擴(kuò)展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初,來自MIT等機(jī)構(gòu)的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準(zhǔn)確性和可解釋性方面表現(xiàn)優(yōu)於MLP。而且它能以非常少的參數(shù)量勝過以更大參數(shù)量運(yùn)行的MLP。例如,作者表示,他們用KAN以更小的網(wǎng)路和更高的自動(dòng)化程度重現(xiàn)了DeepMind的結(jié)果。具體來說,DeepMind的MLP有大約300,000個(gè)參數(shù),而KAN只有約200個(gè)參數(shù)。 KAN與MLP一樣具有強(qiáng)大的數(shù)學(xué)基礎(chǔ),MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

本地運(yùn)作效能超越 OpenAI Text-Embedding-Ada-002 的 Embedding 服務(wù),太方便了! 本地運(yùn)作效能超越 OpenAI Text-Embedding-Ada-002 的 Embedding 服務(wù),太方便了! Apr 15, 2024 am 09:01 AM

Ollama是一款超實(shí)用的工具,讓你能夠在本地輕鬆運(yùn)行Llama2、Mistral、Gemma等開源模型。本文我將介紹如何使用Ollama實(shí)現(xiàn)對(duì)文本的向量化處理。如果你本地還沒有安裝Ollama,可以閱讀這篇文章。本文我們將使用nomic-embed-text[2]模型。它是一種文字編碼器,在短的上下文和長(zhǎng)的上下文任務(wù)上,效能超越了OpenAItext-embedding-ada-002和text-embedding-3-small。啟動(dòng)nomic-embed-text服務(wù)當(dāng)你已經(jīng)成功安裝好o

FisheyeDetNet:首個(gè)以魚眼相機(jī)為基礎(chǔ)的目標(biāo)偵測(cè)演算法 FisheyeDetNet:首個(gè)以魚眼相機(jī)為基礎(chǔ)的目標(biāo)偵測(cè)演算法 Apr 26, 2024 am 11:37 AM

目標(biāo)偵測(cè)在自動(dòng)駕駛系統(tǒng)當(dāng)中是一個(gè)比較成熟的問題,其中行人偵測(cè)是最早得以部署演算法之一。在多數(shù)論文當(dāng)中已經(jīng)進(jìn)行了非常全面的研究。然而,利用魚眼相機(jī)進(jìn)行環(huán)視的距離感知相對(duì)來說研究較少。由於徑向畸變大,標(biāo)準(zhǔn)的邊界框表示在魚眼相機(jī)當(dāng)中很難實(shí)施。為了緩解上述描述,我們探索了擴(kuò)展邊界框、橢圓、通用多邊形設(shè)計(jì)為極座標(biāo)/角度表示,並定義一個(gè)實(shí)例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優(yōu)於其他模型,並同時(shí)在用於自動(dòng)駕駛的Valeo魚眼相機(jī)資料集上實(shí)現(xiàn)了49.5%的mAP

See all articles