亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

首頁(yè) 硬件教程 硬件測(cè)評(píng) 4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

Aug 20, 2024 am 10:32 AM
阿里 模型 電影 模態(tài) 看完 abs

4 秒看完 2 小時(shí)電影,阿里團(tuán)隊(duì)新成果正式亮相——

推出通用多模態(tài)大模型 mPLUG-Owl3,專(zhuān)門(mén)用來(lái)理解多圖、長(zhǎng)視頻。

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

具體來(lái)說(shuō),以 LLaVA-Next-Interleave 為基準(zhǔn),mPLUG-Owl3 將模型的First Token Latency 縮小了 6 倍,且單張 A100 能建模的圖像數(shù)目提升了 8 倍,達(dá)到了400 張圖片,實(shí)測(cè) 4 秒就能看完一部 2 小時(shí)的電影。

換句話說(shuō),模型的推理效率有了極大提升。

而且不犧牲模型的準(zhǔn)確性。

mPLUG-Owl3 還在多模態(tài)大模型所涉及的各種場(chǎng)景,包括單圖、多圖、視頻領(lǐng)域的諸多 Benchmarks 上達(dá)到了SOTA。

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

論文作者來(lái)自阿里 mPLUG 團(tuán)隊(duì),他們一直深耕多模態(tài)大模型底座,在此之前還提出了:

高效多模態(tài)底座 mPLUG 系列

模塊化多模態(tài)大語(yǔ)言模型底座 mPLUG-Owl 系列

文檔理解底座 mPLUG-DocOwl 系列

下面就讓我們來(lái)了解一下本次發(fā)布的 mPLUG-Owl3 究竟帶來(lái)了什么黑科技吧。

玩法解鎖

團(tuán)隊(duì)展示了 mPLUG-Owl3 的幾種常見(jiàn)用法。

多模態(tài)檢索增強(qiáng)

一般來(lái)說(shuō),對(duì)于模型沒(méi)有學(xué)過(guò)的知識(shí),通過(guò)檢索系統(tǒng)進(jìn)行補(bǔ)充是常見(jiàn)的做法。這需要模型能準(zhǔn)確理解傳入的多模態(tài)知識(shí),并用于解答問(wèn)題。

在下面這個(gè)例子中,mPLUG-Owl3 不僅能基于檢索知識(shí)正確回復(fù),還能給出它基于哪一條知識(shí)做出的判斷,并且給出詳細(xì)的判斷依據(jù)。這對(duì)于下游研發(fā)人員開(kāi)發(fā)和調(diào)試都是非常友好的。

檢索部分:以下是為你檢索到的幾個(gè)多模態(tài)知識(shí),供你做出決定。

提問(wèn):根據(jù)你對(duì)上面四張狗的照片的觀察,你能對(duì)圖片 5 中的狗進(jìn)行分類(lèi)嗎?給出理由。

回答:根據(jù)對(duì)四張狗的照片的觀察,圖片 5 中的狗可以被歸類(lèi)為愛(ài)爾蘭梗犬。圖片 1 中的狗被描述為愛(ài)爾蘭梗犬,圖片 5 中的狗與圖片 1 中的狗在身體特征上有相似之處……

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

多圖推理

生活中經(jīng)常會(huì)出現(xiàn)這樣的情況——

很多用戶并非只圍繞一張圖片進(jìn)行對(duì)話,而是用戶可能有幾份材料,需要模型能正確理解不同材料中的內(nèi)容的關(guān)系。

在下面這個(gè)例子中,mPLUG-Owl3 能通過(guò)兩張圖像所見(jiàn),激活語(yǔ)言模型的常識(shí)知識(shí),并圍繞兩張圖片進(jìn)行推理。

提問(wèn):左邊的動(dòng)物能在右邊的環(huán)境中存活嗎?需要回答并給出解釋。

回答(正確答案標(biāo)綠):大意是,不能存活,因?yàn)榄h(huán)境太冷了。

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

在另一個(gè)例子中,mPLUG-Owl3 不僅能察覺(jué)兩張圖片風(fēng)格上的差異性,并且也能意識(shí)到兩張圖中的人物雖然風(fēng)格不同,但其實(shí)是同一個(gè)角色。

第一次提問(wèn):圖片中描繪了哪些藝術(shù)風(fēng)格,它們有何不同?

回答:第一張是像素風(fēng),第二張是卡通風(fēng)格……(給出理由)

第二次提問(wèn):在兩幅畫(huà)中都出現(xiàn)了誰(shuí)?他們的特征是什么?

回答:在兩幅畫(huà)中,都出現(xiàn)了一個(gè)戴著牛仔帽的男人,他被兩種不同的風(fēng)格描繪。

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

長(zhǎng)視頻理解

觀看超長(zhǎng)視頻是現(xiàn)在大部分模型都無(wú)法端到端完成的任務(wù),若是基于 Agent 框架,則又難以保證響應(yīng)速度。

mPLUG-Owl3 能夠看一部 2 小時(shí)電影,并且4 秒就能開(kāi)始回答用戶的問(wèn)題。

不管用戶是對(duì)電影的開(kāi)頭、中間和結(jié)尾的非常細(xì)致的片段進(jìn)行提問(wèn),mPLUG-Owl3 都能對(duì)答如流。

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

咋做到的?

與傳統(tǒng)模型不同,mPLUG-Owl3不需要提前將視覺(jué)序列拼接到語(yǔ)言模型的文本序列中。

換句話說(shuō),不管輸入了啥(幾十張圖或幾小時(shí)視頻),都不占用語(yǔ)言模型序列容量,這就規(guī)避了長(zhǎng)視覺(jué)序列帶來(lái)的巨額計(jì)算開(kāi)銷(xiāo)和顯存占用。

有人可能會(huì)問(wèn)了,那視覺(jué)信息如何融入到語(yǔ)言模型中呢?

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

為實(shí)現(xiàn)這一點(diǎn),該團(tuán)隊(duì)提出了一種輕量化的 Hyper Attention 模塊,它可以將一個(gè)已有的只能建模文本的 Transformer Block 擴(kuò)展成一個(gè)能夠同時(shí)做圖文特征交互和文本建模的新模塊。

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

通過(guò)在整個(gè)語(yǔ)言模型中稀疏地?cái)U(kuò)展4 個(gè)Transformer Block,mPLUG-Owl3 就能用非常小的代價(jià)將 LLM 升級(jí)成多模態(tài) LLM。

視覺(jué)特征在從視覺(jué)編碼器抽取出來(lái)后,會(huì)通過(guò)一個(gè)簡(jiǎn)單的線性映射把維度對(duì)齊到語(yǔ)言模型的維度。

隨后,視覺(jué)特征只會(huì)在這 4 層 Transformer Block 與文本交互,由于視覺(jué) Token 沒(méi)有經(jīng)過(guò)任何壓縮,所以細(xì)粒度的信息都能得到保留。

下面來(lái)看一下Hyper Attention 內(nèi)又是如何設(shè)計(jì)的。

Hyper Attention 為了讓語(yǔ)言模型能感知到視覺(jué)特征,引入了一個(gè)Cross-Attention操作,將視覺(jué)特征作為 Key 和 Value,將語(yǔ)言模型的 hidden state 作為 Query 去析取視覺(jué)特征。

近年也有其他研究考慮將 Cross-Attention 用于多模態(tài)融合,比如 Flamingo 和 IDEFICS,但這些工作都沒(méi)能取得較好的性能表現(xiàn)。

在 mPLUG-Owl3 的技術(shù)報(bào)告中,團(tuán)隊(duì)對(duì)比了 Flamingo 的設(shè)計(jì),來(lái)進(jìn)一步說(shuō)明 Hyper Attention 的關(guān)鍵技術(shù)點(diǎn):

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

首先,Hyper Attention 沒(méi)有采用 Cross-Attention 和 Self-Attention 級(jí)聯(lián)的設(shè)計(jì),而是嵌入在 Self-Attention 區(qū)塊內(nèi)。

它的好處是大幅度降低了額外引入的新參數(shù),使得模型更容易訓(xùn)練,并且訓(xùn)練和推理效率也能進(jìn)一步提升。

其次,Hyper Attention 選擇共享語(yǔ)言模型的 LayerNorm,因?yàn)?LayerNorm 所輸出的分布正是 Attention 層已經(jīng)訓(xùn)練穩(wěn)定的分布,共享這一層對(duì)于穩(wěn)定學(xué)習(xí)新引入的 Cross-Attention 至關(guān)重要。

事實(shí)上,Hyper Attention 采取了一種并行 Cross-Attention 和 Self-Attention 的策略,使用共享的 Query 去與視覺(jué)特征交互,通過(guò)一個(gè) Adaptive Gate 融合兩者的特征。

這使得 Query 可以根據(jù)自身語(yǔ)義針對(duì)性地選擇與之相關(guān)的視覺(jué)特征。

團(tuán)隊(duì)發(fā)現(xiàn),圖像在原始上下文中與文本的相對(duì)位置關(guān)系對(duì)于模型更好的理解多模態(tài)輸入非常重要。

為了建模這一性質(zhì),他們引入了一種多模態(tài)交錯(cuò)的旋轉(zhuǎn)位置編碼 MI-Rope 來(lái)給視覺(jué)的 Key 建模位置信息。

具體來(lái)說(shuō),他們預(yù)先記錄了每張圖片在原文中的位置信息,會(huì)取這一位置來(lái)計(jì)算對(duì)應(yīng)的 Rope embedding,而同一張圖的各個(gè) patch 會(huì)共享這個(gè) embedding。

此外,他們也在 Cross-Attention引入了 Attention mask,讓原始上下文中在圖片之前的文本不能看到后面的圖片對(duì)應(yīng)的特征。

概括而言,Hyper Attention 的這些設(shè)計(jì)點(diǎn),為 mPLUG-Owl3 帶來(lái)了進(jìn)一步的效率提升,并且保障了它仍然能具備一流的多模態(tài)能力。

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

實(shí)驗(yàn)結(jié)果

通過(guò)在廣泛的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),mPLUG-Owl3 在大多數(shù)單圖多模態(tài) Benchmarks都能取得 SOTA 的效果,甚至不少測(cè)評(píng)還能超過(guò)模型尺寸更大的模型。

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

同時(shí),在多圖測(cè)評(píng)中,mPLUG-Owl3 同樣超越了專(zhuān)門(mén)針對(duì)多圖場(chǎng)景優(yōu)化的 LLAVA-Next-Interleave 和 Mantis。

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

另外,在 LongVideoBench(52.1 分)這一專(zhuān)門(mén)評(píng)估模型對(duì)長(zhǎng)視頻理解的榜單上更是超越現(xiàn)有模型。

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

研發(fā)團(tuán)隊(duì)還提出了一個(gè)有趣的長(zhǎng)視覺(jué)序列測(cè)評(píng)方法。

眾所周知,真實(shí)的人機(jī)交互場(chǎng)景,并非所有圖片都是為了用戶問(wèn)題服務(wù)的,歷史上下文中會(huì)充斥著與問(wèn)題無(wú)關(guān)的多模態(tài)內(nèi)容,序列越長(zhǎng),這一現(xiàn)象越嚴(yán)重。

為了評(píng)估模型在長(zhǎng)視覺(jué)序列輸入中的抗干擾能力,他們基于 MMBench-dev 構(gòu)建了一個(gè)新的測(cè)評(píng)數(shù)據(jù)集。

通過(guò)為每一個(gè) MMBench 循環(huán)評(píng)估樣本引入無(wú)關(guān)的圖片并打亂圖片順序,再針對(duì)原本的圖片進(jìn)行提問(wèn),看模型是否能穩(wěn)定地正確回復(fù)。(對(duì)于同一個(gè)問(wèn)題,會(huì)構(gòu)造 4 個(gè)選項(xiàng)順序和干擾圖片均不同的樣本,全都答對(duì)才記一次正確回答。)

實(shí)驗(yàn)中根據(jù)輸入圖片數(shù)目分為了多個(gè)層級(jí)。

可以看出,沒(méi)有經(jīng)過(guò)多圖訓(xùn)練的模型例如 Qwen-VL 和 mPLUG-Owl2 很快就敗下陣來(lái)。

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

而經(jīng)過(guò)多圖訓(xùn)練的 LLAVA-Next-Interleave 和 Mantis 在最開(kāi)始能和 mPLUG-Owl3 保持近似的衰減曲線,但隨著圖片數(shù)目達(dá)到了50這個(gè)量級(jí),這些模型也不再能正確回答了。

而 mPLUG-Owl3 堅(jiān)持到了400 張圖片還能保持40% 的準(zhǔn)確率。

不過(guò)有一說(shuō)一,盡管 mPLUG-Owl3 超越了現(xiàn)有模型,但其準(zhǔn)確率遠(yuǎn)未達(dá)到優(yōu)秀水平,只能說(shuō)這一測(cè)評(píng)方法揭示了所有模型未來(lái)需要進(jìn)一步提升的長(zhǎng)序列下的抗干擾能力。

更多詳情歡迎查閱論文及代碼。

論文:https://arxiv.org/abs/2408.04840

代碼:https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl3

demo(抱抱臉):https://huggingface.co/spaces/mPLUG/mPLUG-Owl3

demo(魔搭社區(qū)):https://modelscope.cn/studios/iic/mPLUG-Owl3

7B 模型(抱抱臉):https://huggingface.co/mPLUG/mPLUG-Owl3-7B-240728

7B 模型(魔搭社區(qū))https://modelscope.cn/models/iic/mPLUG-Owl3-7B-240728

— 完 —

投稿請(qǐng)發(fā)郵件到:

ai@qbitai.com

標(biāo)題注明,告訴我們:

你是誰(shuí),從哪來(lái),投稿內(nèi)容

附上論文 / 項(xiàng)目主頁(yè)鏈接,以及聯(lián)系方式哦

我們會(huì)(盡量)及時(shí)回復(fù)你

點(diǎn)這里關(guān)注我,記得標(biāo)星哦~

一鍵三連「分享」、「點(diǎn)贊」和「在看」

科技前沿進(jìn)展日日相見(jiàn) ~

以上是4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請(qǐng)聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)代碼編輯軟件(SublimeText3)

熱門(mén)話題

Laravel 教程
1597
29
PHP教程
1488
72
你好,電動(dòng)Atlas!波士頓動(dòng)力機(jī)器人復(fù)活,180度詭異動(dòng)作嚇壞馬斯克 你好,電動(dòng)Atlas!波士頓動(dòng)力機(jī)器人復(fù)活,180度詭異動(dòng)作嚇壞馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動(dòng)力Atlas,正式進(jìn)入電動(dòng)機(jī)器人時(shí)代!昨天,液壓Atlas剛剛「含淚」退出歷史舞臺(tái),今天波士頓動(dòng)力就宣布:電動(dòng)Atlas上崗??磥?lái),在商用人形機(jī)器人領(lǐng)域,波士頓動(dòng)力是下定決心要和特斯拉硬剛一把了。新視頻放出后,短短十幾小時(shí)內(nèi),就已經(jīng)有一百多萬(wàn)觀看。舊人離去,新角色登場(chǎng),這是歷史的必然。毫無(wú)疑問(wèn),今年是人形機(jī)器人的爆發(fā)年。網(wǎng)友銳評(píng):機(jī)器人的進(jìn)步,讓今年看起來(lái)像人類(lèi)的開(kāi)幕式動(dòng)作、自由度遠(yuǎn)超人類(lèi),但這真不是恐怖片?視頻一開(kāi)始,Atlas平靜地躺在地上,看起來(lái)應(yīng)該是仰面朝天。接下來(lái),讓人驚掉下巴

全球最強(qiáng)開(kāi)源 MoE 模型來(lái)了,中文能力比肩 GPT-4,價(jià)格僅為 GPT-4-Turbo 的近百分之一 全球最強(qiáng)開(kāi)源 MoE 模型來(lái)了,中文能力比肩 GPT-4,價(jià)格僅為 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想象一下,一個(gè)人工智能模型,不僅擁有超越傳統(tǒng)計(jì)算的能力,還能以更低的成本實(shí)現(xiàn)更高效的性能。這不是科幻,DeepSeek-V2[1],全球最強(qiáng)開(kāi)源MoE模型來(lái)了。DeepSeek-V2是一個(gè)強(qiáng)大的專(zhuān)家混合(MoE)語(yǔ)言模型,具有訓(xùn)練經(jīng)濟(jì)、推理高效的特點(diǎn)。它由236B個(gè)參數(shù)組成,其中21B個(gè)參數(shù)用于激活每個(gè)標(biāo)記。與DeepSeek67B相比,DeepSeek-V2性能更強(qiáng),同時(shí)節(jié)省了42.5%的訓(xùn)練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

特斯拉機(jī)器人進(jìn)廠打工,馬斯克:手的自由度今年將達(dá)到22個(gè)! 特斯拉機(jī)器人進(jìn)廠打工,馬斯克:手的自由度今年將達(dá)到22個(gè)! May 06, 2024 pm 04:13 PM

特斯拉機(jī)器人Optimus最新視頻出爐,已經(jīng)可以在廠子里打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的“工位”上,揀啊揀啊揀:這次放出的視頻亮點(diǎn)之一在于Optimus在廠子里完成這項(xiàng)工作,是完全自主的,全程沒(méi)有人為的干預(yù)。并且在Optimus的視角之下,它還可以把放歪了的電池重新?lián)炱饋?lái)放置,主打一個(gè)自動(dòng)糾錯(cuò):對(duì)于Optimus的手,英偉達(dá)科學(xué)家JimFan給出了高度的評(píng)價(jià):Optimus的手是全球五指機(jī)器人里最靈巧的之一。它的手不僅有觸覺(jué)

替代MLP的KAN,被開(kāi)源項(xiàng)目擴(kuò)展到卷積了 替代MLP的KAN,被開(kāi)源項(xiàng)目擴(kuò)展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初,來(lái)自MIT等機(jī)構(gòu)的研究者提出了一種非常有潛力的MLP替代方法——KAN。KAN在準(zhǔn)確性和可解釋性方面表現(xiàn)優(yōu)于MLP。而且它能以非常少的參數(shù)量勝過(guò)以更大參數(shù)量運(yùn)行的MLP。比如,作者表示,他們用KAN以更小的網(wǎng)絡(luò)和更高的自動(dòng)化程度重現(xiàn)了DeepMind的結(jié)果。具體來(lái)說(shuō),DeepMind的MLP有大約300,000個(gè)參數(shù),而KAN只有約200個(gè)參數(shù)。KAN與MLP一樣具有強(qiáng)大的數(shù)學(xué)基礎(chǔ),MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

本地運(yùn)行性能超越 OpenAI Text-Embedding-Ada-002 的 Embedding 服務(wù),太方便了! 本地運(yùn)行性能超越 OpenAI Text-Embedding-Ada-002 的 Embedding 服務(wù),太方便了! Apr 15, 2024 am 09:01 AM

Ollama是一款超級(jí)實(shí)用的工具,讓你能夠在本地輕松運(yùn)行Llama2、Mistral、Gemma等開(kāi)源模型。本文我將介紹如何使用Ollama實(shí)現(xiàn)對(duì)文本的向量化處理。如果你本地還沒(méi)有安裝Ollama,可以閱讀這篇文章。本文我們將使用nomic-embed-text[2]模型。它是一種文本編碼器,在短的上下文和長(zhǎng)的上下文任務(wù)上,性能超越了OpenAItext-embedding-ada-002和text-embedding-3-small。啟動(dòng)nomic-embed-text服務(wù)當(dāng)你已經(jīng)成功安裝好o

阿里云宣布 2024 云棲大會(huì)于 9 月 19 日至 21 日在杭州舉辦,暢享票免費(fèi)申請(qǐng) 阿里云宣布 2024 云棲大會(huì)于 9 月 19 日至 21 日在杭州舉辦,暢享票免費(fèi)申請(qǐng) Aug 07, 2024 pm 07:12 PM

本站8月5日消息,阿里云宣布,2024云棲大會(huì)將于9月19日~21日在杭州云棲小鎮(zhèn)舉辦,將設(shè)三日主論壇、400場(chǎng)分論壇與并行話題以及近四萬(wàn)平方米展區(qū)。云棲大會(huì)對(duì)公眾免費(fèi)開(kāi)放,即日起公眾可以通過(guò)云棲大會(huì)官網(wǎng)免費(fèi)申請(qǐng)暢享票,另有5000元的全通票可購(gòu)買(mǎi),本站附門(mén)票網(wǎng)址:https://yunqi.aliyun.com/2024/ticket-list據(jù)介紹,云棲大會(huì)起源于2009年,最初命名為第一屆中國(guó)網(wǎng)站發(fā)展論壇,2011年演變成阿里云開(kāi)發(fā)者大會(huì),2015年正式更名為“云棲大會(huì)”,至今已連續(xù)成功舉

FisheyeDetNet:首個(gè)基于魚(yú)眼相機(jī)的目標(biāo)檢測(cè)算法 FisheyeDetNet:首個(gè)基于魚(yú)眼相機(jī)的目標(biāo)檢測(cè)算法 Apr 26, 2024 am 11:37 AM

目標(biāo)檢測(cè)在自動(dòng)駕駛系統(tǒng)當(dāng)中是一個(gè)比較成熟的問(wèn)題,其中行人檢測(cè)是最早得以部署算法之一。在多數(shù)論文當(dāng)中已經(jīng)進(jìn)行了非常全面的研究。然而,利用魚(yú)眼相機(jī)進(jìn)行環(huán)視的距離感知相對(duì)來(lái)說(shuō)研究較少。由于徑向畸變大,標(biāo)準(zhǔn)的邊界框表示在魚(yú)眼相機(jī)當(dāng)中很難實(shí)施。為了緩解上述描述,我們探索了擴(kuò)展邊界框、橢圓、通用多邊形設(shè)計(jì)為極坐標(biāo)/角度表示,并定義一個(gè)實(shí)例分割mIOU度量來(lái)分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優(yōu)于其他模型,并同時(shí)在用于自動(dòng)駕駛的Valeo魚(yú)眼相機(jī)數(shù)據(jù)集上實(shí)現(xiàn)了49.5%的mAP

牛津大學(xué)最新!Mickey:3D中的2D圖像匹配SOTA!(CVPR\'24) 牛津大學(xué)最新!Mickey:3D中的2D圖像匹配SOTA!(CVPR\'24) Apr 23, 2024 pm 01:20 PM

寫(xiě)在前面項(xiàng)目鏈接:https://nianticlabs.github.io/mickey/給定兩張圖片,可以通過(guò)建立圖片之間的對(duì)應(yīng)關(guān)系來(lái)估計(jì)它們之間的相機(jī)姿態(tài)。通常,這些對(duì)應(yīng)關(guān)系是二維到二維的,而我們估計(jì)的姿態(tài)在尺度上是不確定的。一些應(yīng)用,例如隨時(shí)隨地實(shí)現(xiàn)即時(shí)增強(qiáng)現(xiàn)實(shí),需要尺度度量的姿態(tài)估計(jì),因此它們依賴于外部的深度估計(jì)器來(lái)恢復(fù)尺度。本文提出了MicKey,這是一個(gè)關(guān)鍵點(diǎn)匹配流程,能夠夠預(yù)測(cè)三維相機(jī)空間中的度量對(duì)應(yīng)關(guān)系。通過(guò)學(xué)習(xí)跨圖像的三維坐標(biāo)匹配,我們能夠在沒(méi)有深度測(cè)試的情況下推斷出度量相對(duì)

See all articles