亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

首頁(yè) 硬體教學(xué) 硬體測(cè)評(píng) 4 秒看完 2 小時(shí)影片!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

4 秒看完 2 小時(shí)影片!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

Aug 20, 2024 am 10:32 AM
阿里 模型 電影 模態(tài) 看完 abs

4 秒看完 2 小時(shí)電影,阿里團(tuán)隊(duì)新成果正式亮相-

推出通用多模態(tài)大模型 mPLUG-Owl3,專(zhuān)門(mén)用來(lái)理解多圖、長(zhǎng)影片。

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

具體來(lái)說(shuō),以L(fǎng)LaVA-Next-Interleave 為基準(zhǔn),mPLUG-Owl3 將模型的First Token Latency 縮小了6 倍,且單張A100 能建模的影像數(shù)目提升了8 倍,達(dá)到了400 張圖片,實(shí)測(cè)4 秒就能看完一部2 小時(shí)的電影。

換句話(huà)說(shuō),模型的推理效率有了極大提升。

而且不犧牲模型的準(zhǔn)確性。

mPLUG-Owl3 也在多模態(tài)大模型所涉及的各種場(chǎng)景,包括單圖、多圖、視頻領(lǐng)域的諸多 Benchmarks 上達(dá)到了SOTA。

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

論文作者來(lái)自阿里mPLUG 團(tuán)隊(duì),他們一直深耕多模態(tài)大模型底座,在此之前也提出了:

高效多模態(tài)底座mPLUG 系列

模組化多模態(tài)大語(yǔ)言模型底座mPLUG-Owl 系列

文檔理解底座mPLUG-DocOwl 系列

下面就讓我們來(lái)了解一下本次發(fā)布的mPLUG-Owl3 究竟帶來(lái)了什麼黑科技吧。

玩法解鎖

團(tuán)隊(duì)展示了 mPLUG-Owl3 的幾種常見(jiàn)用法。

多模態(tài)檢索增強(qiáng)

一般來(lái)說(shuō),對(duì)於模型沒(méi)有學(xué)過(guò)的知識(shí),透過(guò)檢索系統(tǒng)進(jìn)行補(bǔ)充是常見(jiàn)的做法。這需要模型能準(zhǔn)確理解傳入的多模態(tài)知識(shí),並用來(lái)解答問(wèn)題。

在下面這個(gè)例子中,mPLUG-Owl3 不僅能基於檢索知識(shí)正確回復(fù),還能給出它基於哪一條知識(shí)做出的判斷,並且給出詳細(xì)的判斷依據(jù)。這對(duì)於下游研發(fā)人員開(kāi)發(fā)和調(diào)試都是非常友善的。

檢索部分:以下是為你檢索到的幾個(gè)多模態(tài)知識(shí),供你做決定。

提問(wèn):根據(jù)你對(duì)上面四張狗的照片的觀(guān)察,你能對(duì)圖片 5 中的狗進(jìn)行分類(lèi)嗎?給出理由。

回答:根據(jù)對(duì)四張狗的照片的觀(guān)察,圖片 5 中的狗可以被歸類(lèi)為愛(ài)爾蘭梗犬。圖片1 中的狗被描述為愛(ài)爾蘭梗犬,圖片5 中的狗與圖片1 中的狗在身體特徵上有相似之處…

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

多圖推理

生活中常會(huì)出現(xiàn)這樣的情況-

許多使用者並非只圍繞一張圖片進(jìn)行對(duì)話(huà),而是使用者可能有幾份資料,需要模型能正確理解不同資料中的內(nèi)容的關(guān)係。

在下面這個(gè)例子中,mPLUG-Owl3 能透過(guò)兩張圖像所見(jiàn),激活語(yǔ)言模型的常識(shí)知識(shí),並圍繞兩張圖片進(jìn)行推理。

提問(wèn):左邊的動(dòng)物能在右邊的環(huán)境存活嗎?需要回答並給予解釋。

回答(正確答案標(biāo)綠):大意是,不能存活,因?yàn)榄h(huán)境太冷了。

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

在另一個(gè)例子中,mPLUG-Owl3 不僅能察覺(jué)兩張圖片風(fēng)格上的差異性,也能意識(shí)到兩張圖中的人物雖然風(fēng)格不同,但其實(shí)是同一個(gè)角色。

第一次提問(wèn):圖片中描繪了哪些藝術(shù)風(fēng)格,它們有何不同?

回答:第一張是像素風(fēng),第二張是卡通風(fēng)格…(給出理由)

第二次提問(wèn):在兩幅畫(huà)中都出現(xiàn)了誰(shuí)?他們的特徵是什麼?

回答:在兩幅畫(huà)中,都出現(xiàn)了一個(gè)戴著牛仔帽的男人,他被兩種不同的風(fēng)格描繪。

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

長(zhǎng)影片理解

觀(guān)看超長(zhǎng)影片是現(xiàn)在大部分模型都無(wú)法端到端完成的任務(wù),若是基於Agent 框架,則又難以保證響應(yīng)速度。

mPLUG-Owl3 能夠看一部 2 小時(shí)電影,並且4 秒就能開(kāi)始回答用戶(hù)的問(wèn)題。

不管使用者是對(duì)電影的開(kāi)頭、中間和結(jié)尾的非常細(xì)緻的片段進(jìn)行提問(wèn),mPLUG-Owl3 都能對(duì)答如流。

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

咋做到的?

與傳統(tǒng)模型不同,mPLUG-Owl3不需要事先將視覺(jué)序列拼接到語(yǔ)言模型的文字序列中。

換句話(huà)說(shuō),不管輸入了啥(幾十張圖或幾小時(shí)視訊),都不佔(zhàn)用語(yǔ)言模型序列容量,這就規(guī)避了長(zhǎng)視覺(jué)序列帶來(lái)的巨額計(jì)算開(kāi)銷(xiāo)和顯存佔(zhàn)用。

有人可能會(huì)問(wèn)了,那視覺(jué)訊息如何融入語(yǔ)言模型呢?

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

為實(shí)現(xiàn)這一點(diǎn),該團(tuán)隊(duì)提出了一種輕量化的Hyper Attention 模組,它可以將一個(gè)已有的只能建模文本的Transformer Block 擴(kuò)展成一個(gè)能夠同時(shí)做圖文特徵互動(dòng)和文字建模的新模組。

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

透過(guò)在整個(gè)語(yǔ)言模型中稀疏地?cái)U(kuò)展4 個(gè)Transformer Block,mPLUG-Owl3 就能用非常小的代價(jià)將 LLM 升級(jí)成多模態(tài) LLM。

視覺(jué)特徵在從視覺(jué)編碼器抽取出來(lái)後,會(huì)透過(guò)一個(gè)簡(jiǎn)單的線(xiàn)性映射把維度對(duì)齊到語(yǔ)言模型的維度。

隨後,視覺(jué)特徵只會(huì)在這 4 層 Transformer Block 與文字交互,由於視覺(jué) Token 沒(méi)有經(jīng)過(guò)任何壓縮,所以細(xì)粒度的資訊都能保留。

下面來(lái)看看Hyper Attention 內(nèi)又是如何設(shè)計(jì)的。

Hyper Attention 為了讓語(yǔ)言模型能感知到視覺(jué)特徵,引入了一個(gè)Cross-Attention操作,將視覺(jué)特徵作為 Key 和 Value,將語(yǔ)言模型的 hidden state 作為 Query 去析取視覺(jué)特徵。

近年來(lái)也有其他研究考慮將 Cross-Attention 用於多模態(tài)融合,例如 Flamingo 和 IDEFICS,但這些工作都沒(méi)能取得較好的效能表現(xiàn)。

在mPLUG-Owl3 的技術(shù)報(bào)告中,團(tuán)隊(duì)比較了Flamingo 的設(shè)計(jì),來(lái)進(jìn)一步說(shuō)明Hyper Attention 的關(guān)鍵技術(shù)點(diǎn):

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

首先,Hyper Attention 並沒(méi)有採(cǎi)用Cross-Attention 和Self-Attention 級(jí)聯(lián)的設(shè)計(jì),而是嵌入在Self-Attention 區(qū)塊內(nèi)。

它的好處是大幅降低了額外引入的新參數(shù),使得模型更容易訓(xùn)練,並且訓(xùn)練和推理效率也能進(jìn)一步提升。

其次,Hyper Attention 選擇共享語(yǔ)言模型的 LayerNorm,因?yàn)?LayerNorm 所輸出的分佈正是 Attention 層已經(jīng)訓(xùn)練穩(wěn)定的分佈,共享這一層對(duì)於穩(wěn)定學(xué)習(xí)新引入的 Cross-Attention 至關(guān)重要。

事實(shí)上,Hyper Attention 採(cǎi)取了一種並行 Cross-Attention 和 Self-Attention 的策略,使用共享的 Query 去與視覺(jué)特徵交互,透過(guò)一個(gè) Adaptive Gate 融合兩者的特徵。

這使得 Query 可以根據(jù)自身語(yǔ)意針對(duì)性地選擇與之相關(guān)的視覺(jué)特徵。

團(tuán)隊(duì)發(fā)現(xiàn),影像在原始上下文中與文字的相對(duì)位置關(guān)係對(duì)於模型更好的理解多模態(tài)輸入非常重要。

為了建模這個(gè)性質(zhì),他們引入了一種多模態(tài)交錯(cuò)的旋轉(zhuǎn)位置編碼 MI-Rope 來(lái)給視覺(jué)的 Key 建模位置資訊。

具體來(lái)說(shuō),他們預(yù)先記錄了每張圖片在原文中的位置信息,會(huì)取這一位置來(lái)計(jì)算對(duì)應(yīng)的 Rope embedding,而同一張圖的各個(gè) patch 會(huì)共享這個(gè) embedding。

此外,他們也在 Cross-Attention引入了 Attention mask,讓原始上下文中在圖片之前的文字不能看到後面的圖片對(duì)應(yīng)的特徵。

概括而言,Hyper Attention 的這些設(shè)計(jì)點(diǎn),為 mPLUG-Owl3 帶來(lái)了進(jìn)一步的效率提升,並且保障了它仍然能具備一流的多模態(tài)能力。

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

實(shí)驗(yàn)結(jié)果

透過(guò)在廣泛的資料集上進(jìn)行實(shí)驗(yàn),mPLUG-Owl3 在大多數(shù)單圖多模態(tài)Benchmarks都能取得SOTA 的效果,甚至不少評(píng)量還能超過(guò)模型尺寸更大的模型。

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

同時(shí),在多圖測(cè)評(píng)中,mPLUG-Owl3 同樣超越了專(zhuān)門(mén)針對(duì)多圖場(chǎng)景優(yōu)化的 LLAVA-Next-Interleave 和 Mantis。

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

另外,在 LongVideoBench(52.1 分)這一專(zhuān)門(mén)評(píng)估模型對(duì)長(zhǎng)視頻理解的榜單上更是超越現(xiàn)有模型。

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

研發(fā)團(tuán)隊(duì)也提出了一個(gè)有趣的長(zhǎng)視覺(jué)序列評(píng)量方法。

眾所周知,真實(shí)的人機(jī)互動(dòng)場(chǎng)景,並非所有圖片都是為了用戶(hù)問(wèn)題服務(wù)的,歷史上下文中會(huì)充斥著與問(wèn)題無(wú)關(guān)的多模態(tài)內(nèi)容,序列越長(zhǎng),這一現(xiàn)象越嚴(yán)重。

為了評(píng)估模型在長(zhǎng)視覺(jué)序列輸入中的抗干擾能力,他們基於 MMBench-dev 建構(gòu)了一個(gè)新的測(cè)評(píng)資料集。

透過(guò)為每一個(gè) MMBench 循環(huán)評(píng)估樣本引入無(wú)關(guān)的圖片並打亂圖片順序,再針對(duì)原本的圖片進(jìn)行提問(wèn),看模型是否能穩(wěn)定地正確回復(fù)。 (同一個(gè)問(wèn)題,會(huì)建構(gòu) 4 個(gè)選項(xiàng)順序和乾擾圖片均不同的樣本,全都答對(duì)才記一次正確答案。)

實(shí)驗(yàn)中根據(jù)輸入圖片數(shù)目分為了多個(gè)層級(jí)。

可以看出,沒(méi)有經(jīng)過(guò)多圖訓(xùn)練的模型例如 Qwen-VL 和 mPLUG-Owl2 很快就敗下陣來(lái)。

4 秒看完 2 小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3

而經(jīng)過(guò)多圖訓(xùn)練的LLAVA-Next-Interleave 和Mantis 在最開(kāi)始能和mPLUG-Owl3 保持近似的衰減曲線(xiàn),但隨著圖片數(shù)目達(dá)到了50這個(gè)量級(jí),這些模型也不再能正確回答了。

而 mPLUG-Owl3 堅(jiān)持到了400 張圖片還能保持40% 的準(zhǔn)確率。

不過(guò)有一說(shuō)一,儘管mPLUG-Owl3 超越了現(xiàn)有模型,但其準(zhǔn)確率遠(yuǎn)未達(dá)到優(yōu)秀水平,只能說(shuō)這一測(cè)評(píng)方法揭示了所有模型未來(lái)需要進(jìn)一步提升的長(zhǎng)序列下的抗干擾能力。

更多詳情歡迎查閱論文及程式碼。

論文:https://arxiv.org/abs/2408.04840

程式碼:https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl3

demo(抱抱臉):https://huggingface.co/spaces/mPLUG/mPLUG-Owl3

demo(魔搭社群):https://modelscope.cn/studios /iic/mPLUG-Owl3

7B 模型(抱抱臉):https://huggingface.co/mPLUG/mPLUG-Owl3-7B-240728

7B 模型(魔搭社群) https://modelscope.cn/models/iic/mPLUG-Owl3-7B-240728

— 完—

投稿請(qǐng)寄電子郵件到:

ai@qbitai. com

標(biāo)題註明,告訴我們:

你是誰(shuí),從哪裡來(lái),投稿內(nèi)容

附上論文/ 項(xiàng)目主頁(yè)鏈接,以及聯(lián)繫方式哦

我們會(huì)(盡量)及時(shí)回覆你

點(diǎn)這裡追蹤我,記得標(biāo)星哦~

一鍵三連「分享」、「按讚」和「在看」

科技前沿進(jìn)展日日相見(jiàn)~

以上是4 秒看完 2 小時(shí)影片!阿里發(fā)布通用多模態(tài)大模型 mPLUG-Owl3的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線(xiàn)上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門(mén)話(huà)題

Laravel 教程
1597
29
PHP教程
1488
72
你好,電動(dòng)Atlas!波士頓動(dòng)力機(jī)器人復(fù)活,180度詭異動(dòng)作嚇到馬斯克 你好,電動(dòng)Atlas!波士頓動(dòng)力機(jī)器人復(fù)活,180度詭異動(dòng)作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動(dòng)力Atlas,正式進(jìn)入電動(dòng)機(jī)器人時(shí)代!昨天,液壓Atlas剛「含淚」退出歷史舞臺(tái),今天波士頓動(dòng)力就宣布:電動(dòng)Atlas上崗。看來(lái),在商用人形機(jī)器人領(lǐng)域,波士頓動(dòng)力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時(shí)內(nèi),就已經(jīng)有一百多萬(wàn)觀(guān)看。舊人離去,新角色登場(chǎng),這是歷史的必然。毫無(wú)疑問(wèn),今年是人形機(jī)器人的爆發(fā)年。網(wǎng)友銳評(píng):機(jī)器人的進(jìn)步,讓今年看起來(lái)像人類(lèi)的開(kāi)幕式動(dòng)作、自由度遠(yuǎn)超人類(lèi),但這真不是恐怖片?影片一開(kāi)始,Atlas平靜地躺在地上,看起來(lái)應(yīng)該是仰面朝天。接下來(lái),讓人驚掉下巴

全球最強(qiáng)開(kāi)源 MoE 模型來(lái)了,中文能力比肩 GPT-4,價(jià)格僅 GPT-4-Turbo 的近百分之一 全球最強(qiáng)開(kāi)源 MoE 模型來(lái)了,中文能力比肩 GPT-4,價(jià)格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下,一個(gè)人工智慧模型,不僅擁有超越傳統(tǒng)運(yùn)算的能力,還能以更低的成本實(shí)現(xiàn)更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強(qiáng)開(kāi)源MoE模型來(lái)了。 DeepSeek-V2是一個(gè)強(qiáng)大的專(zhuān)家混合(MoE)語(yǔ)言模型,具有訓(xùn)練經(jīng)濟(jì)、推理高效的特點(diǎn)。它由236B個(gè)參數(shù)組成,其中21B個(gè)參數(shù)用於啟動(dòng)每個(gè)標(biāo)記。與DeepSeek67B相比,DeepSeek-V2效能更強(qiáng),同時(shí)節(jié)省了42.5%的訓(xùn)練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

特斯拉機(jī)器人進(jìn)廠(chǎng)打工,馬斯克:手的自由度今年將達(dá)到22個(gè)! 特斯拉機(jī)器人進(jìn)廠(chǎng)打工,馬斯克:手的自由度今年將達(dá)到22個(gè)! May 06, 2024 pm 04:13 PM

特斯拉機(jī)器人Optimus最新影片出爐,已經(jīng)可以在工廠(chǎng)裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點(diǎn)之一在於Optimus在廠(chǎng)子裡完成這項(xiàng)工作,是完全自主的,全程沒(méi)有人為的干預(yù)。而且在Optimus的視角之下,它還可以把放歪了的電池重新?lián)炱饋?lái)放置,主打一個(gè)自動(dòng)糾錯(cuò):對(duì)於Optimus的手,英偉達(dá)科學(xué)家JimFan給出了高度的評(píng)價(jià):Optimus的手是全球五指機(jī)器人裡最靈巧的之一。它的手不僅有觸覺(jué)

替代MLP的KAN,被開(kāi)源專(zhuān)案擴(kuò)展到卷積了 替代MLP的KAN,被開(kāi)源專(zhuān)案擴(kuò)展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初,來(lái)自MIT等機(jī)構(gòu)的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準(zhǔn)確性和可解釋性方面表現(xiàn)優(yōu)於MLP。而且它能以非常少的參數(shù)量勝過(guò)以更大參數(shù)量運(yùn)行的MLP。例如,作者表示,他們用KAN以更小的網(wǎng)路和更高的自動(dòng)化程度重現(xiàn)了DeepMind的結(jié)果。具體來(lái)說(shuō),DeepMind的MLP有大約300,000個(gè)參數(shù),而KAN只有約200個(gè)參數(shù)。 KAN與MLP一樣具有強(qiáng)大的數(shù)學(xué)基礎(chǔ),MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

本地運(yùn)作效能超越 OpenAI Text-Embedding-Ada-002 的 Embedding 服務(wù),太方便了! 本地運(yùn)作效能超越 OpenAI Text-Embedding-Ada-002 的 Embedding 服務(wù),太方便了! Apr 15, 2024 am 09:01 AM

Ollama是一款超實(shí)用的工具,讓你能夠在本地輕鬆運(yùn)行Llama2、Mistral、Gemma等開(kāi)源模型。本文我將介紹如何使用Ollama實(shí)現(xiàn)對(duì)文本的向量化處理。如果你本地還沒(méi)有安裝Ollama,可以閱讀這篇文章。本文我們將使用nomic-embed-text[2]模型。它是一種文字編碼器,在短的上下文和長(zhǎng)的上下文任務(wù)上,效能超越了OpenAItext-embedding-ada-002和text-embedding-3-small。啟動(dòng)nomic-embed-text服務(wù)當(dāng)你已經(jīng)成功安裝好o

阿里雲(yún)宣布 2024 雲(yún)棲大會(huì)於 9 月 19 日至 21 日在杭州舉辦,暢享票免費(fèi)申請(qǐng) 阿里雲(yún)宣布 2024 雲(yún)棲大會(huì)於 9 月 19 日至 21 日在杭州舉辦,暢享票免費(fèi)申請(qǐng) Aug 07, 2024 pm 07:12 PM

本站8月5日消息,阿里雲(yún)宣布,2024雲(yún)棲大會(huì)將於9月19日~21日在杭州雲(yún)棲小鎮(zhèn)舉辦,將設(shè)三日主論壇、400場(chǎng)分論壇與並行話(huà)題以及近四萬(wàn)平方米展區(qū)。雲(yún)棲大會(huì)對(duì)民眾免費(fèi)開(kāi)放,即日起民眾可透過(guò)雲(yún)棲大會(huì)官網(wǎng)免費(fèi)申請(qǐng)暢享票,另有5,000元的全通票可購(gòu)買(mǎi),本站附門(mén)票網(wǎng)址:https://yunqi.aliyun.com/2024 /ticket-list據(jù)介紹,雲(yún)棲大會(huì)起源於2009年,最初命名為第一屆中國(guó)網(wǎng)站發(fā)展論壇,2011年演變成阿里雲(yún)開(kāi)發(fā)者大會(huì),2015年正式更名為“雲(yún)棲大會(huì)”,至今已連續(xù)成功舉

FisheyeDetNet:首個(gè)以魚(yú)眼相機(jī)為基礎(chǔ)的目標(biāo)偵測(cè)演算法 FisheyeDetNet:首個(gè)以魚(yú)眼相機(jī)為基礎(chǔ)的目標(biāo)偵測(cè)演算法 Apr 26, 2024 am 11:37 AM

目標(biāo)偵測(cè)在自動(dòng)駕駛系統(tǒng)當(dāng)中是一個(gè)比較成熟的問(wèn)題,其中行人偵測(cè)是最早得以部署演算法之一。在多數(shù)論文當(dāng)中已經(jīng)進(jìn)行了非常全面的研究。然而,利用魚(yú)眼相機(jī)進(jìn)行環(huán)視的距離感知相對(duì)來(lái)說(shuō)研究較少。由於徑向畸變大,標(biāo)準(zhǔn)的邊界框表示在魚(yú)眼相機(jī)當(dāng)中很難實(shí)施。為了緩解上述描述,我們探索了擴(kuò)展邊界框、橢圓、通用多邊形設(shè)計(jì)為極座標(biāo)/角度表示,並定義一個(gè)實(shí)例分割mIOU度量來(lái)分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優(yōu)於其他模型,並同時(shí)在用於自動(dòng)駕駛的Valeo魚(yú)眼相機(jī)資料集上實(shí)現(xiàn)了49.5%的mAP

牛津大學(xué)最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\'24) 牛津大學(xué)最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

寫(xiě)在前面項(xiàng)目連結(jié):https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過(guò)建立圖片之間的對(duì)應(yīng)關(guān)係來(lái)估計(jì)它們之間的相機(jī)姿態(tài)。通常,這些對(duì)應(yīng)關(guān)係是二維到二維的,而我們估計(jì)的姿態(tài)在尺度上是不確定的。一些應(yīng)用,例如隨時(shí)隨地實(shí)現(xiàn)即時(shí)增強(qiáng)現(xiàn)實(shí),需要尺度度量的姿態(tài)估計(jì),因此它們依賴(lài)外部的深度估計(jì)器來(lái)恢復(fù)尺度。本文提出了MicKey,這是一個(gè)關(guān)鍵點(diǎn)匹配流程,能夠夠預(yù)測(cè)三維相機(jī)空間中的度量對(duì)應(yīng)關(guān)係。透過(guò)學(xué)習(xí)跨影像的三維座標(biāo)匹配,我們能夠在沒(méi)有深度測(cè)試的情況下推斷度量相對(duì)

See all articles