一个人在线观看免费视频www,日本强伦片中文字幕免费看,啦啦啦视频在线观看www

UniPixel— 香港理工聯(lián)合騰訊推出的像素級(jí)多模態(tài)大模型

聖光之護(hù)

發(fā)布： 2025-10-17 15:08:01

原創(chuàng)

459人瀏覽過(guò)

???AI 智能聊天, 問(wèn)答助手, AI 智能搜索, 免費(fèi)無(wú)限量使用 DeepSeek R1 模型???

天工大模型

中國(guó)首個(gè)對(duì)標(biāo)ChatGPT的雙千億級(jí)大語(yǔ)言模型

115

查看詳情

UniPixel是什么

unipixel是香港理工大學(xué)和騰訊arc lab團(tuán)隊(duì)開(kāi)發(fā)的首個(gè)統(tǒng)一像素級(jí)多模態(tài)大模型，專注于圖像/視頻的精細(xì)理解與交互。能在單個(gè)模型中完成對(duì)象指代、像素級(jí)分割和區(qū)域推理三大任務(wù)，通過(guò)創(chuàng)新設(shè)計(jì)的”對(duì)象記憶機(jī)制”和統(tǒng)一視覺(jué)編碼方式，實(shí)現(xiàn)了對(duì)視頻中目標(biāo)的精準(zhǔn)追蹤與語(yǔ)義理解。模型基于qwen2.5-vl框架，支持點(diǎn)、框、掩碼三種交互方式，在9項(xiàng)視覺(jué)任務(wù)基準(zhǔn)測(cè)試中超越72b參數(shù)的傳統(tǒng)模型，開(kāi)源了代碼和在線demo。核心突破在于將視覺(jué)分割與語(yǔ)言推理深度融合，解決了傳統(tǒng)模型無(wú)法處理復(fù)雜指代和動(dòng)態(tài)區(qū)域理解的問(wèn)題。

UniPixel— 香港理工聯(lián)合騰訊推出的像素級(jí)多模態(tài)大模型

UniPixel的主要功能

像素級(jí)視覺(jué)語(yǔ)言理解：專注于像素級(jí)視覺(jué)語(yǔ)言理解，能實(shí)現(xiàn)視覺(jué)信號(hào)與語(yǔ)言語(yǔ)義之間的像素級(jí)對(duì)齊，支持多種細(xì)粒度任務(wù)，包括圖像/視頻分割、區(qū)域理解以及PixelQA任務(wù)。
統(tǒng)一對(duì)象指代與分割：模型將對(duì)象指代和分割能力無(wú)縫集成，能根據(jù)視覺(jué)提示輸入生成相關(guān)的掩碼，并在推理過(guò)程中基于這些中間指針進(jìn)行后續(xù)推理，實(shí)現(xiàn)細(xì)粒度的像素級(jí)推理。
多任務(wù)支持：在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)出色，包括ReVOS推理分割基準(zhǔn)、MeViS、Ref-YouTube-VOS、RefCOCO/+/g等數(shù)據(jù)集，設(shè)計(jì)了新的PixelQA任務(wù)，要求模型聯(lián)合進(jìn)行對(duì)象指代、分割和問(wèn)答。
靈活的視覺(jué)提示處理：能靈活處理視覺(jué)提示輸入，生成掩碼并進(jìn)行推理，支持單幀和多幀的視頻區(qū)域理解，以及基于掩碼的問(wèn)答任務(wù)。

UniPixel的技術(shù)原理

統(tǒng)一框架設(shè)計(jì)：UniPixel采用統(tǒng)一框架，將對(duì)象指代和分割能力整合到一個(gè)模型中，實(shí)現(xiàn)從粗粒度場(chǎng)景理解到細(xì)粒度像素推理的跨越，為復(fù)雜視覺(jué)推理提供基礎(chǔ)。
對(duì)象記憶庫(kù)：模型包含對(duì)象記憶庫(kù)，存儲(chǔ)從指代任務(wù)中提取的對(duì)象特征，為后續(xù)的分割和推理任務(wù)提供上下文信息，增強(qiáng)模型在像素級(jí)任務(wù)上的性能。
多階段訓(xùn)練策略：采用預(yù)訓(xùn)練、指代任務(wù)微調(diào)和分割任務(wù)微調(diào)的多階段訓(xùn)練策略，逐步提升模型在像素級(jí)任務(wù)上的性能，適應(yīng)不同任務(wù)需求。
端到端掩碼生成：模型能根據(jù)語(yǔ)言描述直接生成像素級(jí)掩碼，實(shí)現(xiàn)語(yǔ)言與視覺(jué)的深度融合，支持多種細(xì)粒度任務(wù)，如圖像/視頻分割和區(qū)域理解。
靈活的視覺(jué)提示處理：能靈活處理視覺(jué)提示輸入，生成掩碼并進(jìn)行推理，支持單幀和多幀的視頻區(qū)域理解，以及基于掩碼的問(wèn)答任務(wù)，適應(yīng)不同場(chǎng)景需求。
強(qiáng)大的推理能力：在VideoRefer-Bench-Q問(wèn)答任務(wù)中，UniPixel-7B模型取得了74.1%的準(zhǔn)確率，超越了包括GPT-4o在內(nèi)的多個(gè)強(qiáng)大基準(zhǔn)模型，顯示出其在復(fù)雜視覺(jué)推理任務(wù)中的強(qiáng)大能力。
模型權(quán)重與數(shù)據(jù)集提供：提供了UniPixel-3B和UniPixel-7B兩個(gè)版本的模型權(quán)重，以及23個(gè)指代/分割/QA數(shù)據(jù)集的原始圖像/視頻和預(yù)處理注釋，為研究和應(yīng)用提供豐富資源。
訓(xùn)練與評(píng)估支持：代碼庫(kù)支持在23個(gè)數(shù)據(jù)集和基準(zhǔn)測(cè)試上進(jìn)行訓(xùn)練和評(píng)估，支持靈活的硬件設(shè)置、高效的訓(xùn)練技術(shù)、自定義基礎(chǔ)LLM和對(duì)話模板，以及通過(guò)Tensorboard/Wandb監(jiān)控訓(xùn)練過(guò)程，方便用戶使用和優(yōu)化。

UniPixel的項(xiàng)目地址

項(xiàng)目官網(wǎng)：http://polyu-chenlab.github.io/unipixel/
Github倉(cāng)庫(kù)：http://github.com/PolyU-ChenLab/UniPixel
HuggingFace數(shù)據(jù)：http://huggingface.co/datasets/PolyU-ChenLab/UniPixel-SFT-1M
arXiv技術(shù)論文：http://arxiv.org/pdf/2509.18094
在線體驗(yàn)Demo：http://huggingface.co/spaces/PolyU-ChenLab/UniPixel

UniPixel的應(yīng)用場(chǎng)景

圖像分割：UniPixel能根據(jù)語(yǔ)言描述生成圖像中特定對(duì)象的像素級(jí)掩碼，適用于需要精確圖像分割的場(chǎng)景，如醫(yī)學(xué)圖像分析、自動(dòng)駕駛中的目標(biāo)分割等。
視頻分割：在視頻處理領(lǐng)域，UniPixel可以對(duì)視頻中的對(duì)象進(jìn)行實(shí)時(shí)分割，支持視頻編輯、視頻監(jiān)控和增強(qiáng)現(xiàn)實(shí)等應(yīng)用。
區(qū)域理解：通過(guò)理解語(yǔ)言描述來(lái)識(shí)別和分割視頻中的特定區(qū)域，可用于視頻內(nèi)容分析、智能監(jiān)控系統(tǒng)和視頻會(huì)議中的背景分割等。
問(wèn)答任務(wù)：UniPixel支持PixelQA任務(wù)，能夠根據(jù)語(yǔ)言描述和視覺(jué)信息回答問(wèn)題，適用于教育、智能客服和信息檢索等場(chǎng)景。
多模態(tài)交互：在需要結(jié)合視覺(jué)和語(yǔ)言信息進(jìn)行交互的場(chǎng)景中，如智能助手、虛擬現(xiàn)實(shí)和游戲開(kāi)發(fā)等，UniPixel能夠提供更自然和準(zhǔn)確的交互體驗(yàn)。
智能監(jiān)控：在安防監(jiān)控領(lǐng)域，UniPixel可以實(shí)時(shí)識(shí)別和分割監(jiān)控視頻中的特定對(duì)象或區(qū)域，提高監(jiān)控系統(tǒng)的智能化水平。