UniPixel是什么
unipixel是香港理工大學(xué)和騰訊arc lab團(tuán)隊(duì)開(kāi)發(fā)的首個(gè)統(tǒng)一像素級(jí)多模態(tài)大模型,專注于圖像/視頻的精細(xì)理解與交互。能在單個(gè)模型中完成對(duì)象指代、像素級(jí)分割和區(qū)域推理三大任務(wù),通過(guò)創(chuàng)新設(shè)計(jì)的”對(duì)象記憶機(jī)制”和統(tǒng)一視覺(jué)編碼方式,實(shí)現(xiàn)了對(duì)視頻中目標(biāo)的精準(zhǔn)追蹤與語(yǔ)義理解。模型基于qwen2.5-vl框架,支持點(diǎn)、框、掩碼三種交互方式,在9項(xiàng)視覺(jué)任務(wù)基準(zhǔn)測(cè)試中超越72b參數(shù)的傳統(tǒng)模型,開(kāi)源了代碼和在線demo。核心突破在于將視覺(jué)分割與語(yǔ)言推理深度融合,解決了傳統(tǒng)模型無(wú)法處理復(fù)雜指代和動(dòng)態(tài)區(qū)域理解的問(wèn)題。

UniPixel的主要功能
-
像素級(jí)視覺(jué)語(yǔ)言理解:專注于像素級(jí)視覺(jué)語(yǔ)言理解,能實(shí)現(xiàn)視覺(jué)信號(hào)與語(yǔ)言語(yǔ)義之間的像素級(jí)對(duì)齊,支持多種細(xì)粒度任務(wù),包括圖像/視頻分割、區(qū)域理解以及PixelQA任務(wù)。
-
統(tǒng)一對(duì)象指代與分割:模型將對(duì)象指代和分割能力無(wú)縫集成,能根據(jù)視覺(jué)提示輸入生成相關(guān)的掩碼,并在推理過(guò)程中基于這些中間指針進(jìn)行后續(xù)推理,實(shí)現(xiàn)細(xì)粒度的像素級(jí)推理。
-
多任務(wù)支持:在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)出色,包括ReVOS推理分割基準(zhǔn)、MeViS、Ref-YouTube-VOS、RefCOCO/+/g等數(shù)據(jù)集,設(shè)計(jì)了新的PixelQA任務(wù),要求模型聯(lián)合進(jìn)行對(duì)象指代、分割和問(wèn)答。
-
靈活的視覺(jué)提示處理:能靈活處理視覺(jué)提示輸入,生成掩碼并進(jìn)行推理,支持單幀和多幀的視頻區(qū)域理解,以及基于掩碼的問(wèn)答任務(wù)。
UniPixel的技術(shù)原理
-
統(tǒng)一框架設(shè)計(jì):UniPixel采用統(tǒng)一框架,將對(duì)象指代和分割能力整合到一個(gè)模型中,實(shí)現(xiàn)從粗粒度場(chǎng)景理解到細(xì)粒度像素推理的跨越,為復(fù)雜視覺(jué)推理提供基礎(chǔ)。
-
對(duì)象記憶庫(kù):模型包含對(duì)象記憶庫(kù),存儲(chǔ)從指代任務(wù)中提取的對(duì)象特征,為后續(xù)的分割和推理任務(wù)提供上下文信息,增強(qiáng)模型在像素級(jí)任務(wù)上的性能。
-
多階段訓(xùn)練策略:采用預(yù)訓(xùn)練、指代任務(wù)微調(diào)和分割任務(wù)微調(diào)的多階段訓(xùn)練策略,逐步提升模型在像素級(jí)任務(wù)上的性能,適應(yīng)不同任務(wù)需求。
-
端到端掩碼生成:模型能根據(jù)語(yǔ)言描述直接生成像素級(jí)掩碼,實(shí)現(xiàn)語(yǔ)言與視覺(jué)的深度融合,支持多種細(xì)粒度任務(wù),如圖像/視頻分割和區(qū)域理解。
-
靈活的視覺(jué)提示處理:能靈活處理視覺(jué)提示輸入,生成掩碼并進(jìn)行推理,支持單幀和多幀的視頻區(qū)域理解,以及基于掩碼的問(wèn)答任務(wù),適應(yīng)不同場(chǎng)景需求。
-
強(qiáng)大的推理能力:在VideoRefer-Bench-Q問(wèn)答任務(wù)中,UniPixel-7B模型取得了74.1%的準(zhǔn)確率,超越了包括GPT-4o在內(nèi)的多個(gè)強(qiáng)大基準(zhǔn)模型,顯示出其在復(fù)雜視覺(jué)推理任務(wù)中的強(qiáng)大能力。
-
模型權(quán)重與數(shù)據(jù)集提供:提供了UniPixel-3B和UniPixel-7B兩個(gè)版本的模型權(quán)重,以及23個(gè)指代/分割/QA數(shù)據(jù)集的原始圖像/視頻和預(yù)處理注釋,為研究和應(yīng)用提供豐富資源。
-
訓(xùn)練與評(píng)估支持:代碼庫(kù)支持在23個(gè)數(shù)據(jù)集和基準(zhǔn)測(cè)試上進(jìn)行訓(xùn)練和評(píng)估,支持靈活的硬件設(shè)置、高效的訓(xùn)練技術(shù)、自定義基礎(chǔ)LLM和對(duì)話模板,以及通過(guò)Tensorboard/Wandb監(jiān)控訓(xùn)練過(guò)程,方便用戶使用和優(yōu)化。
UniPixel的項(xiàng)目地址
-
項(xiàng)目官網(wǎng):http://polyu-chenlab.github.io/unipixel/
-
Github倉(cāng)庫(kù):http://github.com/PolyU-ChenLab/UniPixel
-
HuggingFace數(shù)據(jù):http://huggingface.co/datasets/PolyU-ChenLab/UniPixel-SFT-1M
-
arXiv技術(shù)論文:http://arxiv.org/pdf/2509.18094
-
在線體驗(yàn)Demo:http://huggingface.co/spaces/PolyU-ChenLab/UniPixel
UniPixel的應(yīng)用場(chǎng)景
-
圖像分割:UniPixel能根據(jù)語(yǔ)言描述生成圖像中特定對(duì)象的像素級(jí)掩碼,適用于需要精確圖像分割的場(chǎng)景,如醫(yī)學(xué)圖像分析、自動(dòng)駕駛中的目標(biāo)分割等。
-
視頻分割:在視頻處理領(lǐng)域,UniPixel可以對(duì)視頻中的對(duì)象進(jìn)行實(shí)時(shí)分割,支持視頻編輯、視頻監(jiān)控和增強(qiáng)現(xiàn)實(shí)等應(yīng)用。
-
區(qū)域理解:通過(guò)理解語(yǔ)言描述來(lái)識(shí)別和分割視頻中的特定區(qū)域,可用于視頻內(nèi)容分析、智能監(jiān)控系統(tǒng)和視頻會(huì)議中的背景分割等。
-
問(wèn)答任務(wù):UniPixel支持PixelQA任務(wù),能夠根據(jù)語(yǔ)言描述和視覺(jué)信息回答問(wèn)題,適用于教育、智能客服和信息檢索等場(chǎng)景。
-
多模態(tài)交互:在需要結(jié)合視覺(jué)和語(yǔ)言信息進(jìn)行交互的場(chǎng)景中,如智能助手、虛擬現(xiàn)實(shí)和游戲開(kāi)發(fā)等,UniPixel能夠提供更自然和準(zhǔn)確的交互體驗(yàn)。
-
智能監(jiān)控:在安防監(jiān)控領(lǐng)域,UniPixel可以實(shí)時(shí)識(shí)別和分割監(jiān)控視頻中的特定對(duì)象或區(qū)域,提高監(jiān)控系統(tǒng)的智能化水平。
以上就是UniPixel— 香港理工聯(lián)合騰訊推出的像素級(jí)多模態(tài)大模型的詳細(xì)內(nèi)容,更多請(qǐng)關(guān)注php中文網(wǎng)其它相關(guān)文章!