亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

搜索

UniPixel— 香港理工聯(lián)合騰訊推出的像素級(jí)多模態(tài)大模型

聖光之護(hù)
發(fā)布: 2025-10-17 15:08:01
原創(chuàng)
459人瀏覽過(guò)

UniPixel是什么

unipixel是香港理工大學(xué)和騰訊arc lab團(tuán)隊(duì)開(kāi)發(fā)的首個(gè)統(tǒng)一像素級(jí)多模態(tài)大模型,專注于圖像/視頻的精細(xì)理解與交互。能在單個(gè)模型中完成對(duì)象指代、像素級(jí)分割和區(qū)域推理三大任務(wù),通過(guò)創(chuàng)新設(shè)計(jì)的”對(duì)象記憶機(jī)制”和統(tǒng)一視覺(jué)編碼方式,實(shí)現(xiàn)了對(duì)視頻中目標(biāo)的精準(zhǔn)追蹤與語(yǔ)義理解。模型基于qwen2.5-vl框架,支持點(diǎn)、框、掩碼三種交互方式,在9項(xiàng)視覺(jué)任務(wù)基準(zhǔn)測(cè)試中超越72b參數(shù)的傳統(tǒng)模型,開(kāi)源了代碼和在線demo。核心突破在于將視覺(jué)分割與語(yǔ)言推理深度融合,解決了傳統(tǒng)模型無(wú)法處理復(fù)雜指代和動(dòng)態(tài)區(qū)域理解的問(wèn)題。

UniPixel— 香港理工聯(lián)合騰訊推出的像素級(jí)多模態(tài)大模型

UniPixel的主要功能

  • 像素級(jí)視覺(jué)語(yǔ)言理解:專注于像素級(jí)視覺(jué)語(yǔ)言理解,能實(shí)現(xiàn)視覺(jué)信號(hào)與語(yǔ)言語(yǔ)義之間的像素級(jí)對(duì)齊,支持多種細(xì)粒度任務(wù),包括圖像/視頻分割、區(qū)域理解以及PixelQA任務(wù)。
  • 統(tǒng)一對(duì)象指代與分割:模型將對(duì)象指代和分割能力無(wú)縫集成,能根據(jù)視覺(jué)提示輸入生成相關(guān)的掩碼,并在推理過(guò)程中基于這些中間指針進(jìn)行后續(xù)推理,實(shí)現(xiàn)細(xì)粒度的像素級(jí)推理。
  • 多任務(wù)支持:在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)出色,包括ReVOS推理分割基準(zhǔn)、MeViS、Ref-YouTube-VOS、RefCOCO/+/g等數(shù)據(jù)集,設(shè)計(jì)了新的PixelQA任務(wù),要求模型聯(lián)合進(jìn)行對(duì)象指代、分割和問(wèn)答。
  • 靈活的視覺(jué)提示處理:能靈活處理視覺(jué)提示輸入,生成掩碼并進(jìn)行推理,支持單幀和多幀的視頻區(qū)域理解,以及基于掩碼的問(wèn)答任務(wù)。

UniPixel的技術(shù)原理

  • 統(tǒng)一框架設(shè)計(jì):UniPixel采用統(tǒng)一框架,將對(duì)象指代和分割能力整合到一個(gè)模型中,實(shí)現(xiàn)從粗粒度場(chǎng)景理解到細(xì)粒度像素推理的跨越,為復(fù)雜視覺(jué)推理提供基礎(chǔ)。
  • 對(duì)象記憶庫(kù):模型包含對(duì)象記憶庫(kù),存儲(chǔ)從指代任務(wù)中提取的對(duì)象特征,為后續(xù)的分割和推理任務(wù)提供上下文信息,增強(qiáng)模型在像素級(jí)任務(wù)上的性能。
  • 多階段訓(xùn)練策略:采用預(yù)訓(xùn)練、指代任務(wù)微調(diào)和分割任務(wù)微調(diào)的多階段訓(xùn)練策略,逐步提升模型在像素級(jí)任務(wù)上的性能,適應(yīng)不同任務(wù)需求。
  • 端到端掩碼生成:模型能根據(jù)語(yǔ)言描述直接生成像素級(jí)掩碼,實(shí)現(xiàn)語(yǔ)言與視覺(jué)的深度融合,支持多種細(xì)粒度任務(wù),如圖像/視頻分割和區(qū)域理解。
  • 靈活的視覺(jué)提示處理:能靈活處理視覺(jué)提示輸入,生成掩碼并進(jìn)行推理,支持單幀和多幀的視頻區(qū)域理解,以及基于掩碼的問(wèn)答任務(wù),適應(yīng)不同場(chǎng)景需求。
  • 強(qiáng)大的推理能力:在VideoRefer-Bench-Q問(wèn)答任務(wù)中,UniPixel-7B模型取得了74.1%的準(zhǔn)確率,超越了包括GPT-4o在內(nèi)的多個(gè)強(qiáng)大基準(zhǔn)模型,顯示出其在復(fù)雜視覺(jué)推理任務(wù)中的強(qiáng)大能力。
  • 模型權(quán)重與數(shù)據(jù)集提供:提供了UniPixel-3B和UniPixel-7B兩個(gè)版本的模型權(quán)重,以及23個(gè)指代/分割/QA數(shù)據(jù)集的原始圖像/視頻和預(yù)處理注釋,為研究和應(yīng)用提供豐富資源。
  • 訓(xùn)練與評(píng)估支持:代碼庫(kù)支持在23個(gè)數(shù)據(jù)集和基準(zhǔn)測(cè)試上進(jìn)行訓(xùn)練和評(píng)估,支持靈活的硬件設(shè)置、高效的訓(xùn)練技術(shù)、自定義基礎(chǔ)LLM和對(duì)話模板,以及通過(guò)Tensorboard/Wandb監(jiān)控訓(xùn)練過(guò)程,方便用戶使用和優(yōu)化。

UniPixel的項(xiàng)目地址

  • 項(xiàng)目官網(wǎng):http://polyu-chenlab.github.io/unipixel/
  • Github倉(cāng)庫(kù):http://github.com/PolyU-ChenLab/UniPixel
  • HuggingFace數(shù)據(jù):http://huggingface.co/datasets/PolyU-ChenLab/UniPixel-SFT-1M
  • arXiv技術(shù)論文:http://arxiv.org/pdf/2509.18094
  • 在線體驗(yàn)Demo:http://huggingface.co/spaces/PolyU-ChenLab/UniPixel

UniPixel的應(yīng)用場(chǎng)景

  • 圖像分割:UniPixel能根據(jù)語(yǔ)言描述生成圖像中特定對(duì)象的像素級(jí)掩碼,適用于需要精確圖像分割的場(chǎng)景,如醫(yī)學(xué)圖像分析、自動(dòng)駕駛中的目標(biāo)分割等。
  • 視頻分割:在視頻處理領(lǐng)域,UniPixel可以對(duì)視頻中的對(duì)象進(jìn)行實(shí)時(shí)分割,支持視頻編輯、視頻監(jiān)控和增強(qiáng)現(xiàn)實(shí)等應(yīng)用。
  • 區(qū)域理解:通過(guò)理解語(yǔ)言描述來(lái)識(shí)別和分割視頻中的特定區(qū)域,可用于視頻內(nèi)容分析、智能監(jiān)控系統(tǒng)和視頻會(huì)議中的背景分割等。
  • 問(wèn)答任務(wù):UniPixel支持PixelQA任務(wù),能夠根據(jù)語(yǔ)言描述和視覺(jué)信息回答問(wèn)題,適用于教育、智能客服和信息檢索等場(chǎng)景。
  • 多模態(tài)交互:在需要結(jié)合視覺(jué)和語(yǔ)言信息進(jìn)行交互的場(chǎng)景中,如智能助手、虛擬現(xiàn)實(shí)游戲開(kāi)發(fā)等,UniPixel能夠提供更自然和準(zhǔn)確的交互體驗(yàn)。
  • 智能監(jiān)控:在安防監(jiān)控領(lǐng)域,UniPixel可以實(shí)時(shí)識(shí)別和分割監(jiān)控視頻中的特定對(duì)象或區(qū)域,提高監(jiān)控系統(tǒng)的智能化水平。

以上就是UniPixel— 香港理工聯(lián)合騰訊推出的像素級(jí)多模態(tài)大模型的詳細(xì)內(nèi)容,更多請(qǐng)關(guān)注php中文網(wǎng)其它相關(guān)文章!

最佳 Windows 性能的頂級(jí)免費(fèi)優(yōu)化軟件
最佳 Windows 性能的頂級(jí)免費(fèi)優(yōu)化軟件

每個(gè)人都需要一臺(tái)速度更快、更穩(wěn)定的 PC。隨著時(shí)間的推移,垃圾文件、舊注冊(cè)表數(shù)據(jù)和不必要的后臺(tái)進(jìn)程會(huì)占用資源并降低性能。幸運(yùn)的是,許多工具可以讓 Windows 保持平穩(wěn)運(yùn)行。

下載
來(lái)源:php中文網(wǎng)
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請(qǐng)聯(lián)系admin@php.cn
最新問(wèn)題
開(kāi)源免費(fèi)商場(chǎng)系統(tǒng)廣告
最新下載
更多>
網(wǎng)站特效
網(wǎng)站源碼
網(wǎng)站素材
前端模板
關(guān)于我們 免責(zé)申明 意見(jiàn)反饋 講師合作 廣告合作 最新更新
php中文網(wǎng):公益在線php培訓(xùn),幫助PHP學(xué)習(xí)者快速成長(zhǎng)!
關(guān)注服務(wù)號(hào) 技術(shù)交流群
PHP中文網(wǎng)訂閱號(hào)
每天精選資源文章推送
PHP中文網(wǎng)APP
隨時(shí)隨地碎片化學(xué)習(xí)
PHP中文網(wǎng)抖音號(hào)
發(fā)現(xiàn)有趣的

Copyright 2014-2025 http://ipnx.cn/ All Rights Reserved | php.cn | 湘ICP備2023035733號(hào)