亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

首頁 硬體教學 硬體測評 輕鬆拿捏 4K 高畫質影像理解!這個多模態(tài)大模型自動分析網頁海報內容,打工人簡直不要太方便

輕鬆拿捏 4K 高畫質影像理解!這個多模態(tài)大模型自動分析網頁海報內容,打工人簡直不要太方便

Apr 23, 2024 am 08:04 AM
git composer 解析度 效果 雷達 美圖 香港中文大學 lab

一個可以自動分析 PDF、網頁、海報、Excel 圖表內容的大模型,對於打工人來說簡直不要太方便。

上海 AI Lab,香港中文大學等研究機構提出的 InternLM-XComposer2-4KHD(簡寫為 IXC2-4KHD)模型讓這成為了現(xiàn)實。

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網頁海報內容,打工人簡直不要太方便

相比於其他多模態(tài)大模型不超過1500x1500 的分辨率限制,該工作將多模態(tài)大模型的最大輸入圖像提升到超過4K (3840 x1600)分辨率,並支援任意長寬比和336 像素~4K 動態(tài)分辨率變化。

發(fā)布三天,模型就登頂 Hugging Face 視覺問答模型熱度排行榜第一。

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網頁海報內容,打工人簡直不要太方便

輕鬆拿捏4K 影像理解

先來看效果~

研究人員輸入論文(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)的首頁截圖(解析度為2550x3300),並詢問論文哪個模型在MMBench 上的表現(xiàn)最高。

要注意的是,該資訊在輸入截圖的正文文字部分並未提及,僅出現(xiàn)在一個相當複雜的雷達圖中。面對這麼刁鑽的問題,IXC2-4KHD 成功理解了雷達圖中的訊息,正確回答問題。

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網頁海報內容,打工人簡直不要太方便

面對更極端解析度的影像輸入(816 x 5133),IXC2-4KHD 輕鬆理解影像包括7 個部分,並準確說明了每個部分包含的文字訊息內容。

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網頁海報內容,打工人簡直不要太方便

隨後,研究人員也在16 個多模態(tài)大模式評測指標上全面測試了IXC2-4KHD 的能力,其中5 項評測(DocVQA、ChartQA、InfographicVQA 、TextVQA、OCRBench)著重模型的高解析度影像理解能力。

僅使用7B 參數量,IXC2-4KHD 在其中10 項評測取得了媲美甚至超越GPT4V 和Gemini Pro 的結果,展現(xiàn)了不局限於高分辨率圖像理解,而是對各種任務和場景的泛用能力。

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網頁海報內容,打工人簡直不要太方便

△僅 7B 參數量的 IXC2-4KHD 效能媲美 GPT-4V 和 Gemini-Pro 如何實現(xiàn) 4K 動態(tài)解析度?

為了實現(xiàn)4K 動態(tài)解析度的目標,IXC2-4KHD 包含了三個主要設計:

(1)動態(tài)解析度訓練:

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網頁海報內容,打工人簡直不要太方便

△4K 解析度影像處理策略

在IXC2-4KHD 的框架中,輸入影像在保持長寬比的情況下,隨機放大到介於輸入面積和最大面積(不超過55x336x336,等價於3840 x1617 解析度)的一個中間尺寸。

隨後,將影像自動切塊成多個 336x336 的區(qū)域,分別抽取視覺特徵。這種動態(tài)解析度的訓練策略可以讓模型適應任意解析度的視覺輸入,同時也彌補了高解析度訓練資料不足的問題。

實驗表明,隨著動態(tài)解析度上限的增加,模型在高解析度影像理解任務(InfographicVQA、DocVQA、TextVQA)上實現(xiàn)了穩(wěn)定的效能提升,並且在4K 解析度仍然未達到上界,展現(xiàn)了更高解析度進一步擴展的潛力。

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網頁海報內容,打工人簡直不要太方便

(2)加入切塊佈局資訊:

為了讓模型能夠適應變化豐富的動態(tài)分辨率,研究人員發(fā)現(xiàn)需要將切塊佈局資訊作為額外的輸入。為了實現(xiàn)這個目的,研究人員採取了一個簡單的策略:一個特殊的『換行』(’ n ’)令牌被插入到每一行的切塊之後,用於告知模型切塊的佈局。實驗表明,添加切塊佈局信息,對於變化幅度比較小的動態(tài)分辨率訓練(HD9 代表切塊區(qū)域個數不超過9)影響不大,而對於動態(tài)4K 分辨率訓練則可以帶來顯著的性能提升。

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網頁海報內容,打工人簡直不要太方便

(3)推理階段擴展解析度

研究人員也發(fā)現(xiàn),使用動態(tài)解析度的模型,可以在推理階段透過增加最大切塊上限直接擴展分辨率,並帶來額外的性能增益。例如將 HD9(最多 9 個)的訓練模型直接使用 HD16 進行測試,可以在 InfographicVQA 上觀察到高達 8% 的效能提升。

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網頁海報內容,打工人簡直不要太方便

IXC2-4KHD 將多模態(tài)大模型支援的分辨率提升到了4K 的水平,研究人員表示目前這種透過增加切塊個數來支持更大圖像輸入的策略遇到了計算代價和顯存的瓶頸,因此他們計劃提出更有效率的策略在未來實現(xiàn)更高解析度的支援。

論文連結:

https://arxiv.org/pdf/2404.06512.pdf

專案連結:

##https://github.com /InternLM/InternLM-XComposer

— 完—

投稿請寄電子郵件到:

ai@qbitai.com

##標題註明,告訴我們:

你是誰,從哪裡來,投稿內容

附上論文/ 專案主頁鏈接,以及聯(lián)絡方式哦

我們會(盡量)及時回覆你

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網頁海報內容,打工人簡直不要太方便 點這裡追蹤我,記得標星哦~

一鍵三連「分享」、「按讚」和「在看」

科技前沿進展日日相見~

#

以上是輕鬆拿捏 4K 高畫質影像理解!這個多模態(tài)大模型自動分析網頁海報內容,打工人簡直不要太方便的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發(fā)現(xiàn)涉嫌抄襲或侵權的內容,請聯(lián)絡admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程
1597
29
PHP教程
1488
72
PHP調用AI智能語音助手 PHP語音交互系統(tǒng)搭建 PHP調用AI智能語音助手 PHP語音交互系統(tǒng)搭建 Jul 25, 2025 pm 08:45 PM

用戶語音輸入通過前端JavaScript的MediaRecorderAPI捕獲並發(fā)送至PHP後端;2.PHP將音頻保存為臨時文件後調用STTAPI(如Google或百度語音識別)轉換為文本;3.PHP將文本發(fā)送至AI服務(如OpenAIGPT)獲取智能回復;4.PHP再調用TTSAPI(如百度或Google語音合成)將回復轉為語音文件;5.PHP將語音文件流式返回前端播放,完成交互。整個流程由PHP主導數據流轉與錯誤處理,確保各環(huán)節(jié)無縫銜接。

PHP集成AI智能圖片識別 PHP視覺內容自動標籤化 PHP集成AI智能圖片識別 PHP視覺內容自動標籤化 Jul 25, 2025 pm 05:42 PM

將AI視覺理解能力融入PHP應用的核心思路是利用第三方AI視覺服務API,PHP負責上傳圖片、發(fā)送請求、接收并解析JSON結果,將標簽存入數據庫;2.圖片自動標簽化能顯著提升效率、增強內容可搜索性、優(yōu)化管理和推薦,使視覺內容從“死數據”變?yōu)椤盎顢祿保?.選擇AI服務需根據功能匹配度、準確率、成本、易用性、地域延遲和數據合規(guī)性綜合判斷,推薦從GoogleCloudVision等通用服務起步;4.常見挑戰(zhàn)包括網絡超時、密鑰安全、錯誤處理、圖片格式限制、成本控制、異步處理需求及AI識別準確率問題,需

如何用PHP結合AI做圖像生成 PHP自動生成藝術作品 如何用PHP結合AI做圖像生成 PHP自動生成藝術作品 Jul 25, 2025 pm 07:21 PM

PHP不直接進行AI圖像處理,而是通過API集成,因為它擅長Web開發(fā)而非計算密集型任務,API集成能實現(xiàn)專業(yè)分工、降低成本、提升效率;2.整合關鍵技術包括使用Guzzle或cURL發(fā)送HTTP請求、JSON數據編解碼、API密鑰安全認證、異步隊列處理耗時任務、健壯錯誤處理與重試機制、圖像存儲與展示;3.常見挑戰(zhàn)有API成本失控、生成結果不可控、用戶體驗差、安全風險和數據管理難,應對策略分別為設置用戶配額與緩存、提供prompt指導與多圖選擇、異步通知與進度提示、密鑰環(huán)境變量存儲與內容審核、雲存

什麼是Useless Coin(USELESS幣)? USELESS幣用途、突出特點及未來增長潛力概述 什麼是Useless Coin(USELESS幣)? USELESS幣用途、突出特點及未來增長潛力概述 Jul 24, 2025 pm 11:54 PM

目錄關鍵要點什麼是UselessCoin:概述和主要特徵USELESS的主要特點UselessCoin(USELESS)未來價格展望:2025年及以後什麼影響UselessCoin的價格?未來價格前景UselessCoin(USELESS)的核心功能及其重要性UselessCoin(USELESS)如何運作以及它帶來的好處UselessCoin的工作原理主要優(yōu)點關於USELESSCoin的公司本組織的伙伴關係他們如何協(xié)同工

成品python大片在線觀看入口 python免費成品網站大全 成品python大片在線觀看入口 python免費成品網站大全 Jul 23, 2025 pm 12:36 PM

本文為您精選了多個頂級的Python“成品”項目網站與高水平“大片”級學習資源入口。無論您是想尋找開發(fā)靈感、觀摩學習大師級的源代碼,還是系統(tǒng)性地提昇實戰(zhàn)能力,這些平臺都是不容錯過的寶庫,能幫助您快速成長為Python高手。

如何在PHP環(huán)境中設置環(huán)境變量 PHP運行環(huán)境變量添加說明 如何在PHP環(huán)境中設置環(huán)境變量 PHP運行環(huán)境變量添加說明 Jul 25, 2025 pm 08:33 PM

PHP設置環(huán)境變量主要有三種方式:1.通過php.ini全局配置;2.通過Web服務器(如Apache的SetEnv或Nginx的fastcgi_param)傳遞;3.在PHP腳本中使用putenv()函數。其中,php.ini適用於全局且不常變的配置,Web服務器配置適用於需要隔離的場景,putenv()適用於臨時性的變量。持久化策略包括配置文件(如php.ini或Web服務器配置)、.env文件配合dotenv庫加載、CI/CD流程中動態(tài)注入變量。安全管理敏感信息應避免硬編碼,推薦使用.en

Solana夏季:開發(fā)者活動、迷因幣與下一波熱潮 Solana夏季:開發(fā)者活動、迷因幣與下一波熱潮 Jul 25, 2025 am 07:54 AM

Solana的強勢復甦:開發(fā)者活躍激增與迷因幣狂歡驅動,能否持久?趨勢深度解讀Solana捲土重來了!在經歷一段沉寂後,該公鏈再度煥發(fā)活力,幣價持續(xù)走高,開發(fā)社區(qū)也愈發(fā)熱鬧。但這波反彈的真正動力來自哪裡?是否只是曇花一現(xiàn)?我們來深入拆解Solana當前的幾大核心動向:開發(fā)者生態(tài)、迷因幣狂熱以及整體生態(tài)擴張。幣價飆升背後:真實開發(fā)活動回暖最近,SOL價格自六月以來首次重返200美元上方,引發(fā)市場熱議。這並非空穴來風——根據Santiment數據顯示,其開發(fā)者提交代碼頻率達到近兩個月新高。這

如何用Mac搭建PHP Nginx環(huán)境 MacOS配置Nginx與PHP服務組合 如何用Mac搭建PHP Nginx環(huán)境 MacOS配置Nginx與PHP服務組合 Jul 25, 2025 pm 08:24 PM

Homebrew在Mac環(huán)境搭建中的核心作用是簡化軟件安裝與管理。 1.Homebrew自動處理依賴關係,將復雜的編譯安裝流程封裝為簡單命令;2.提供統(tǒng)一的軟件包生態(tài),確保軟件安裝位置與配置標準化;3.集成服務管理功能,通過brewservices可便捷啟動、停止服務;4.便於軟件升級與維護,提升系統(tǒng)安全性與功能性。

See all articles