阿里7B多模態(tài)文件理解大模型拿下新SOTA
Apr 02, 2024 am 11:31 AM多模態(tài)文件理解能力新SOTA!
阿里mPLUG團(tuán)隊(duì)發(fā)布最新開(kāi)源工作mPLUG-DocOwl 1.5,針對(duì)高解析度圖片文字辨識(shí)、通用文件結(jié)構(gòu)理解、指令遵循、外部知識(shí)引入四大挑戰(zhàn),提出了一系列解決方案。
話不多說(shuō),先來(lái)看效果。
複雜結(jié)構(gòu)的圖表一鍵辨識(shí)轉(zhuǎn)換為Markdown格式:
#不同樣式的圖表都可以:
#更細(xì)節(jié)的文字辨識(shí)與定位也能輕鬆搞定:
#還能對(duì)文件理解給出詳細(xì)解釋?zhuān)?/p>
#要知道,「文檔理解」目前是大語(yǔ)言模型實(shí)現(xiàn)落地的一個(gè)重要場(chǎng)景,市面上有很多輔助文檔閱讀的產(chǎn)品,有的主要透過(guò)OCR系統(tǒng)進(jìn)行文字識(shí)別,配合LLM進(jìn)行文字理解可以達(dá)到不錯(cuò)的文件理解能力。
不過(guò),由於文件圖片類(lèi)別多元、文字豐富且排版複雜,難以實(shí)現(xiàn)圖表、資訊圖表、網(wǎng)頁(yè)等結(jié)構(gòu)複雜圖片的一般理解。
目前爆火的多模態(tài)大模型QwenVL-Max、Gemini, Claude3、GPT4V都具備很強(qiáng)的文檔圖片理解能力,然而開(kāi)源模型在這個(gè)方向上的進(jìn)展緩慢。
而阿里新研究mPLUG-DocOwl 1.5在10個(gè)文檔理解基準(zhǔn)上拿下SOTA,5個(gè)資料集上提升超過(guò)10個(gè)點(diǎn),部分資料集上超過(guò)智譜17.3B的CogAgent,在DocVQA上達(dá)到82.2的效果。
除了具備基準(zhǔn)上簡(jiǎn)單回答的能力,透過(guò)少量「詳細(xì)解釋」(reasoning)資料的微調(diào),DocOwl 1.5-Chat也能具備多模態(tài)文件領(lǐng)域詳細(xì)解釋的能力,具有很大的應(yīng)用潛力。
阿里mPLUG團(tuán)隊(duì)從2023年7月份開(kāi)始投入多模態(tài)文件理解的研究,陸續(xù)發(fā)布了mPLUG-DocOwl、 UReader、mPLUG-PaperOwl、mPLUG-DocOwl 1.5,開(kāi)源了一系列文件理解大模型和訓(xùn)練資料。
本文從最新工作mPLUG-DocOwl 1.5出發(fā),剖析「多模態(tài)文件理解」領(lǐng)域的關(guān)鍵挑戰(zhàn)和有效解決方案。
挑戰(zhàn)一:高解析度圖片文字辨識(shí)
區(qū)分於一般圖片,文件圖片的特點(diǎn)在於形狀大小多樣化,其可以包含A4大小的文件圖、短而寬的表格圖、長(zhǎng)而窄的手機(jī)網(wǎng)頁(yè)截圖以及隨手拍攝的場(chǎng)景圖等等,解析度的分佈十分廣泛。
主流的多模態(tài)大模型編碼圖片時(shí),往往直接縮放圖片的大小,例如mPLUG-Owl2和QwenVL縮放到448x448,LLaVA 1.5縮放到336x336。
簡(jiǎn)單的縮放文件圖片會(huì)導(dǎo)致圖片中的文字模糊形變從而不可辨認(rèn)。
為了處理文件圖片,mPLUG-DocOwl 1.5延續(xù)了其前序工作UReader的切圖做法,模型結(jié)構(gòu)如圖1所示:
#△圖1:DocOwl 1.5模型結(jié)構(gòu)圖
UReader最早提出在已有多模態(tài)大模型的基礎(chǔ)上,透過(guò)無(wú)參數(shù)的形狀適應(yīng)切圖模組(Shape -adaptive Cropping Module)得到一系列子圖,每張子圖透過(guò)低解析度編碼器進(jìn)行編碼,最後透過(guò)語(yǔ)言模型關(guān)聯(lián)子圖直接的語(yǔ)意。
此切圖策略可以最大程度利用已有通用視覺(jué)編碼器(例如CLIP ViT-14/L)的能力進(jìn)行文件理解,大幅減少重新訓(xùn)練高分辨率視覺(jué)編碼器的代價(jià)。形狀適應(yīng)的切圖模組如圖2所示:
△圖2:形狀適應(yīng)的切圖模塊。
挑戰(zhàn)二:通用文檔結(jié)構(gòu)理解
對(duì)于不依賴OCR系統(tǒng)的文檔理解來(lái)說(shuō),識(shí)別文字是基本能力,要實(shí)現(xiàn)文檔內(nèi)容的語(yǔ)義理解、結(jié)構(gòu)理解十分重要,例如理解表格內(nèi)容需要理解表頭和行列的對(duì)應(yīng)關(guān)系,理解圖表需要理解線圖、柱狀圖、餅圖等多樣化結(jié)構(gòu),理解合同需要理解日期署名等多樣化的鍵值對(duì)。
mPLUG-DocOwl 1.5著力于解決通用文檔等結(jié)構(gòu)理解能力,通過(guò)模型結(jié)構(gòu)的優(yōu)化和訓(xùn)練任務(wù)的增強(qiáng)實(shí)現(xiàn)了顯著更強(qiáng)的通用文檔理解能力。
結(jié)構(gòu)方面,如圖1所示,mPLUG-DocOwl 1.5放棄了mPLUG-Owl/mPLUG-Owl2中Abstractor的視覺(jué)語(yǔ)言連接模塊,采用基于“卷積 全連接層”的H-Reducer進(jìn)行特征聚合以及特征對(duì)齊。
相比于基于learnable queries的Abstractor,H-Reducer保留了視覺(jué)特征之間的相對(duì)位置關(guān)系,更好的將文檔結(jié)構(gòu)信息傳遞給語(yǔ)言模型。
相比于保留視覺(jué)序列長(zhǎng)度的MLP,H-Reducer通過(guò)卷積大幅縮減了視覺(jué)特征數(shù)量,使得LLM可以更高效地理解高分辨率文檔圖片。
考慮到大部分文檔圖片中文字優(yōu)先水平排布,水平方向的文字語(yǔ)義具有連貫性,H-Reducer中采用1x4的卷積形狀和步長(zhǎng)。論文中,作者通過(guò)充分的對(duì)比實(shí)驗(yàn)證明了H-Reducer在結(jié)構(gòu)理解方面的優(yōu)越性以及1x4是更通用的聚合形狀。
訓(xùn)練任務(wù)方面,mPLUG-DocOwl 1.5為所有類(lèi)型的圖片設(shè)計(jì)了統(tǒng)一結(jié)構(gòu)學(xué)習(xí)(Unified Structure Learning)任務(wù),如圖3所示。
△圖3:統(tǒng)一結(jié)構(gòu)學(xué)習(xí)
Unified Structure Learning既包括了全局的圖片文字解析,又包含了多粒度的文字識(shí)別和定位。
在全局圖片文字解析任務(wù)中,對(duì)于文檔圖片和網(wǎng)頁(yè)圖片,采用空格和換行的形式可以最通用地表示文字的結(jié)構(gòu);對(duì)于表格,作者在Markdown語(yǔ)法的基礎(chǔ)上引入表示多行多列的特殊字符,兼顧了表格表示的簡(jiǎn)潔性和通用性;對(duì)于圖表,考慮到圖表是表格數(shù)據(jù)的可視化呈現(xiàn),作者同樣采用Markdown形式的表格作為圖表的解析目標(biāo);對(duì)于自然圖,語(yǔ)義描述和場(chǎng)景文字同等重要,因此采用圖片描述拼接場(chǎng)景文字的形式作為解析目標(biāo)。
在“文字識(shí)別和定位”任務(wù)中,為了更貼合文檔圖片理解,作者設(shè)計(jì)了單詞、詞組、行、塊四種粒度的文字識(shí)別和定位,bounding box采用離散化的整數(shù)數(shù)字表示,范圍0-999。
為了支持統(tǒng)一的結(jié)構(gòu)學(xué)習(xí),作者構(gòu)建了一個(gè)全面的訓(xùn)練集DocStruct4M,涵蓋了文檔/網(wǎng)頁(yè)、表格、圖表、自然圖等不同類(lèi)型的圖片。
經(jīng)過(guò)統(tǒng)一結(jié)構(gòu)學(xué)習(xí),DocOwl 1.5具備多領(lǐng)域文檔圖片的結(jié)構(gòu)化解析和文字定位能力。
△圖4: 結(jié)構(gòu)化文字解析
如圖4和圖5所示:
△圖5: 多粒度文字識(shí)別和定位
挑戰(zhàn)三:指令遵循
“指令遵循”(Instruction Following)要求模型基于基礎(chǔ)的文檔理解能力,根據(jù)用戶的指令執(zhí)行不同的任務(wù),例如信息抽取、問(wèn)答、圖片描述等。
延續(xù)mPLUG-DocOwl的做法,DocOwl 1.5將多個(gè)下游任務(wù)統(tǒng)一為指令問(wèn)答的形式,在統(tǒng)一的結(jié)構(gòu)學(xué)習(xí)之后,通過(guò)多任務(wù)聯(lián)合訓(xùn)練的形式得到一個(gè)文檔領(lǐng)域的通用模型(generalist)。
此外,為了使得模型具備詳細(xì)解釋的能力,mPLUG-DocOwl曾嘗試引入純文本指令微調(diào)數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練,有一定效果但并不理想。
在DocOwl 1.5中,作者基于下游任務(wù)的問(wèn)題,通過(guò)GPT3.5以及GPT4V構(gòu)建了少量的詳細(xì)解釋數(shù)據(jù)(DocReason25K)。
透過(guò)聯(lián)合文件下游任務(wù)和DocReason25K進(jìn)行訓(xùn)練,DocOwl 1.5-Chat既可以在基準(zhǔn)上實(shí)現(xiàn)更優(yōu)的效果:
△圖6:文檔理解Benchmark評(píng)測(cè)
又能給予詳細(xì)的解釋?zhuān)?/p>
#△圖7:文件理解詳細(xì)解釋
挑戰(zhàn)四:外部知識(shí)引入
文件圖片由於資訊的豐富性,進(jìn)行理解的時(shí)候往往需要額外的知識(shí)引入,例如特殊領(lǐng)域的專(zhuān)業(yè)名詞及其意義等等。
為了研究如何引入外部知識(shí)進(jìn)行更好的文檔理解,mPLUG團(tuán)隊(duì)著手於論文領(lǐng)域提出了mPLUG-PaperOwl,構(gòu)建了一個(gè)高品質(zhì)論文圖表分析資料集M-Paper,涉及447k的高清論文圖表。
該資料中為論文中的圖表提供了上下文作為外部知識(shí)來(lái)源,並且設(shè)計(jì)了「要點(diǎn)」(outline)作為圖表分析的控制訊號(hào),幫助模型更好地掌握用戶的意圖。
基於UReader,作者在M-Paper上微調(diào)得到mPLUG-PaperOwl,展現(xiàn)了初步的論文圖表分析能力,如圖8所示。
△圖8:論文圖表分析
mPLUG-PaperOwl目前只是引入外部知識(shí)進(jìn)文檔理解的初步嘗試,仍然面臨著領(lǐng)域局限性、知識(shí)來(lái)源單一等問(wèn)題需要進(jìn)一步解決。
總的來(lái)說(shuō),本文從最近發(fā)布的7B最強(qiáng)多模態(tài)文檔理解大模型mPLUG-DocOwl 1.5出發(fā),總結(jié)了不依賴OCR的情況下,進(jìn)行多模態(tài)文檔理解的關(guān)鍵四個(gè)關(guān)鍵挑戰(zhàn)(“高解析度圖片文字識(shí)別”,“通用文件結(jié)構(gòu)理解”,“指令遵循”, “外部知識(shí)引入” )和阿里巴巴mPLUG團(tuán)隊(duì)給出的解決方案。
儘管mPLUG-DocOwl 1.5大幅提升了開(kāi)源模型的文檔理解表現(xiàn),其距離閉源大模型以及現(xiàn)實(shí)需求仍然有較大差距,在自然場(chǎng)景中文字識(shí)別、數(shù)學(xué)計(jì)算、通用型等方面仍然有進(jìn)步空間。
mPLUG團(tuán)隊(duì)會(huì)進(jìn)一步優(yōu)化DocOwl的效能並進(jìn)行開(kāi)源,歡迎大家持續(xù)關(guān)注和友好討論!
GitHub連結(jié):https://github.com/X-PLUG/mPLUG-DocOwl
論文連結(jié):https://arxiv.org/abs/2403.12895
以上是阿里7B多模態(tài)文件理解大模型拿下新SOTA的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

熱AI工具

Undress AI Tool
免費(fèi)脫衣圖片

Undresser.AI Undress
人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門(mén)文章

熱工具

記事本++7.3.1
好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強(qiáng)大的PHP整合開(kāi)發(fā)環(huán)境

Dreamweaver CS6
視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版
神級(jí)程式碼編輯軟體(SublimeText3)

用戶語(yǔ)音輸入通過(guò)前端JavaScript的MediaRecorderAPI捕獲並發(fā)送至PHP後端;2.PHP將音頻保存為臨時(shí)文件後調(diào)用STTAPI(如Google或百度語(yǔ)音識(shí)別)轉(zhuǎn)換為文本;3.PHP將文本發(fā)送至AI服務(wù)(如OpenAIGPT)獲取智能回復(fù);4.PHP再調(diào)用TTSAPI(如百度或Google語(yǔ)音合成)將回復(fù)轉(zhuǎn)為語(yǔ)音文件;5.PHP將語(yǔ)音文件流式返回前端播放,完成交互。整個(gè)流程由PHP主導(dǎo)數(shù)據(jù)流轉(zhuǎn)與錯(cuò)誤處理,確保各環(huán)節(jié)無(wú)縫銜接。

在PHP中搭建社交分享功能的核心方法是通過(guò)動(dòng)態(tài)生成符合各平臺(tái)要求的分享鏈接。 1.首先獲取當(dāng)前頁(yè)面或指定的URL及文章信息;2.使用urlencode對(duì)參數(shù)進(jìn)行編碼;3.根據(jù)各平臺(tái)協(xié)議拼接生成分享鏈接;4.在前端展示鏈接供用戶點(diǎn)擊分享;5.動(dòng)態(tài)生成頁(yè)面OG標(biāo)籤優(yōu)化分享內(nèi)容展示;6.務(wù)必對(duì)用戶輸入進(jìn)行轉(zhuǎn)義以防止XSS攻擊。該方法無(wú)需複雜認(rèn)證,維護(hù)成本低,適用於大多數(shù)內(nèi)容分享需求。

要實(shí)現(xiàn)PHP結(jié)合AI進(jìn)行文本糾錯(cuò)與語(yǔ)法優(yōu)化,需按以下步驟操作:1.選擇適合的AI模型或API,如百度、騰訊API或開(kāi)源NLP庫(kù);2.通過(guò)PHP的curl或Guzzle調(diào)用API並處理返回結(jié)果;3.在應(yīng)用中展示糾錯(cuò)信息並允許用戶選擇是否採(cǎi)納;4.使用php-l和PHP_CodeSniffer進(jìn)行語(yǔ)法檢測(cè)與代碼優(yōu)化;5.持續(xù)收集反饋並更新模型或規(guī)則以提升效果。選擇AIAPI時(shí)應(yīng)重點(diǎn)評(píng)估準(zhǔn)確率、響應(yīng)速度、價(jià)格及對(duì)PHP的支持。代碼優(yōu)化應(yīng)遵循PSR規(guī)範(fàn)、合理使用緩存、避免循環(huán)查詢、定期審查代碼,並藉助X

PHP不直接進(jìn)行AI圖像處理,而是通過(guò)API集成,因?yàn)樗瞄L(zhǎng)Web開(kāi)發(fā)而非計(jì)算密集型任務(wù),API集成能實(shí)現(xiàn)專(zhuān)業(yè)分工、降低成本、提升效率;2.整合關(guān)鍵技術(shù)包括使用Guzzle或cURL發(fā)送HTTP請(qǐng)求、JSON數(shù)據(jù)編解碼、API密鑰安全認(rèn)證、異步隊(duì)列處理耗時(shí)任務(wù)、健壯錯(cuò)誤處理與重試機(jī)制、圖像存儲(chǔ)與展示;3.常見(jiàn)挑戰(zhàn)有API成本失控、生成結(jié)果不可控、用戶體驗(yàn)差、安全風(fēng)險(xiǎn)和數(shù)據(jù)管理難,應(yīng)對(duì)策略分別為設(shè)置用戶配額與緩存、提供prompt指導(dǎo)與多圖選擇、異步通知與進(jìn)度提示、密鑰環(huán)境變量存儲(chǔ)與內(nèi)容審核、雲(yún)存

PHP通過(guò)數(shù)據(jù)庫(kù)事務(wù)與FORUPDATE行鎖確保庫(kù)存扣減原子性,防止高並發(fā)超賣(mài);2.多平臺(tái)庫(kù)存一致性需依賴中心化管理與事件驅(qū)動(dòng)同步,結(jié)合API/Webhook通知及消息隊(duì)列保障數(shù)據(jù)可靠傳遞;3.報(bào)警機(jī)制應(yīng)分場(chǎng)景設(shè)置低庫(kù)存、零/負(fù)庫(kù)存、滯銷(xiāo)、補(bǔ)貨週期和異常波動(dòng)策略,並按緊急程度選擇釘釘、短信或郵件通知責(zé)任人,且報(bào)警信息需完整明確,以實(shí)現(xiàn)業(yè)務(wù)適配與快速響應(yīng)。

選擇合適AI語(yǔ)音識(shí)別服務(wù)並集成PHPSDK;2.用PHP調(diào)用ffmpeg將錄音轉(zhuǎn)為API要求格式(如wav);3.上傳文件至雲(yún)存儲(chǔ)並調(diào)用API異步識(shí)別;4.解析JSON結(jié)果並用NLP技術(shù)整理文本;5.生成Word或Markdown文檔完成會(huì)議記錄自動(dòng)化,全過(guò)程需確保數(shù)據(jù)加密、訪問(wèn)控制與合規(guī)性以保障隱私安全。

選擇AI寫(xiě)作API需考察穩(wěn)定性、價(jià)格、功能匹配度及是否有免費(fèi)試用;2.PHP用Guzzle發(fā)送POST請(qǐng)求並用json_decode處理返回的JSON數(shù)據(jù),注意捕獲異常和錯(cuò)誤碼;3.將AI內(nèi)容融入項(xiàng)目需建立審核機(jī)制並支持個(gè)性化定制;4.優(yōu)化性能可採(cǎi)用緩存、異步隊(duì)列和限流技術(shù),避免高並發(fā)下瓶頸。

PHP在智能客服中扮演連接器和大腦中樞角色,負(fù)責(zé)串聯(lián)前端輸入、數(shù)據(jù)庫(kù)存儲(chǔ)與外部AI服務(wù);2.實(shí)現(xiàn)時(shí)需構(gòu)建多層架構(gòu):前端接收用戶消息,PHP後端預(yù)處理並路由請(qǐng)求,先匹配本地知識(shí)庫(kù),未命中則調(diào)用外部AI服務(wù)如OpenAI或Dialogflow獲取智能回復(fù);3.會(huì)話管理由PHP寫(xiě)入MySQL等數(shù)據(jù)庫(kù),保障上下文連續(xù)性;4.集成AI服務(wù)需用Guzzle發(fā)送HTTP請(qǐng)求,安全存儲(chǔ)APIKey,做好錯(cuò)誤處理與響應(yīng)解析;5.數(shù)據(jù)庫(kù)設(shè)計(jì)需包含會(huì)話、消息、知識(shí)庫(kù)、用戶表,合理建索引、保障安全與性能,支撐機(jī)器人記憶
