亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目錄
挑戰(zhàn)一:高解析度圖片文字辨識(shí)
#△圖1:DocOwl 1.5模型結(jié)構(gòu)圖
△圖2:形狀適應(yīng)的切圖模塊。
挑戰(zhàn)二:通用文檔結(jié)構(gòu)理解
挑戰(zhàn)三:指令遵循
挑戰(zhàn)四:外部知識(shí)引入
首頁(yè) 科技週邊 人工智慧 阿里7B多模態(tài)文件理解大模型拿下新SOTA

阿里7B多模態(tài)文件理解大模型拿下新SOTA

Apr 02, 2024 am 11:31 AM
ai 數(shù)據(jù) 開(kāi)源 鍵值對(duì)

多模態(tài)文件理解能力新SOTA!

阿里mPLUG團(tuán)隊(duì)發(fā)布最新開(kāi)源工作mPLUG-DocOwl 1.5,針對(duì)高解析度圖片文字辨識(shí)、通用文件結(jié)構(gòu)理解、指令遵循、外部知識(shí)引入四大挑戰(zhàn),提出了一系列解決方案。

話不多說(shuō),先來(lái)看效果。

複雜結(jié)構(gòu)的圖表一鍵辨識(shí)轉(zhuǎn)換為Markdown格式:

阿里7B多模態(tài)文件理解大模型拿下新SOTA

#不同樣式的圖表都可以:

阿里7B多模態(tài)文件理解大模型拿下新SOTA

#更細(xì)節(jié)的文字辨識(shí)與定位也能輕鬆搞定:

阿里7B多模態(tài)文件理解大模型拿下新SOTA

#還能對(duì)文件理解給出詳細(xì)解釋?zhuān)?/p>

阿里7B多模態(tài)文件理解大模型拿下新SOTA

#要知道,「文檔理解」目前是大語(yǔ)言模型實(shí)現(xiàn)落地的一個(gè)重要場(chǎng)景,市面上有很多輔助文檔閱讀的產(chǎn)品,有的主要透過(guò)OCR系統(tǒng)進(jìn)行文字識(shí)別,配合LLM進(jìn)行文字理解可以達(dá)到不錯(cuò)的文件理解能力。

不過(guò),由於文件圖片類(lèi)別多元、文字豐富且排版複雜,難以實(shí)現(xiàn)圖表、資訊圖表、網(wǎng)頁(yè)等結(jié)構(gòu)複雜圖片的一般理解。

目前爆火的多模態(tài)大模型QwenVL-Max、Gemini, Claude3、GPT4V都具備很強(qiáng)的文檔圖片理解能力,然而開(kāi)源模型在這個(gè)方向上的進(jìn)展緩慢。

而阿里新研究mPLUG-DocOwl 1.5在10個(gè)文檔理解基準(zhǔn)上拿下SOTA,5個(gè)資料集上提升超過(guò)10個(gè)點(diǎn),部分資料集上超過(guò)智譜17.3B的CogAgent,在DocVQA上達(dá)到82.2的效果。

阿里7B多模態(tài)文件理解大模型拿下新SOTA

除了具備基準(zhǔn)上簡(jiǎn)單回答的能力,透過(guò)少量「詳細(xì)解釋」(reasoning)資料的微調(diào),DocOwl 1.5-Chat也能具備多模態(tài)文件領(lǐng)域詳細(xì)解釋的能力,具有很大的應(yīng)用潛力。

阿里mPLUG團(tuán)隊(duì)從2023年7月份開(kāi)始投入多模態(tài)文件理解的研究,陸續(xù)發(fā)布了mPLUG-DocOwl、 UReader、mPLUG-PaperOwl、mPLUG-DocOwl 1.5,開(kāi)源了一系列文件理解大模型和訓(xùn)練資料。

本文從最新工作mPLUG-DocOwl 1.5出發(fā),剖析「多模態(tài)文件理解」領(lǐng)域的關(guān)鍵挑戰(zhàn)和有效解決方案。

挑戰(zhàn)一:高解析度圖片文字辨識(shí)

區(qū)分於一般圖片,文件圖片的特點(diǎn)在於形狀大小多樣化,其可以包含A4大小的文件圖、短而寬的表格圖、長(zhǎng)而窄的手機(jī)網(wǎng)頁(yè)截圖以及隨手拍攝的場(chǎng)景圖等等,解析度的分佈十分廣泛。

主流的多模態(tài)大模型編碼圖片時(shí),往往直接縮放圖片的大小,例如mPLUG-Owl2和QwenVL縮放到448x448,LLaVA 1.5縮放到336x336。

簡(jiǎn)單的縮放文件圖片會(huì)導(dǎo)致圖片中的文字模糊形變從而不可辨認(rèn)。

為了處理文件圖片,mPLUG-DocOwl 1.5延續(xù)了其前序工作UReader的切圖做法,模型結(jié)構(gòu)如圖1所示:

阿里7B多模態(tài)文件理解大模型拿下新SOTA

#△圖1:DocOwl 1.5模型結(jié)構(gòu)圖

UReader最早提出在已有多模態(tài)大模型的基礎(chǔ)上,透過(guò)無(wú)參數(shù)的形狀適應(yīng)切圖模組(Shape -adaptive Cropping Module)得到一系列子圖,每張子圖透過(guò)低解析度編碼器進(jìn)行編碼,最後透過(guò)語(yǔ)言模型關(guān)聯(lián)子圖直接的語(yǔ)意。

此切圖策略可以最大程度利用已有通用視覺(jué)編碼器(例如CLIP ViT-14/L)的能力進(jìn)行文件理解,大幅減少重新訓(xùn)練高分辨率視覺(jué)編碼器的代價(jià)。形狀適應(yīng)的切圖模組如圖2所示:

阿里7B多模態(tài)文件理解大模型拿下新SOTA
△圖2:形狀適應(yīng)的切圖模塊。

挑戰(zhàn)二:通用文檔結(jié)構(gòu)理解

對(duì)于不依賴OCR系統(tǒng)的文檔理解來(lái)說(shuō),識(shí)別文字是基本能力,要實(shí)現(xiàn)文檔內(nèi)容的語(yǔ)義理解、結(jié)構(gòu)理解十分重要,例如理解表格內(nèi)容需要理解表頭和行列的對(duì)應(yīng)關(guān)系,理解圖表需要理解線圖、柱狀圖、餅圖等多樣化結(jié)構(gòu),理解合同需要理解日期署名等多樣化的鍵值對(duì)。

mPLUG-DocOwl 1.5著力于解決通用文檔等結(jié)構(gòu)理解能力,通過(guò)模型結(jié)構(gòu)的優(yōu)化和訓(xùn)練任務(wù)的增強(qiáng)實(shí)現(xiàn)了顯著更強(qiáng)的通用文檔理解能力。

結(jié)構(gòu)方面,如圖1所示,mPLUG-DocOwl 1.5放棄了mPLUG-Owl/mPLUG-Owl2中Abstractor的視覺(jué)語(yǔ)言連接模塊,采用基于“卷積 全連接層”的H-Reducer進(jìn)行特征聚合以及特征對(duì)齊。

相比于基于learnable queries的Abstractor,H-Reducer保留了視覺(jué)特征之間的相對(duì)位置關(guān)系,更好的將文檔結(jié)構(gòu)信息傳遞給語(yǔ)言模型。

相比于保留視覺(jué)序列長(zhǎng)度的MLP,H-Reducer通過(guò)卷積大幅縮減了視覺(jué)特征數(shù)量,使得LLM可以更高效地理解高分辨率文檔圖片。

考慮到大部分文檔圖片中文字優(yōu)先水平排布,水平方向的文字語(yǔ)義具有連貫性,H-Reducer中采用1x4的卷積形狀和步長(zhǎng)。論文中,作者通過(guò)充分的對(duì)比實(shí)驗(yàn)證明了H-Reducer在結(jié)構(gòu)理解方面的優(yōu)越性以及1x4是更通用的聚合形狀。

訓(xùn)練任務(wù)方面,mPLUG-DocOwl 1.5為所有類(lèi)型的圖片設(shè)計(jì)了統(tǒng)一結(jié)構(gòu)學(xué)習(xí)(Unified Structure Learning)任務(wù),如圖3所示。

阿里7B多模態(tài)文件理解大模型拿下新SOTA

△圖3:統(tǒng)一結(jié)構(gòu)學(xué)習(xí)

Unified Structure Learning既包括了全局的圖片文字解析,又包含了多粒度的文字識(shí)別和定位。

在全局圖片文字解析任務(wù)中,對(duì)于文檔圖片和網(wǎng)頁(yè)圖片,采用空格和換行的形式可以最通用地表示文字的結(jié)構(gòu);對(duì)于表格,作者在Markdown語(yǔ)法的基礎(chǔ)上引入表示多行多列的特殊字符,兼顧了表格表示的簡(jiǎn)潔性和通用性;對(duì)于圖表,考慮到圖表是表格數(shù)據(jù)的可視化呈現(xiàn),作者同樣采用Markdown形式的表格作為圖表的解析目標(biāo);對(duì)于自然圖,語(yǔ)義描述和場(chǎng)景文字同等重要,因此采用圖片描述拼接場(chǎng)景文字的形式作為解析目標(biāo)。

在“文字識(shí)別和定位”任務(wù)中,為了更貼合文檔圖片理解,作者設(shè)計(jì)了單詞、詞組、行、塊四種粒度的文字識(shí)別和定位,bounding box采用離散化的整數(shù)數(shù)字表示,范圍0-999。

為了支持統(tǒng)一的結(jié)構(gòu)學(xué)習(xí),作者構(gòu)建了一個(gè)全面的訓(xùn)練集DocStruct4M,涵蓋了文檔/網(wǎng)頁(yè)、表格、圖表、自然圖等不同類(lèi)型的圖片。

經(jīng)過(guò)統(tǒng)一結(jié)構(gòu)學(xué)習(xí),DocOwl 1.5具備多領(lǐng)域文檔圖片的結(jié)構(gòu)化解析和文字定位能力。

阿里7B多模態(tài)文件理解大模型拿下新SOTA

阿里7B多模態(tài)文件理解大模型拿下新SOTA

△圖4: 結(jié)構(gòu)化文字解析

如圖4和圖5所示:

阿里7B多模態(tài)文件理解大模型拿下新SOTA

△圖5: 多粒度文字識(shí)別和定位

挑戰(zhàn)三:指令遵循

“指令遵循”(Instruction Following)要求模型基于基礎(chǔ)的文檔理解能力,根據(jù)用戶的指令執(zhí)行不同的任務(wù),例如信息抽取、問(wèn)答、圖片描述等。

延續(xù)mPLUG-DocOwl的做法,DocOwl 1.5將多個(gè)下游任務(wù)統(tǒng)一為指令問(wèn)答的形式,在統(tǒng)一的結(jié)構(gòu)學(xué)習(xí)之后,通過(guò)多任務(wù)聯(lián)合訓(xùn)練的形式得到一個(gè)文檔領(lǐng)域的通用模型(generalist)。

此外,為了使得模型具備詳細(xì)解釋的能力,mPLUG-DocOwl曾嘗試引入純文本指令微調(diào)數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練,有一定效果但并不理想。

在DocOwl 1.5中,作者基于下游任務(wù)的問(wèn)題,通過(guò)GPT3.5以及GPT4V構(gòu)建了少量的詳細(xì)解釋數(shù)據(jù)(DocReason25K)。

透過(guò)聯(lián)合文件下游任務(wù)和DocReason25K進(jìn)行訓(xùn)練,DocOwl 1.5-Chat既可以在基準(zhǔn)上實(shí)現(xiàn)更優(yōu)的效果:

阿里7B多模態(tài)文件理解大模型拿下新SOTA

△圖6:文檔理解Benchmark評(píng)測(cè)

又能給予詳細(xì)的解釋?zhuān)?/p>

阿里7B多模態(tài)文件理解大模型拿下新SOTA

#△圖7:文件理解詳細(xì)解釋

挑戰(zhàn)四:外部知識(shí)引入

文件圖片由於資訊的豐富性,進(jìn)行理解的時(shí)候往往需要額外的知識(shí)引入,例如特殊領(lǐng)域的專(zhuān)業(yè)名詞及其意義等等。

為了研究如何引入外部知識(shí)進(jìn)行更好的文檔理解,mPLUG團(tuán)隊(duì)著手於論文領(lǐng)域提出了mPLUG-PaperOwl,構(gòu)建了一個(gè)高品質(zhì)論文圖表分析資料集M-Paper,涉及447k的高清論文圖表。

該資料中為論文中的圖表提供了上下文作為外部知識(shí)來(lái)源,並且設(shè)計(jì)了「要點(diǎn)」(outline)作為圖表分析的控制訊號(hào),幫助模型更好地掌握用戶的意圖。

基於UReader,作者在M-Paper上微調(diào)得到mPLUG-PaperOwl,展現(xiàn)了初步的論文圖表分析能力,如圖8所示。

阿里7B多模態(tài)文件理解大模型拿下新SOTA

△圖8:論文圖表分析

mPLUG-PaperOwl目前只是引入外部知識(shí)進(jìn)文檔理解的初步嘗試,仍然面臨著領(lǐng)域局限性、知識(shí)來(lái)源單一等問(wèn)題需要進(jìn)一步解決。

總的來(lái)說(shuō),本文從最近發(fā)布的7B最強(qiáng)多模態(tài)文檔理解大模型mPLUG-DocOwl 1.5出發(fā),總結(jié)了不依賴OCR的情況下,進(jìn)行多模態(tài)文檔理解的關(guān)鍵四個(gè)關(guān)鍵挑戰(zhàn)(“高解析度圖片文字識(shí)別”,“通用文件結(jié)構(gòu)理解”,“指令遵循”, “外部知識(shí)引入” )和阿里巴巴mPLUG團(tuán)隊(duì)給出的解決方案。

儘管mPLUG-DocOwl 1.5大幅提升了開(kāi)源模型的文檔理解表現(xiàn),其距離閉源大模型以及現(xiàn)實(shí)需求仍然有較大差距,在自然場(chǎng)景中文字識(shí)別、數(shù)學(xué)計(jì)算、通用型等方面仍然有進(jìn)步空間。

mPLUG團(tuán)隊(duì)會(huì)進(jìn)一步優(yōu)化DocOwl的效能並進(jìn)行開(kāi)源,歡迎大家持續(xù)關(guān)注和友好討論!

GitHub連結(jié):https://github.com/X-PLUG/mPLUG-DocOwl
論文連結(jié):https://arxiv.org/abs/2403.12895

以上是阿里7B多模態(tài)文件理解大模型拿下新SOTA的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門(mén)話題

Laravel 教程
1597
29
PHP教程
1488
72
PHP調(diào)用AI智能語(yǔ)音助手 PHP語(yǔ)音交互系統(tǒng)搭建 PHP調(diào)用AI智能語(yǔ)音助手 PHP語(yǔ)音交互系統(tǒng)搭建 Jul 25, 2025 pm 08:45 PM

用戶語(yǔ)音輸入通過(guò)前端JavaScript的MediaRecorderAPI捕獲並發(fā)送至PHP後端;2.PHP將音頻保存為臨時(shí)文件後調(diào)用STTAPI(如Google或百度語(yǔ)音識(shí)別)轉(zhuǎn)換為文本;3.PHP將文本發(fā)送至AI服務(wù)(如OpenAIGPT)獲取智能回復(fù);4.PHP再調(diào)用TTSAPI(如百度或Google語(yǔ)音合成)將回復(fù)轉(zhuǎn)為語(yǔ)音文件;5.PHP將語(yǔ)音文件流式返回前端播放,完成交互。整個(gè)流程由PHP主導(dǎo)數(shù)據(jù)流轉(zhuǎn)與錯(cuò)誤處理,確保各環(huán)節(jié)無(wú)縫銜接。

如何用PHP搭建社交分享功能 PHP分享接口集成實(shí)戰(zhàn) 如何用PHP搭建社交分享功能 PHP分享接口集成實(shí)戰(zhàn) Jul 25, 2025 pm 08:51 PM

在PHP中搭建社交分享功能的核心方法是通過(guò)動(dòng)態(tài)生成符合各平臺(tái)要求的分享鏈接。 1.首先獲取當(dāng)前頁(yè)面或指定的URL及文章信息;2.使用urlencode對(duì)參數(shù)進(jìn)行編碼;3.根據(jù)各平臺(tái)協(xié)議拼接生成分享鏈接;4.在前端展示鏈接供用戶點(diǎn)擊分享;5.動(dòng)態(tài)生成頁(yè)面OG標(biāo)籤優(yōu)化分享內(nèi)容展示;6.務(wù)必對(duì)用戶輸入進(jìn)行轉(zhuǎn)義以防止XSS攻擊。該方法無(wú)需複雜認(rèn)證,維護(hù)成本低,適用於大多數(shù)內(nèi)容分享需求。

如何用PHP結(jié)合AI實(shí)現(xiàn)文本糾錯(cuò) PHP語(yǔ)法檢測(cè)與優(yōu)化 如何用PHP結(jié)合AI實(shí)現(xiàn)文本糾錯(cuò) PHP語(yǔ)法檢測(cè)與優(yōu)化 Jul 25, 2025 pm 08:57 PM

要實(shí)現(xiàn)PHP結(jié)合AI進(jìn)行文本糾錯(cuò)與語(yǔ)法優(yōu)化,需按以下步驟操作:1.選擇適合的AI模型或API,如百度、騰訊API或開(kāi)源NLP庫(kù);2.通過(guò)PHP的curl或Guzzle調(diào)用API並處理返回結(jié)果;3.在應(yīng)用中展示糾錯(cuò)信息並允許用戶選擇是否採(cǎi)納;4.使用php-l和PHP_CodeSniffer進(jìn)行語(yǔ)法檢測(cè)與代碼優(yōu)化;5.持續(xù)收集反饋並更新模型或規(guī)則以提升效果。選擇AIAPI時(shí)應(yīng)重點(diǎn)評(píng)估準(zhǔn)確率、響應(yīng)速度、價(jià)格及對(duì)PHP的支持。代碼優(yōu)化應(yīng)遵循PSR規(guī)範(fàn)、合理使用緩存、避免循環(huán)查詢、定期審查代碼,並藉助X

如何用PHP結(jié)合AI做圖像生成 PHP自動(dòng)生成藝術(shù)作品 如何用PHP結(jié)合AI做圖像生成 PHP自動(dòng)生成藝術(shù)作品 Jul 25, 2025 pm 07:21 PM

PHP不直接進(jìn)行AI圖像處理,而是通過(guò)API集成,因?yàn)樗瞄L(zhǎng)Web開(kāi)發(fā)而非計(jì)算密集型任務(wù),API集成能實(shí)現(xiàn)專(zhuān)業(yè)分工、降低成本、提升效率;2.整合關(guān)鍵技術(shù)包括使用Guzzle或cURL發(fā)送HTTP請(qǐng)求、JSON數(shù)據(jù)編解碼、API密鑰安全認(rèn)證、異步隊(duì)列處理耗時(shí)任務(wù)、健壯錯(cuò)誤處理與重試機(jī)制、圖像存儲(chǔ)與展示;3.常見(jiàn)挑戰(zhàn)有API成本失控、生成結(jié)果不可控、用戶體驗(yàn)差、安全風(fēng)險(xiǎn)和數(shù)據(jù)管理難,應(yīng)對(duì)策略分別為設(shè)置用戶配額與緩存、提供prompt指導(dǎo)與多圖選擇、異步通知與進(jìn)度提示、密鑰環(huán)境變量存儲(chǔ)與內(nèi)容審核、雲(yún)存

PHP實(shí)現(xiàn)商品庫(kù)存管理變現(xiàn) PHP庫(kù)存同步與報(bào)警機(jī)制 PHP實(shí)現(xiàn)商品庫(kù)存管理變現(xiàn) PHP庫(kù)存同步與報(bào)警機(jī)制 Jul 25, 2025 pm 08:30 PM

PHP通過(guò)數(shù)據(jù)庫(kù)事務(wù)與FORUPDATE行鎖確保庫(kù)存扣減原子性,防止高並發(fā)超賣(mài);2.多平臺(tái)庫(kù)存一致性需依賴中心化管理與事件驅(qū)動(dòng)同步,結(jié)合API/Webhook通知及消息隊(duì)列保障數(shù)據(jù)可靠傳遞;3.報(bào)警機(jī)制應(yīng)分場(chǎng)景設(shè)置低庫(kù)存、零/負(fù)庫(kù)存、滯銷(xiāo)、補(bǔ)貨週期和異常波動(dòng)策略,並按緊急程度選擇釘釘、短信或郵件通知責(zé)任人,且報(bào)警信息需完整明確,以實(shí)現(xiàn)業(yè)務(wù)適配與快速響應(yīng)。

PHP集成AI語(yǔ)音識(shí)別與轉(zhuǎn)寫(xiě) PHP會(huì)議記錄自動(dòng)生成方案 PHP集成AI語(yǔ)音識(shí)別與轉(zhuǎn)寫(xiě) PHP會(huì)議記錄自動(dòng)生成方案 Jul 25, 2025 pm 07:06 PM

選擇合適AI語(yǔ)音識(shí)別服務(wù)並集成PHPSDK;2.用PHP調(diào)用ffmpeg將錄音轉(zhuǎn)為API要求格式(如wav);3.上傳文件至雲(yún)存儲(chǔ)並調(diào)用API異步識(shí)別;4.解析JSON結(jié)果並用NLP技術(shù)整理文本;5.生成Word或Markdown文檔完成會(huì)議記錄自動(dòng)化,全過(guò)程需確保數(shù)據(jù)加密、訪問(wèn)控制與合規(guī)性以保障隱私安全。

如何用PHP調(diào)用AI寫(xiě)作輔助工具 PHP提升內(nèi)容產(chǎn)出效率 如何用PHP調(diào)用AI寫(xiě)作輔助工具 PHP提升內(nèi)容產(chǎn)出效率 Jul 25, 2025 pm 08:18 PM

選擇AI寫(xiě)作API需考察穩(wěn)定性、價(jià)格、功能匹配度及是否有免費(fèi)試用;2.PHP用Guzzle發(fā)送POST請(qǐng)求並用json_decode處理返回的JSON數(shù)據(jù),注意捕獲異常和錯(cuò)誤碼;3.將AI內(nèi)容融入項(xiàng)目需建立審核機(jī)制並支持個(gè)性化定制;4.優(yōu)化性能可採(cǎi)用緩存、異步隊(duì)列和限流技術(shù),避免高並發(fā)下瓶頸。

如何用PHP搭建在線客服機(jī)器人 PHP智能客服實(shí)現(xiàn)技術(shù) 如何用PHP搭建在線客服機(jī)器人 PHP智能客服實(shí)現(xiàn)技術(shù) Jul 25, 2025 pm 06:57 PM

PHP在智能客服中扮演連接器和大腦中樞角色,負(fù)責(zé)串聯(lián)前端輸入、數(shù)據(jù)庫(kù)存儲(chǔ)與外部AI服務(wù);2.實(shí)現(xiàn)時(shí)需構(gòu)建多層架構(gòu):前端接收用戶消息,PHP後端預(yù)處理並路由請(qǐng)求,先匹配本地知識(shí)庫(kù),未命中則調(diào)用外部AI服務(wù)如OpenAI或Dialogflow獲取智能回復(fù);3.會(huì)話管理由PHP寫(xiě)入MySQL等數(shù)據(jù)庫(kù),保障上下文連續(xù)性;4.集成AI服務(wù)需用Guzzle發(fā)送HTTP請(qǐng)求,安全存儲(chǔ)APIKey,做好錯(cuò)誤處理與響應(yīng)解析;5.數(shù)據(jù)庫(kù)設(shè)計(jì)需包含會(huì)話、消息、知識(shí)庫(kù)、用戶表,合理建索引、保障安全與性能,支撐機(jī)器人記憶

See all articles