亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

搜索

用LLM提升理解力,Pika北大斯坦福開源新框架,更深入理解復(fù)雜提示詞的擴(kuò)散模型

王林
發(fā)布: 2024-01-24 18:33:18
轉(zhuǎn)載
672人瀏覽過

pika北大斯坦福聯(lián)手,開源最新文本-圖像生成/編輯框架!

無(wú)需額外訓(xùn)練,即可讓擴(kuò)散模型擁有更強(qiáng)提示詞理解能力。

面對(duì)超長(zhǎng)、超復(fù)雜提示詞,準(zhǔn)確性更高、細(xì)節(jié)把控更強(qiáng),而且生成圖片更加自然。

效果超越最強(qiáng)圖像生成模型Dall·E 3和SDXL。

比如要求圖片左右冰火兩重天,左邊有冰山、右邊有火山。

SDXL完全沒有符合提示詞要求,Dall·E 3沒有生成出來(lái)火山這一細(xì)節(jié)。

擴(kuò)散模型更懂復(fù)雜提示詞!Pika北大斯坦福開源新框架,利用LLM提升理解力

還能通過提示詞對(duì)生成圖像二次編輯。

這就是文本-圖像生成/編輯框架RPG(Recaption,Plan and Generate),已經(jīng)在網(wǎng)上引起熱議。

擴(kuò)散模型更懂復(fù)雜提示詞!Pika北大斯坦福開源新框架,利用LLM提升理解力

它由北大、斯坦福、Pika聯(lián)合開發(fā)。作者包括北大計(jì)算機(jī)學(xué)院崔斌教授、Pika聯(lián)合創(chuàng)始人兼CTO Chenlin Meng等。

目前框架代碼已開源,兼容各種多模態(tài)大模型(如MiniGPT-4)和擴(kuò)散模型主干網(wǎng)絡(luò)(如ControlNet)。

利用多模態(tài)大模型做增強(qiáng)

一直以來(lái),擴(kuò)散模型在理解復(fù)雜提示詞方面都相對(duì)較弱。

一些已有改進(jìn)方法,要么最終實(shí)現(xiàn)效果不夠好,要么需要進(jìn)行額外訓(xùn)練。

擴(kuò)散模型更懂復(fù)雜提示詞!Pika北大斯坦福開源新框架,利用LLM提升理解力

因此研究團(tuán)隊(duì)利用多模態(tài)大模型的理解能力來(lái)增強(qiáng)擴(kuò)散模型的組合能力、可控能力。

從框架名字可以看出,它是讓模型“重新描述、規(guī)劃和生成”。

擴(kuò)散模型更懂復(fù)雜提示詞!Pika北大斯坦福開源新框架,利用LLM提升理解力

該方法的核心策略有三方面:

1、多模態(tài)重新描述(Multimodal Recaptioning):利用大模型將復(fù)雜文本提示拆解為多個(gè)子提示,并對(duì)每個(gè)子提示進(jìn)行更加詳細(xì)的重新描述,以此提升擴(kuò)散模型對(duì)提示詞的理解能力。

2、思維鏈規(guī)劃(Chain-of-Thought Planning):利用多模態(tài)大模型的思維鏈推理能力,將圖像空間劃分為互補(bǔ)的子區(qū)域,并為每個(gè)子區(qū)域匹配不同的子提示,將復(fù)雜的生成任務(wù)拆解為多個(gè)更簡(jiǎn)單的生成任務(wù)。

擴(kuò)散模型更懂復(fù)雜提示詞!Pika北大斯坦福開源新框架,利用LLM提升理解力

3、互補(bǔ)區(qū)域擴(kuò)散(Complementary Regional Diffusion):將空間劃分好后,非重疊的區(qū)域各自根據(jù)子提示生成圖像,然后進(jìn)行拼接。

擴(kuò)散模型更懂復(fù)雜提示詞!Pika北大斯坦福開源新框架,利用LLM提升理解力

最后就能生成出一張更加符合提示詞要求的圖片。

擴(kuò)散模型更懂復(fù)雜提示詞!Pika北大斯坦福開源新框架,利用LLM提升理解力

RPG框架還可以利用姿態(tài)、深度等信息進(jìn)行圖像生成。

和ControlNet對(duì)比,RPG能進(jìn)一步拆分輸入提示詞。

用戶輸入:在一間明亮的房間里,站著一位身穿香檳色長(zhǎng)袖正裝、正閉著雙眼的漂亮黑發(fā)女孩。房間左邊放著一只插著粉色玫瑰花的精致藍(lán)花瓶,右邊有一些生機(jī)勃勃的白玫瑰。

基礎(chǔ)提示詞:一個(gè)漂亮女孩站在她的明亮的房間里。

區(qū)域0:一個(gè)裝著粉玫瑰的精致藍(lán)花瓶

區(qū)域1:一個(gè)身穿香檳色長(zhǎng)袖正裝的漂亮黑發(fā)女孩閉著雙眼。

區(qū)域2:一些生機(jī)勃勃的白玫瑰。

擴(kuò)散模型更懂復(fù)雜提示詞!Pika北大斯坦福開源新框架,利用LLM提升理解力

也能實(shí)現(xiàn)圖像生成、編輯閉環(huán)。

擴(kuò)散模型更懂復(fù)雜提示詞!Pika北大斯坦福開源新框架,利用LLM提升理解力

實(shí)驗(yàn)對(duì)比來(lái)看,RPG在色彩、形狀、空間、文字準(zhǔn)確等維度都超越其他圖像生成模型。

擴(kuò)散模型更懂復(fù)雜提示詞!Pika北大斯坦福開源新框架,利用LLM提升理解力

研究團(tuán)隊(duì)

該研究有兩位共同一作Ling Yang、Zhaochen Yu,都來(lái)自北大。

參與作者還有AI創(chuàng)企Pika聯(lián)合創(chuàng)始人兼CTO?Chenlin Meng

她是斯坦福計(jì)算機(jī)博士,在計(jì)算機(jī)視覺、3D視覺方面有著豐富學(xué)術(shù)經(jīng)歷,參與的去噪擴(kuò)散隱式模型(DDIM)論文,如今單篇引用已有1700+。并有多篇生成式AI相關(guān)研究發(fā)表在ICLR、NeurIPS、CVPR、ICML等頂會(huì)上,且多篇入選Oral。

去年,Pika憑借AI視頻生成產(chǎn)品Pika 1.0一炮而紅,2位斯坦福華人女博士創(chuàng)辦的背景,使其更加引人注目。

擴(kuò)散模型更懂復(fù)雜提示詞!Pika北大斯坦福開源新框架,利用LLM提升理解力

△左為郭文景(Pika CEO),右為Chenlin Meng

參與研究的還有北大計(jì)算機(jī)學(xué)院副院長(zhǎng)崔斌教授,他還是數(shù)據(jù)科學(xué)與工程研究所長(zhǎng)。

擴(kuò)散模型更懂復(fù)雜提示詞!Pika北大斯坦福開源新框架,利用LLM提升理解力

另外,斯坦福AI實(shí)驗(yàn)室博士Minkai Xu、斯坦福助理教授Stefano Ermon共同參與這項(xiàng)研究。

論文地址:https://arxiv.org/abs/2401.11708

代碼地址:https://github.com/YangLing0818/RPG-DiffusionMaster

以上就是用LLM提升理解力,Pika北大斯坦福開源新框架,更深入理解復(fù)雜提示詞的擴(kuò)散模型的詳細(xì)內(nèi)容,更多請(qǐng)關(guān)注php中文網(wǎng)其它相關(guān)文章!

相關(guān)標(biāo)簽:
最佳 Windows 性能的頂級(jí)免費(fèi)優(yōu)化軟件
最佳 Windows 性能的頂級(jí)免費(fèi)優(yōu)化軟件

每個(gè)人都需要一臺(tái)速度更快、更穩(wěn)定的 PC。隨著時(shí)間的推移,垃圾文件、舊注冊(cè)表數(shù)據(jù)和不必要的后臺(tái)進(jìn)程會(huì)占用資源并降低性能。幸運(yùn)的是,許多工具可以讓 Windows 保持平穩(wěn)運(yùn)行。

下載
來(lái)源:51CTO.COM網(wǎng)
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請(qǐng)聯(lián)系admin@php.cn
最新問題
開源免費(fèi)商場(chǎng)系統(tǒng)廣告
最新下載
更多>
網(wǎng)站特效
網(wǎng)站源碼
網(wǎng)站素材
前端模板
關(guān)于我們 免責(zé)申明 意見反饋 講師合作 廣告合作 最新更新
php中文網(wǎng):公益在線php培訓(xùn),幫助PHP學(xué)習(xí)者快速成長(zhǎng)!
關(guān)注服務(wù)號(hào) 技術(shù)交流群
PHP中文網(wǎng)訂閱號(hào)
每天精選資源文章推送
PHP中文網(wǎng)APP
隨時(shí)隨地碎片化學(xué)習(xí)
PHP中文網(wǎng)抖音號(hào)
發(fā)現(xiàn)有趣的

Copyright 2014-2025 http://ipnx.cn/ All Rights Reserved | php.cn | 湘ICP備2023035733號(hào)