99久久精品这里只有精品,天堂а在线最新版在线,欧美人与动xxxxz0oz

首頁(yè)

科技周邊

人工智能

Mollick介紹了新圖像生成模型的含義

Susan Sarandon

Apr 09, 2025 am 11:26 AM

Mollick Presents The Meaning Of New Image Generation Models

近期，谷歌和OpenAI發(fā)布的全新圖像生成模型引發(fā)廣泛關(guān)注，其核心技術(shù)與以往模型截然不同。 Ethan Mollick在One Useful Thing發(fā)表的文章深入探討了這些新模型的工作機(jī)制及其對(duì)人類(lèi)用戶的影響。本文將對(duì)Mollick的觀點(diǎn)進(jìn)行解讀。

多模態(tài)圖像生成的潛力

Mollick指出，傳統(tǒng)的圖像生成系統(tǒng)是多個(gè)模型協(xié)同工作的產(chǎn)物，并非單一模型完成所有任務(wù)。

他寫(xiě)道：“以往，大型語(yǔ)言模型（LLM）生成圖像并非由LLM直接完成。AI會(huì)將文本提示發(fā)送給獨(dú)立的圖像生成工具，然后顯示結(jié)果。AI負(fù)責(zé)創(chuàng)建文本提示，而另一個(gè)能力較弱的系統(tǒng)負(fù)責(zé)生成圖像?！?/p>

擴(kuò)散模型已成過(guò)去式

舊模型主要依賴擴(kuò)散模型工作。擴(kuò)散模型的工作原理是：將圖像引入噪聲，進(jìn)行抽象處理，然后再去除噪聲，生成與計(jì)算機(jī)已知圖像庫(kù)中匹配提示的圖像。

然而，這種方法的局限性在于：生成的圖像缺乏模型自身的推理和判斷，只是對(duì)現(xiàn)有圖像庫(kù)的簡(jiǎn)單組合，無(wú)法提供有價(jià)值的信息。

多模態(tài)控制的優(yōu)勢(shì)

如今，多模態(tài)控制技術(shù)的出現(xiàn)徹底改變了這一現(xiàn)狀。

Mollick舉例說(shuō)明：提示模型生成“沒(méi)有大象的房間，并標(biāo)注原因”。傳統(tǒng)模型會(huì)生成包含大象的圖像，因?yàn)樗鼰o(wú)法理解提示的語(yǔ)境。生成的文本也可能毫無(wú)意義甚至包含虛構(gòu)字符，因?yàn)槟Ｐ蛯?duì)字母的理解也源于訓(xùn)練數(shù)據(jù)。

而多模態(tài)模型則能精準(zhǔn)地生成符合要求的圖像，并添加注釋?zhuān)纭伴T(mén)太小”，解釋為什么房間里沒(méi)有大象。

傳統(tǒng)模型的提示挑戰(zhàn)

傳統(tǒng)模型的一個(gè)顯著缺陷是：一旦要求其排除某個(gè)元素，它反而會(huì)包含該元素，因?yàn)樗鼰o(wú)法理解指令。此外，每次修改或調(diào)整都會(huì)改變圖像的基本結(jié)構(gòu)。例如，修改人物的帽子可能會(huì)導(dǎo)致人物形象完全改變。

多模態(tài)圖像生成模型則能夠在保留原有結(jié)果的基礎(chǔ)上進(jìn)行細(xì)微調(diào)整。

環(huán)境的保持

Mollick還展示了另一個(gè)例子：一只手里拿著特定物品的水獺，然后在不同環(huán)境和不同風(fēng)格的背景下出現(xiàn)。這展現(xiàn)了多模態(tài)圖像生成器的精細(xì)整合能力。

完整的演示文稿

Mollick還展示了如何利用多模態(tài)模型設(shè)計(jì)完整的演示文稿，例如關(guān)于鱷梨醬的推介。只需提供簡(jiǎn)單的指令，模型就能搜索互聯(lián)網(wǎng)上的相關(guān)信息，進(jìn)行整合，并生成最終結(jié)果。

正如Mollick所言，這將迅速導(dǎo)致許多人類(lèi)工作被取代。我們需要認(rèn)真考慮建立相應(yīng)的框架。

以上是Mollick介紹了新圖像生成模型的含義的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本站聲明

本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn)，版權(quán)歸原作者所有，本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容，請(qǐng)聯(lián)系admin@php.cn