亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

搜索

AI視頻生成框架測(cè)試競(jìng)爭(zhēng):Pika、Gen-2、ModelScope、SEINE,誰能勝出?

王林
發(fā)布: 2024-01-22 13:06:12
轉(zhuǎn)載
1129人瀏覽過

AI 視頻生成,是最近最熱門的領(lǐng)域之一。各個(gè)高校實(shí)驗(yàn)室、互聯(lián)網(wǎng)巨頭 AI Lab、創(chuàng)業(yè)公司紛紛加入了 AI 視頻生成的賽道。Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM 等視頻生成模型的發(fā)布,更是讓人眼前一亮。v???

大家肯定對(duì)以下幾個(gè)問題感到好奇:

  • 到底哪個(gè)視頻生成模型最牛?
  • 每個(gè)模型有什么特長(zhǎng)?
  • AI 視頻生成領(lǐng)域目前還有哪些值得關(guān)注的問題待解決?

為此,我們推出了VBench,一個(gè)全面的「視頻生成模型的評(píng)測(cè)框架」,旨在向用戶提供關(guān)于各種視頻模型的優(yōu)劣和特點(diǎn)。通過VBench,用戶可以了解不同視頻模型的強(qiáng)項(xiàng)和優(yōu)勢(shì)。

???AI 智能聊天, 問答助手, AI 智能搜索, 免費(fèi)無限量使用 DeepSeek R1 模型???

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)?這個(gè)框架一測(cè)便知


  • 論文:https://arxiv.org/abs/2311.17982
  • 代碼:https://github.com/Vchitect/VBench
  • 網(wǎng)頁:https://vchitect.github.io/VBench-project/
  • 論文標(biāo)題:VBench: Comprehensive Benchmark Suite for Video Generative Models

VBench不僅能全面、細(xì)致地評(píng)估視頻生成效果,還能提供符合人們感官體驗(yàn)的評(píng)估,節(jié)省時(shí)間和精力。

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)?這個(gè)框架一測(cè)便知

  • VBench 包含 16 個(gè)分層和解耦的評(píng)測(cè)維度?
  • VBench 開源了用于文生視頻生成評(píng)測(cè)的 Prompt List 體系
  • VBench 每個(gè)維度的評(píng)測(cè)方案與人類的觀感與評(píng)價(jià)對(duì)齊?
  • VBench 提供了多視角的洞察,助力未來對(duì)于 AI 視頻生成的探索

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)?這個(gè)框架一測(cè)便知

“VBench” - 「視頻生成模型」的全面基準(zhǔn)測(cè)試套件

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)?這個(gè)框架一測(cè)便知

AI 視頻生成模型 - 評(píng)測(cè)結(jié)果

已開源的 AI 視頻生成模型

各個(gè)開源的 AI 視頻生成模型在?VBench 上的表現(xiàn)如下。

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)?這個(gè)框架一測(cè)便知

各家已開源的 ai 視頻生成模型在 vbench 上的表現(xiàn)。在雷達(dá)圖中,為了更清晰地可視化比較,我們將每個(gè)維度的評(píng)測(cè)結(jié)果歸一化到了 0.3 與 0.8 之間。

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)?這個(gè)框架一測(cè)便知

各家已開源的 AI 視頻生成模型在 VBench 上的表現(xiàn)。

在以上 6 個(gè)模型中,可以看到 VideoCrafter-1.0 和 Show-1 在大多數(shù)維度都有相對(duì)優(yōu)勢(shì)。

創(chuàng)業(yè)公司的視頻生成模型

VBench 目前給出了 Gen-2 和 Pika 這兩家創(chuàng)業(yè)公司模型的評(píng)測(cè)結(jié)果。

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)?這個(gè)框架一測(cè)便知

Gen-2 和 Pika 在 VBench 上的表現(xiàn)。在雷達(dá)圖中,為了更清晰地可視化比較,我們加入了 VideoCrafter-1.0 和 Show-1 作為參考,同時(shí)將每個(gè)維度的評(píng)測(cè)結(jié)果歸一化到了 0.3 與 0.8 之間。

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)?這個(gè)框架一測(cè)便知

Gen-2 和 Pika 在 VBench 上的表現(xiàn)。我們加入了 VideoCrafter-1.0 和 Show-1 的數(shù)值結(jié)果作為參考。

可以看到,Gen-2 和 Pika 在視頻質(zhì)量(Video Quality)上有明顯優(yōu)勢(shì),例如時(shí)序一致性(Temporal Consistency)和單幀質(zhì)量(Aesthetic Quality 和 Imaging Quality)相關(guān)維度。在與用戶輸入的 prompt 的語義一致性上(例如 Human Action 和 Appearance Style),部分維度開源模型會(huì)更勝一籌。

視頻生成模型 VS 圖片生成模型

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)?這個(gè)框架一測(cè)便知

視頻生成模型 VS 圖片生成模型。其中 SD1.4,SD2.1 和 SDXL 是圖片生成模型。

視頻生成模型在 8 大場(chǎng)景類別上的表現(xiàn)

下面是不同模型在 8 個(gè)不同類別上的評(píng)測(cè)結(jié)果。

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)?這個(gè)框架一測(cè)便知

VBench 現(xiàn)已開源,一鍵即可安裝

目前,VBench 已全面開源,且支持一鍵安裝。歡迎大家來玩,測(cè)試一下感興趣的模型,一起推動(dòng)視頻生成社區(qū)的發(fā)展。

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)?這個(gè)框架一測(cè)便知

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)?這個(gè)框架一測(cè)便知

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)?這個(gè)框架一測(cè)便知


開源地址:https://github.com/Vchitect/VBench

Movie Gen
Movie Gen

Movie Gen 是 Meta 公司最新推出的AI視頻生成大模型

Movie Gen84
查看詳情 Movie Gen


Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)?這個(gè)框架一測(cè)便知

我們也開源了一系列 Prompt List:https://github.com/Vchitect/VBench/tree/master/prompts,包含在不同能力維度上用于評(píng)測(cè)的 Benchmark,以及在不同場(chǎng)景內(nèi)容上的評(píng)測(cè) Benchmark。

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)?這個(gè)框架一測(cè)便知

左邊詞云展示了我們 Prompt Suites 的高頻詞分布,右圖展示了不同維度和類別的 prompt 數(shù)量統(tǒng)計(jì)。

VBench 準(zhǔn)不準(zhǔn)?

針對(duì)每個(gè)維度,我們計(jì)算了 VBench 評(píng)測(cè)結(jié)果與人工評(píng)測(cè)結(jié)果之間的相關(guān)度,進(jìn)而驗(yàn)證我們方法與人類觀感的一致性。下圖中,橫軸代表不同維度的人工評(píng)測(cè)結(jié)果,縱軸則展示了 VBench 方法自動(dòng)評(píng)測(cè)的結(jié)果,可以看到我們方法在各個(gè)維度都與人類感知高度對(duì)齊。

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)?這個(gè)框架一測(cè)便知

VBench 帶給 AI 視頻生成的思考

VBench 不僅可以對(duì)現(xiàn)有模型進(jìn)行評(píng)測(cè),更重要的是,還可以發(fā)現(xiàn)不同模型中可能存在的各種問題,為未來 AI 視頻生成的發(fā)展提供有價(jià)值的 insights。

「時(shí)序連貫性」以及「視頻的動(dòng)態(tài)程度」:不要二選一,而應(yīng)同時(shí)提升

我們發(fā)現(xiàn)時(shí)序連貫性(例如 Subject Consistency、Background Consistency、Motion Smoothness)與視頻中運(yùn)動(dòng)的幅度(Dynamic Degree)之間有一定的權(quán)衡關(guān)系。比如說,Show-1 和 VideoCrafter-1.0 在背景一致性和動(dòng)作流暢度方面表現(xiàn)很好,但在動(dòng)態(tài)程度方面得分較低;這可能是因?yàn)樯?「沒有動(dòng)起來」?的畫面更容易顯得 「在時(shí)序上很連貫」。另一方面,VideoCrafter-0.9 在與時(shí)序一致性的維度上弱一些,但在 Dynamic Degree 上得分很高。

這說明,同時(shí)做好 「時(shí)序連貫性」?和 「較高的動(dòng)態(tài)程度」?確實(shí)挺難的;未來不應(yīng)只關(guān)注其中一方面的提升,而應(yīng)該同時(shí)提升 「時(shí)序連貫性」?以及 「視頻的動(dòng)態(tài)程度」?這兩方面,這才是有意義的。

分場(chǎng)景內(nèi)容進(jìn)行評(píng)測(cè),發(fā)掘各家模型潛力

有些模型在不同類別上表現(xiàn)出的性能存在較大差異,比如在美學(xué)質(zhì)量(Aesthetic Quality)上,CogVideo 在 「Food」?類別上表現(xiàn)不錯(cuò),而在 「LifeStyle」?類別得分較低。如果通過訓(xùn)練數(shù)據(jù)的調(diào)整,CogVideo 在 「LifeStyle」?這些類別上的美學(xué)質(zhì)量是否可以提升上去,進(jìn)而提升模型整體的視頻美學(xué)質(zhì)量?

這也告訴我們,在評(píng)估視頻生成模型時(shí),需要考慮模型在不同類別或主題下的表現(xiàn),挖掘模型在某個(gè)能力維度的上限,進(jìn)而針對(duì)性地提升 「拖后腿」?的場(chǎng)景類別。

有復(fù)雜運(yùn)動(dòng)的類別:時(shí)空表現(xiàn)都不佳

在空間上復(fù)雜度高的類別,在美學(xué)質(zhì)量維度得分都比較低。例如,「LifeStyle」?類別對(duì)復(fù)雜元素在空間中的布局有比較高的要求,「Human」?類別由于鉸鏈?zhǔn)浇Y(jié)構(gòu)的生成帶來了挑戰(zhàn)。

對(duì)于時(shí)序復(fù)雜的類別,比如 「Human」?類別通常涉及復(fù)雜的動(dòng)作、「Vehicle」?類別會(huì)經(jīng)常出現(xiàn)較快的移動(dòng),它們?cè)谒袦y(cè)試的維度上得分都相對(duì)較低。這表明當(dāng)前模型在處理時(shí)序建模方面仍然存在一定的不足,時(shí)序上的建模局限可能會(huì)導(dǎo)致空間上的模糊與扭曲,從而導(dǎo)致視頻在時(shí)間和空間上的質(zhì)量都不理想。

難生成的類別:提升數(shù)據(jù)量收益不大

我們對(duì)常用的視頻數(shù)據(jù)集 WebVid-10M 進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)其中約有 26% 的數(shù)據(jù)與 「Human」?有關(guān),在我們統(tǒng)計(jì)的八個(gè)類別中占比最高。然而,在評(píng)估結(jié)果中,「Human」?類別卻是八個(gè)類別中表現(xiàn)最差的之一。

這說明對(duì)于 「Human」?這樣復(fù)雜的類別,僅僅增加數(shù)據(jù)量可能不會(huì)對(duì)性能帶來顯著的改善。一種潛在的方法是通過引入 「Human」?相關(guān)的先驗(yàn)知識(shí)或控制,比如 Skeletons 等,來指導(dǎo)模型的學(xué)習(xí)。

百萬量級(jí)的數(shù)據(jù)集:提升數(shù)據(jù)質(zhì)量?jī)?yōu)先于數(shù)據(jù)量

「Food」?類別雖然在 WebVid-10M 中僅占據(jù) 11%,但在評(píng)測(cè)中幾乎總是擁有最高的美學(xué)質(zhì)量分?jǐn)?shù)。于是我們進(jìn)一步分析了 WebVid-10M 數(shù)據(jù)集不同類別內(nèi)容的美學(xué)質(zhì)量表現(xiàn),發(fā)現(xiàn) 「Food」 類別在 WebVid-10M 中也有最高的美學(xué)評(píng)分。

這意味著,在百萬量級(jí)數(shù)據(jù)的基礎(chǔ)上,篩選 / 提升數(shù)據(jù)質(zhì)量比增加數(shù)據(jù)量更有幫助。

待提升的能力:準(zhǔn)確生成生成多物體,以及物體間的關(guān)系

當(dāng)前的視頻生成模型在 「多對(duì)象生成」(Multiple Objects)和 「空間關(guān)系」(Spatial Relationship)方面還是追不上圖片生成模型(尤其是 SDXL),這凸顯了提升組合能力的重要性。所謂組合能力指的是模型在視頻生成中是否能準(zhǔn)確展示多個(gè)對(duì)象,及它們之間的空間及互動(dòng)關(guān)系。

解決這一問題的潛在方法可能包括:

  • 數(shù)據(jù)打標(biāo):構(gòu)建視頻數(shù)據(jù)集,提供對(duì)視頻中多個(gè)物體的明確描述,以及物體間空間位置關(guān)系以及互動(dòng)關(guān)系的描述。
  • 在視頻生成過程中添加中間模態(tài) / 模塊來輔助控制物體的組合和空間位置關(guān)系。
  • 使用更好的文本編碼器(Text Encoder)也會(huì)對(duì)模型的組合生成能力有比較大的影響。
  • 曲線救國(guó):將 T2V 做不好的 「物體組合」?問題交給 T2I,通過 T2I+I2V 的方式來生成視頻。這一做法針對(duì)其他很多視頻生成中的問題或許也有效。

以上就是AI視頻生成框架測(cè)試競(jìng)爭(zhēng):Pika、Gen-2、ModelScope、SEINE,誰能勝出?的詳細(xì)內(nèi)容,更多請(qǐng)關(guān)注php中文網(wǎng)其它相關(guān)文章!

相關(guān)標(biāo)簽:
最佳 Windows 性能的頂級(jí)免費(fèi)優(yōu)化軟件
最佳 Windows 性能的頂級(jí)免費(fèi)優(yōu)化軟件

每個(gè)人都需要一臺(tái)速度更快、更穩(wěn)定的 PC。隨著時(shí)間的推移,垃圾文件、舊注冊(cè)表數(shù)據(jù)和不必要的后臺(tái)進(jìn)程會(huì)占用資源并降低性能。幸運(yùn)的是,許多工具可以讓 Windows 保持平穩(wěn)運(yùn)行。

下載
來源:51CTO.COM網(wǎng)
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請(qǐng)聯(lián)系admin@php.cn
最新問題
開源免費(fèi)商場(chǎng)系統(tǒng)廣告
最新下載
更多>
網(wǎng)站特效
網(wǎng)站源碼
網(wǎng)站素材
前端模板
關(guān)于我們 免責(zé)申明 意見反饋 講師合作 廣告合作 最新更新
php中文網(wǎng):公益在線php培訓(xùn),幫助PHP學(xué)習(xí)者快速成長(zhǎng)!
關(guān)注服務(wù)號(hào) 技術(shù)交流群
PHP中文網(wǎng)訂閱號(hào)
每天精選資源文章推送
PHP中文網(wǎng)APP
隨時(shí)隨地碎片化學(xué)習(xí)
PHP中文網(wǎng)抖音號(hào)
發(fā)現(xiàn)有趣的

Copyright 2014-2025 http://ipnx.cn/ All Rights Reserved | php.cn | 湘ICP備2023035733號(hào)