在线精品国产成人综合,亚洲国产成人va在线观看天堂,亚洲国产精品久久久久久久

AI視頻生成框架測(cè)試競(jìng)爭(zhēng)：Pika、Gen-2、ModelScope、SEINE，誰能勝出？

王林

發(fā)布： 2024-01-22 13:06:12

轉(zhuǎn)載

1129人瀏覽過

AI 視頻生成，是最近最熱門的領(lǐng)域之一。各個(gè)高校實(shí)驗(yàn)室、互聯(lián)網(wǎng)巨頭 AI Lab、創(chuàng)業(yè)公司紛紛加入了 AI 視頻生成的賽道。Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM 等視頻生成模型的發(fā)布，更是讓人眼前一亮。v???

大家肯定對(duì)以下幾個(gè)問題感到好奇：

到底哪個(gè)視頻生成模型最牛？
每個(gè)模型有什么特長(zhǎng)？
AI 視頻生成領(lǐng)域目前還有哪些值得關(guān)注的問題待解決？

為此，我們推出了VBench，一個(gè)全面的「視頻生成模型的評(píng)測(cè)框架」，旨在向用戶提供關(guān)于各種視頻模型的優(yōu)劣和特點(diǎn)。通過VBench，用戶可以了解不同視頻模型的強(qiáng)項(xiàng)和優(yōu)勢(shì)。

???AI 智能聊天, 問答助手, AI 智能搜索, 免費(fèi)無限量使用 DeepSeek R1 模型???

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)？這個(gè)框架一測(cè)便知

論文：https://arxiv.org/abs/2311.17982
代碼：https://github.com/Vchitect/VBench
網(wǎng)頁：https://vchitect.github.io/VBench-project/
論文標(biāo)題：VBench: Comprehensive Benchmark Suite for Video Generative Models

VBench不僅能全面、細(xì)致地評(píng)估視頻生成效果，還能提供符合人們感官體驗(yàn)的評(píng)估，節(jié)省時(shí)間和精力。

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)？這個(gè)框架一測(cè)便知

VBench 包含 16 個(gè)分層和解耦的評(píng)測(cè)維度?
VBench 開源了用于文生視頻生成評(píng)測(cè)的 Prompt List 體系
VBench 每個(gè)維度的評(píng)測(cè)方案與人類的觀感與評(píng)價(jià)對(duì)齊?
VBench 提供了多視角的洞察，助力未來對(duì)于 AI 視頻生成的探索

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)？這個(gè)框架一測(cè)便知

“VBench” - 「視頻生成模型」的全面基準(zhǔn)測(cè)試套件

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)？這個(gè)框架一測(cè)便知

AI 視頻生成模型 - 評(píng)測(cè)結(jié)果

已開源的 AI 視頻生成模型

各個(gè)開源的 AI 視頻生成模型在?VBench 上的表現(xiàn)如下。

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)？這個(gè)框架一測(cè)便知

各家已開源的 ai 視頻生成模型在 vbench 上的表現(xiàn)。在雷達(dá)圖中，為了更清晰地可視化比較，我們將每個(gè)維度的評(píng)測(cè)結(jié)果歸一化到了 0.3 與 0.8 之間。

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)？這個(gè)框架一測(cè)便知

各家已開源的 AI 視頻生成模型在 VBench 上的表現(xiàn)。

在以上 6 個(gè)模型中，可以看到 VideoCrafter-1.0 和 Show-1 在大多數(shù)維度都有相對(duì)優(yōu)勢(shì)。

創(chuàng)業(yè)公司的視頻生成模型

VBench 目前給出了 Gen-2 和 Pika 這兩家創(chuàng)業(yè)公司模型的評(píng)測(cè)結(jié)果。

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)？這個(gè)框架一測(cè)便知

Gen-2 和 Pika 在 VBench 上的表現(xiàn)。在雷達(dá)圖中，為了更清晰地可視化比較，我們加入了 VideoCrafter-1.0 和 Show-1 作為參考，同時(shí)將每個(gè)維度的評(píng)測(cè)結(jié)果歸一化到了 0.3 與 0.8 之間。

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)？這個(gè)框架一測(cè)便知

Gen-2 和 Pika 在 VBench 上的表現(xiàn)。我們加入了 VideoCrafter-1.0 和 Show-1 的數(shù)值結(jié)果作為參考。

可以看到，Gen-2 和 Pika 在視頻質(zhì)量（Video Quality）上有明顯優(yōu)勢(shì)，例如時(shí)序一致性（Temporal Consistency）和單幀質(zhì)量（Aesthetic Quality 和 Imaging Quality）相關(guān)維度。在與用戶輸入的 prompt 的語義一致性上（例如 Human Action 和 Appearance Style），部分維度開源模型會(huì)更勝一籌。

視頻生成模型 VS 圖片生成模型

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)？這個(gè)框架一測(cè)便知

視頻生成模型 VS 圖片生成模型。其中 SD1.4，SD2.1 和 SDXL 是圖片生成模型。

視頻生成模型在 8 大場(chǎng)景類別上的表現(xiàn)

下面是不同模型在 8 個(gè)不同類別上的評(píng)測(cè)結(jié)果。

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)？這個(gè)框架一測(cè)便知

VBench 現(xiàn)已開源，一鍵即可安裝

目前，VBench 已全面開源，且支持一鍵安裝。歡迎大家來玩，測(cè)試一下感興趣的模型，一起推動(dòng)視頻生成社區(qū)的發(fā)展。

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)？這個(gè)框架一測(cè)便知

開源地址：https://github.com/Vchitect/VBench

Movie Gen

Movie Gen 是 Meta 公司最新推出的AI視頻生成大模型

查看詳情

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)？這個(gè)框架一測(cè)便知

我們也開源了一系列 Prompt List：https://github.com/Vchitect/VBench/tree/master/prompts，包含在不同能力維度上用于評(píng)測(cè)的 Benchmark，以及在不同場(chǎng)景內(nèi)容上的評(píng)測(cè) Benchmark。

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)？這個(gè)框架一測(cè)便知

左邊詞云展示了我們 Prompt Suites 的高頻詞分布，右圖展示了不同維度和類別的 prompt 數(shù)量統(tǒng)計(jì)。

VBench 準(zhǔn)不準(zhǔn)？

針對(duì)每個(gè)維度，我們計(jì)算了 VBench 評(píng)測(cè)結(jié)果與人工評(píng)測(cè)結(jié)果之間的相關(guān)度，進(jìn)而驗(yàn)證我們方法與人類觀感的一致性。下圖中，橫軸代表不同維度的人工評(píng)測(cè)結(jié)果，縱軸則展示了 VBench 方法自動(dòng)評(píng)測(cè)的結(jié)果，可以看到我們方法在各個(gè)維度都與人類感知高度對(duì)齊。

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)？這個(gè)框架一測(cè)便知

VBench 帶給 AI 視頻生成的思考

VBench 不僅可以對(duì)現(xiàn)有模型進(jìn)行評(píng)測(cè)，更重要的是，還可以發(fā)現(xiàn)不同模型中可能存在的各種問題，為未來 AI 視頻生成的發(fā)展提供有價(jià)值的 insights。

「時(shí)序連貫性」以及「視頻的動(dòng)態(tài)程度」：不要二選一，而應(yīng)同時(shí)提升

我們發(fā)現(xiàn)時(shí)序連貫性（例如 Subject Consistency、Background Consistency、Motion Smoothness）與視頻中運(yùn)動(dòng)的幅度（Dynamic Degree）之間有一定的權(quán)衡關(guān)系。比如說，Show-1 和 VideoCrafter-1.0 在背景一致性和動(dòng)作流暢度方面表現(xiàn)很好，但在動(dòng)態(tài)程度方面得分較低；這可能是因?yàn)樯?「沒有動(dòng)起來」?的畫面更容易顯得「在時(shí)序上很連貫」。另一方面，VideoCrafter-0.9 在與時(shí)序一致性的維度上弱一些，但在 Dynamic Degree 上得分很高。

這說明，同時(shí)做好「時(shí)序連貫性」?和「較高的動(dòng)態(tài)程度」?確實(shí)挺難的；未來不應(yīng)只關(guān)注其中一方面的提升，而應(yīng)該同時(shí)提升「時(shí)序連貫性」?以及「視頻的動(dòng)態(tài)程度」?這兩方面，這才是有意義的。

分場(chǎng)景內(nèi)容進(jìn)行評(píng)測(cè)，發(fā)掘各家模型潛力

有些模型在不同類別上表現(xiàn)出的性能存在較大差異，比如在美學(xué)質(zhì)量（Aesthetic Quality）上，CogVideo 在「Food」?類別上表現(xiàn)不錯(cuò)，而在「LifeStyle」?類別得分較低。如果通過訓(xùn)練數(shù)據(jù)的調(diào)整，CogVideo 在「LifeStyle」?這些類別上的美學(xué)質(zhì)量是否可以提升上去，進(jìn)而提升模型整體的視頻美學(xué)質(zhì)量？

這也告訴我們，在評(píng)估視頻生成模型時(shí)，需要考慮模型在不同類別或主題下的表現(xiàn)，挖掘模型在某個(gè)能力維度的上限，進(jìn)而針對(duì)性地提升「拖后腿」?的場(chǎng)景類別。

有復(fù)雜運(yùn)動(dòng)的類別：時(shí)空表現(xiàn)都不佳

在空間上復(fù)雜度高的類別，在美學(xué)質(zhì)量維度得分都比較低。例如，「LifeStyle」?類別對(duì)復(fù)雜元素在空間中的布局有比較高的要求，「Human」?類別由于鉸鏈?zhǔn)浇Y(jié)構(gòu)的生成帶來了挑戰(zhàn)。

對(duì)于時(shí)序復(fù)雜的類別，比如「Human」?類別通常涉及復(fù)雜的動(dòng)作、「Vehicle」?類別會(huì)經(jīng)常出現(xiàn)較快的移動(dòng)，它們?cè)谒袦y(cè)試的維度上得分都相對(duì)較低。這表明當(dāng)前模型在處理時(shí)序建模方面仍然存在一定的不足，時(shí)序上的建模局限可能會(huì)導(dǎo)致空間上的模糊與扭曲，從而導(dǎo)致視頻在時(shí)間和空間上的質(zhì)量都不理想。

難生成的類別：提升數(shù)據(jù)量收益不大

我們對(duì)常用的視頻數(shù)據(jù)集 WebVid-10M 進(jìn)行了統(tǒng)計(jì)，發(fā)現(xiàn)其中約有 26% 的數(shù)據(jù)與「Human」?有關(guān)，在我們統(tǒng)計(jì)的八個(gè)類別中占比最高。然而，在評(píng)估結(jié)果中，「Human」?類別卻是八個(gè)類別中表現(xiàn)最差的之一。

這說明對(duì)于「Human」?這樣復(fù)雜的類別，僅僅增加數(shù)據(jù)量可能不會(huì)對(duì)性能帶來顯著的改善。一種潛在的方法是通過引入「Human」?相關(guān)的先驗(yàn)知識(shí)或控制，比如 Skeletons 等，來指導(dǎo)模型的學(xué)習(xí)。

百萬量級(jí)的數(shù)據(jù)集：提升數(shù)據(jù)質(zhì)量?jī)?yōu)先于數(shù)據(jù)量

「Food」?類別雖然在 WebVid-10M 中僅占據(jù) 11%，但在評(píng)測(cè)中幾乎總是擁有最高的美學(xué)質(zhì)量分?jǐn)?shù)。于是我們進(jìn)一步分析了 WebVid-10M 數(shù)據(jù)集不同類別內(nèi)容的美學(xué)質(zhì)量表現(xiàn)，發(fā)現(xiàn) 「Food」類別在 WebVid-10M 中也有最高的美學(xué)評(píng)分。

這意味著，在百萬量級(jí)數(shù)據(jù)的基礎(chǔ)上，篩選 / 提升數(shù)據(jù)質(zhì)量比增加數(shù)據(jù)量更有幫助。

待提升的能力：準(zhǔn)確生成生成多物體，以及物體間的關(guān)系

當(dāng)前的視頻生成模型在「多對(duì)象生成」（Multiple Objects）和「空間關(guān)系」（Spatial Relationship）方面還是追不上圖片生成模型（尤其是 SDXL），這凸顯了提升組合能力的重要性。所謂組合能力指的是模型在視頻生成中是否能準(zhǔn)確展示多個(gè)對(duì)象，及它們之間的空間及互動(dòng)關(guān)系。

解決這一問題的潛在方法可能包括：

數(shù)據(jù)打標(biāo)：構(gòu)建視頻數(shù)據(jù)集，提供對(duì)視頻中多個(gè)物體的明確描述，以及物體間空間位置關(guān)系以及互動(dòng)關(guān)系的描述。
在視頻生成過程中添加中間模態(tài) / 模塊來輔助控制物體的組合和空間位置關(guān)系。
使用更好的文本編碼器（Text Encoder）也會(huì)對(duì)模型的組合生成能力有比較大的影響。
曲線救國(guó)：將 T2V 做不好的「物體組合」?問題交給 T2I，通過 T2I+I2V 的方式來生成視頻。這一做法針對(duì)其他很多視頻生成中的問題或許也有效。

以上就是AI視頻生成框架測(cè)試競(jìng)爭(zhēng)：Pika、Gen-2、ModelScope、SEINE，誰能勝出？的詳細(xì)內(nèi)容，更多請(qǐng)關(guān)注php中文網(wǎng)其它相關(guān)文章！

相關(guān)標(biāo)簽：

ai for 對(duì)象 background github https prompt