AI 視頻生成,是最近最熱門的領(lǐng)域之一。各個(gè)高校實(shí)驗(yàn)室、互聯(lián)網(wǎng)巨頭 AI Lab、創(chuàng)業(yè)公司紛紛加入了 AI 視頻生成的賽道。Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM 等視頻生成模型的發(fā)布,更是讓人眼前一亮。v???
大家肯定對(duì)以下幾個(gè)問題感到好奇:
為此,我們推出了VBench,一個(gè)全面的「視頻生成模型的評(píng)測(cè)框架」,旨在向用戶提供關(guān)于各種視頻模型的優(yōu)劣和特點(diǎn)。通過VBench,用戶可以了解不同視頻模型的強(qiáng)項(xiàng)和優(yōu)勢(shì)。
???AI 智能聊天, 問答助手, AI 智能搜索, 免費(fèi)無限量使用 DeepSeek R1 模型???
VBench不僅能全面、細(xì)致地評(píng)估視頻生成效果,還能提供符合人們感官體驗(yàn)的評(píng)估,節(jié)省時(shí)間和精力。
“VBench” - 「視頻生成模型」的全面基準(zhǔn)測(cè)試套件
已開源的 AI 視頻生成模型
各個(gè)開源的 AI 視頻生成模型在?VBench 上的表現(xiàn)如下。
各家已開源的 ai 視頻生成模型在 vbench 上的表現(xiàn)。在雷達(dá)圖中,為了更清晰地可視化比較,我們將每個(gè)維度的評(píng)測(cè)結(jié)果歸一化到了 0.3 與 0.8 之間。
各家已開源的 AI 視頻生成模型在 VBench 上的表現(xiàn)。
在以上 6 個(gè)模型中,可以看到 VideoCrafter-1.0 和 Show-1 在大多數(shù)維度都有相對(duì)優(yōu)勢(shì)。
創(chuàng)業(yè)公司的視頻生成模型
VBench 目前給出了 Gen-2 和 Pika 這兩家創(chuàng)業(yè)公司模型的評(píng)測(cè)結(jié)果。
Gen-2 和 Pika 在 VBench 上的表現(xiàn)。在雷達(dá)圖中,為了更清晰地可視化比較,我們加入了 VideoCrafter-1.0 和 Show-1 作為參考,同時(shí)將每個(gè)維度的評(píng)測(cè)結(jié)果歸一化到了 0.3 與 0.8 之間。
Gen-2 和 Pika 在 VBench 上的表現(xiàn)。我們加入了 VideoCrafter-1.0 和 Show-1 的數(shù)值結(jié)果作為參考。
可以看到,Gen-2 和 Pika 在視頻質(zhì)量(Video Quality)上有明顯優(yōu)勢(shì),例如時(shí)序一致性(Temporal Consistency)和單幀質(zhì)量(Aesthetic Quality 和 Imaging Quality)相關(guān)維度。在與用戶輸入的 prompt 的語義一致性上(例如 Human Action 和 Appearance Style),部分維度開源模型會(huì)更勝一籌。
視頻生成模型 VS 圖片生成模型
視頻生成模型 VS 圖片生成模型。其中 SD1.4,SD2.1 和 SDXL 是圖片生成模型。
視頻生成模型在 8 大場(chǎng)景類別上的表現(xiàn)
下面是不同模型在 8 個(gè)不同類別上的評(píng)測(cè)結(jié)果。
目前,VBench 已全面開源,且支持一鍵安裝。歡迎大家來玩,測(cè)試一下感興趣的模型,一起推動(dòng)視頻生成社區(qū)的發(fā)展。
開源地址:https://github.com/Vchitect/VBench
我們也開源了一系列 Prompt List:https://github.com/Vchitect/VBench/tree/master/prompts,包含在不同能力維度上用于評(píng)測(cè)的 Benchmark,以及在不同場(chǎng)景內(nèi)容上的評(píng)測(cè) Benchmark。
左邊詞云展示了我們 Prompt Suites 的高頻詞分布,右圖展示了不同維度和類別的 prompt 數(shù)量統(tǒng)計(jì)。
針對(duì)每個(gè)維度,我們計(jì)算了 VBench 評(píng)測(cè)結(jié)果與人工評(píng)測(cè)結(jié)果之間的相關(guān)度,進(jìn)而驗(yàn)證我們方法與人類觀感的一致性。下圖中,橫軸代表不同維度的人工評(píng)測(cè)結(jié)果,縱軸則展示了 VBench 方法自動(dòng)評(píng)測(cè)的結(jié)果,可以看到我們方法在各個(gè)維度都與人類感知高度對(duì)齊。
VBench 不僅可以對(duì)現(xiàn)有模型進(jìn)行評(píng)測(cè),更重要的是,還可以發(fā)現(xiàn)不同模型中可能存在的各種問題,為未來 AI 視頻生成的發(fā)展提供有價(jià)值的 insights。
「時(shí)序連貫性」以及「視頻的動(dòng)態(tài)程度」:不要二選一,而應(yīng)同時(shí)提升
我們發(fā)現(xiàn)時(shí)序連貫性(例如 Subject Consistency、Background Consistency、Motion Smoothness)與視頻中運(yùn)動(dòng)的幅度(Dynamic Degree)之間有一定的權(quán)衡關(guān)系。比如說,Show-1 和 VideoCrafter-1.0 在背景一致性和動(dòng)作流暢度方面表現(xiàn)很好,但在動(dòng)態(tài)程度方面得分較低;這可能是因?yàn)樯?「沒有動(dòng)起來」?的畫面更容易顯得 「在時(shí)序上很連貫」。另一方面,VideoCrafter-0.9 在與時(shí)序一致性的維度上弱一些,但在 Dynamic Degree 上得分很高。
這說明,同時(shí)做好 「時(shí)序連貫性」?和 「較高的動(dòng)態(tài)程度」?確實(shí)挺難的;未來不應(yīng)只關(guān)注其中一方面的提升,而應(yīng)該同時(shí)提升 「時(shí)序連貫性」?以及 「視頻的動(dòng)態(tài)程度」?這兩方面,這才是有意義的。
分場(chǎng)景內(nèi)容進(jìn)行評(píng)測(cè),發(fā)掘各家模型潛力
有些模型在不同類別上表現(xiàn)出的性能存在較大差異,比如在美學(xué)質(zhì)量(Aesthetic Quality)上,CogVideo 在 「Food」?類別上表現(xiàn)不錯(cuò),而在 「LifeStyle」?類別得分較低。如果通過訓(xùn)練數(shù)據(jù)的調(diào)整,CogVideo 在 「LifeStyle」?這些類別上的美學(xué)質(zhì)量是否可以提升上去,進(jìn)而提升模型整體的視頻美學(xué)質(zhì)量?
這也告訴我們,在評(píng)估視頻生成模型時(shí),需要考慮模型在不同類別或主題下的表現(xiàn),挖掘模型在某個(gè)能力維度的上限,進(jìn)而針對(duì)性地提升 「拖后腿」?的場(chǎng)景類別。
有復(fù)雜運(yùn)動(dòng)的類別:時(shí)空表現(xiàn)都不佳
在空間上復(fù)雜度高的類別,在美學(xué)質(zhì)量維度得分都比較低。例如,「LifeStyle」?類別對(duì)復(fù)雜元素在空間中的布局有比較高的要求,「Human」?類別由于鉸鏈?zhǔn)浇Y(jié)構(gòu)的生成帶來了挑戰(zhàn)。
對(duì)于時(shí)序復(fù)雜的類別,比如 「Human」?類別通常涉及復(fù)雜的動(dòng)作、「Vehicle」?類別會(huì)經(jīng)常出現(xiàn)較快的移動(dòng),它們?cè)谒袦y(cè)試的維度上得分都相對(duì)較低。這表明當(dāng)前模型在處理時(shí)序建模方面仍然存在一定的不足,時(shí)序上的建模局限可能會(huì)導(dǎo)致空間上的模糊與扭曲,從而導(dǎo)致視頻在時(shí)間和空間上的質(zhì)量都不理想。
難生成的類別:提升數(shù)據(jù)量收益不大
我們對(duì)常用的視頻數(shù)據(jù)集 WebVid-10M 進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)其中約有 26% 的數(shù)據(jù)與 「Human」?有關(guān),在我們統(tǒng)計(jì)的八個(gè)類別中占比最高。然而,在評(píng)估結(jié)果中,「Human」?類別卻是八個(gè)類別中表現(xiàn)最差的之一。
這說明對(duì)于 「Human」?這樣復(fù)雜的類別,僅僅增加數(shù)據(jù)量可能不會(huì)對(duì)性能帶來顯著的改善。一種潛在的方法是通過引入 「Human」?相關(guān)的先驗(yàn)知識(shí)或控制,比如 Skeletons 等,來指導(dǎo)模型的學(xué)習(xí)。
百萬量級(jí)的數(shù)據(jù)集:提升數(shù)據(jù)質(zhì)量?jī)?yōu)先于數(shù)據(jù)量
「Food」?類別雖然在 WebVid-10M 中僅占據(jù) 11%,但在評(píng)測(cè)中幾乎總是擁有最高的美學(xué)質(zhì)量分?jǐn)?shù)。于是我們進(jìn)一步分析了 WebVid-10M 數(shù)據(jù)集不同類別內(nèi)容的美學(xué)質(zhì)量表現(xiàn),發(fā)現(xiàn) 「Food」 類別在 WebVid-10M 中也有最高的美學(xué)評(píng)分。
這意味著,在百萬量級(jí)數(shù)據(jù)的基礎(chǔ)上,篩選 / 提升數(shù)據(jù)質(zhì)量比增加數(shù)據(jù)量更有幫助。
待提升的能力:準(zhǔn)確生成生成多物體,以及物體間的關(guān)系
當(dāng)前的視頻生成模型在 「多對(duì)象生成」(Multiple Objects)和 「空間關(guān)系」(Spatial Relationship)方面還是追不上圖片生成模型(尤其是 SDXL),這凸顯了提升組合能力的重要性。所謂組合能力指的是模型在視頻生成中是否能準(zhǔn)確展示多個(gè)對(duì)象,及它們之間的空間及互動(dòng)關(guān)系。
解決這一問題的潛在方法可能包括:
以上就是AI視頻生成框架測(cè)試競(jìng)爭(zhēng):Pika、Gen-2、ModelScope、SEINE,誰能勝出?的詳細(xì)內(nèi)容,更多請(qǐng)關(guān)注php中文網(wǎng)其它相關(guān)文章!
每個(gè)人都需要一臺(tái)速度更快、更穩(wěn)定的 PC。隨著時(shí)間的推移,垃圾文件、舊注冊(cè)表數(shù)據(jù)和不必要的后臺(tái)進(jìn)程會(huì)占用資源并降低性能。幸運(yùn)的是,許多工具可以讓 Windows 保持平穩(wěn)運(yùn)行。
微信掃碼
關(guān)注PHP中文網(wǎng)服務(wù)號(hào)
QQ掃碼
加入技術(shù)交流群
Copyright 2014-2025 http://ipnx.cn/ All Rights Reserved | php.cn | 湘ICP備2023035733號(hào)