亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目錄
比以前的型號低的計算成本
1。用戶輸入(文本編碼)
差異自動編碼器(vae)
的高級模型來完成的,該模型旨在生成高度逼真的視頻。
上進行評估,
步驟3:
首頁 科技週邊 人工智慧 中國新的AI視頻明星:Step-Video-T2V

中國新的AI視頻明星:Step-Video-T2V

Mar 04, 2025 am 11:00 AM

中國在生成AI中迅速發(fā)展,基於DeepSeek模型和Kimi K1.5的成功,語言模型中的成功?,F(xiàn)在,它以O(shè)mnihuman和Goku在3D建模和視頻綜合方面取得了卓越的表現(xiàn)。借助Step-Video-T2V,中國直接挑戰(zhàn)了Sora,Weo 2和Stepfun AI開發(fā)的電影《 video 2》和《電影將軍》,Step-Video-T2V是一個30B參數(shù)模型,它會產(chǎn)生高質(zhì)量的204-Frame視頻。它利用視頻VAE,雙語編碼器和3D注意事項來設(shè)定新的視頻生成標(biāo)準(zhǔn)。它是否應(yīng)對文本訪問的核心挑戰(zhàn)?讓我們潛入。

Table of contents

    Challenges in Text-to-Video Models
  • How Step-Video-T2V is Solving These Problems?
  • Model Architecture
    • Text Encoding with Bilingual Understanding
    • Variational Autoencoder (Video-VAE) for Compression
    • Diffusion具有3D全神貫注的變壓器(DIT)
    • >自適應(yīng)層的歸一化(adaln-single)
    • >
    • > step-video-t2v如何工作? 3D全部關(guān)注)
    • 優(yōu)化(微調(diào)和視頻DPO培訓(xùn))
    • 最終輸出(高質(zhì)量的204-frame Video)
    • van gogh in Paris
>千年獵鷹旅程
  • 結(jié)論 文本到視頻模型中的挑戰(zhàn)

    雖然文本到視頻模型已經(jīng)走了很長一段路,但他們?nèi)匀幻媾R著基本的障礙:
    • 複雜的動作序列
    • - 當(dāng)前的模型難以生成遵循複雜動作序列的現(xiàn)實視頻,例如,體操運動員表現(xiàn)翻轉(zhuǎn)或籃球?qū)嶋H上彈跳。
    • > 物理和因果關(guān)係
    • - 大多數(shù)基於擴散的模型無法有效地模擬現(xiàn)實世界。物體相互作用,重力和物理定律經(jīng)常被忽略。
    • >以下說明
    • - 模型經(jīng)常錯過用戶提示中的關(guān)鍵細節(jié),尤其是在處理稀有概念時(例如,同一視頻中的企鵝和大象)。
    • > >計算成本 - 生成高分辨率,長期視頻是極其資源密集型
    • ,限制了研究人員和創(chuàng)作者的可訪問性。
    • > >字幕和對齊 - 視頻模型依賴於大量數(shù)據(jù)集,但是較差的視頻字幕會導(dǎo)致較弱的迅速依從性,導(dǎo)致幻覺的內(nèi)容
    • >。
    。

    step-video-t2v如何解決這些問題?

    中國新的AI視頻明星:Step-Video-T2V

    > step-video-t2v通過幾個創(chuàng)新來應(yīng)對這些挑戰(zhàn)

    • 深度壓縮視頻vae:成就 16×16空間和8x時間壓縮,在保持高視頻質(zhì)量的同時大大降低了計算要求。 >
    • >雙語文本編碼器:集成,允許該模型在中文和英語>。 中有效地處理提示 > 3D全注意力:而不是傳統(tǒng)的時空注意力,而是增強了運動連續(xù)性和場景一致性
    • video-dpo(直接偏好優(yōu)化):合併>人類的反饋循環(huán)
    • 以減少工件,改善現(xiàn)實主義和使生成的內(nèi)容與用戶期望保持一致。
    • > 模型體系結(jié)構(gòu) > Step-Video-T2V模型體系結(jié)構(gòu)圍繞三部分管道構(gòu)建,以有效地處理文本提示並生成高質(zhì)量的視頻。該模型集成了雙語文本編碼器,變量自動編碼器(視頻VAE)和一個具有3D注意的擴散變壓器(DIT),將其與傳統(tǒng)的文本到視頻模型區(qū)分開來。

    1。用雙語理解編碼的文本

    在輸入階段,step-video-t2v採用

    >兩個強大的雙語文本編碼:中國新的AI視頻明星:Step-Video-T2V

    > hunyuan-clip:一種針對文本和圖像之間的語義對齊優(yōu)化的視覺模型。

      step-llm
    • :一種專門了解複雜說明中文和英語的大型語言模型。 這些編碼器處理
    • 用戶提示
    • 並將其轉(zhuǎn)換為有意義的潛在表示,以確保模型準(zhǔn)確地遵循說明。 2。用於壓縮的變量自動編碼器(視頻VAE) 生成長,高分辨率的視頻在計算上很昂貴。 Step-Video-T2V使用A 深度壓縮變化自動編碼器(Video-Vae)>有效地降低視頻數(shù)據(jù)的問題:>
    >空間壓縮(16×16)

    >和時間壓縮(8x)>降低視頻尺寸的同時保留運動詳細信息。 此啟用更長的序列(204幀)

    比以前的型號低的計算成本

    。

    3。擴散變壓器(DIT)具有3D的全部注意
      Step-Video-T2V的核心是其
    • 擴散變壓器(DIT),具有3D的全部注意力,它顯著提高了運動平滑度和場景相干性。

      中國新的AI視頻明星:Step-Video-T2V

      DIT的

      > ITH塊由多個組成的組件組成,這些組件完善了視頻生成過程:> 每個變壓器塊的關(guān)鍵組件

        交叉注意:通過對文本嵌入式上生成的幀進行調(diào)節(jié),請確保更好的文本對視頻對齊
      • 。 >自我注意事項(帶有繩索3D):使用旋轉(zhuǎn)位置編碼(rope-3d)以增強
      • 時空的理解
      • ,確保對象自然地跨幀。 qk-norm(Query-Key規(guī)範(fàn)化):提高注意力機制的穩(wěn)定性,減少對象定位的不一致。 柵極機制:這些自適應(yīng)門
      • 調(diào)節(jié)信息流,防止過度適合特定模式
      • >並改善概括。 >
      • 比例/偏移操作
      • :歸一化和微調(diào)中間表示,確保視頻幀之間的平滑過渡。 4。自適應(yīng)層歸一化(Adaln-single) 該模型還包括
      • 自適應(yīng)層的歸一化(adaln-single)
      • ,該>基於> timeStep(t)
      • 這可以確保
      跨視頻序列的時間一致性。

      。

        step-video-t2v如何工作?
      • step-video-t2v模型是一種尖端的
      • 文本到視頻AI系統(tǒng),它基於文本描述生成高質(zhì)量的運動豐富的視頻。工作機制涉及多種複雜的AI技術(shù),以確保運動,遵守提示和現(xiàn)實輸出。讓我們逐步將其分解:
      • 1。用戶輸入(文本編碼)

        • 該模型以處理用戶輸入開始,這是一個文本提示,描述了所需的視頻。
        • 這是使用>雙語文本編碼器完成的(例如,)。
    • 雙語能力
    • 確??梢詼?zhǔn)確理解英語和中文的提示。 > 2。潛在表示(帶視頻VAE的壓縮)
    視頻生成在計算上很重,因此該模型採用a

    差異自動編碼器(vae)

    >專門用於視頻壓縮,稱為 video-vae-vae
      >。
    • 視頻vae的函數(shù): 將視頻幀壓縮到A
    • >較低維的潛在空間
    • ,大大降低了計算成本。
      • 維護關(guān)鍵的視頻質(zhì)量方面,例如運動連續(xù)性,紋理和對象詳細信息。
      • >使用
      • 16×16的空間和8x時間壓縮,在保留高保真度的同時使模型有效。
      • 3。去核過程(擴散變壓器具有3D的全部注意力)
      • 獲得潛在表示後,下一步是 denoising Process
      • ,它可以完善視頻幀。
    • 這是使用
    擴散變壓器(DIT)

    的高級模型來完成的,該模型旨在生成高度逼真的視頻。

    • 密鑰創(chuàng)新:
    • 擴散變壓器適用3D完全注意
    • ,這是一種強大的機制,專注於空間,時間和運動動力學(xué)
    • 。 的使用流量匹配
        >
      • 在跨幀的範(fàn)圍內(nèi)增強運動一致性,以確保視頻過渡更平滑。 4。優(yōu)化(微調(diào)和視頻DPO培訓(xùn))
      • 生成的視頻經(jīng)歷了一個優(yōu)化階段,使其更加準(zhǔn)確,連貫和視覺吸引力。這涉及:
      • 用高質(zhì)量數(shù)據(jù)來提高其遵循複雜提示的能力。
    • > video-dpo(直接偏好優(yōu)化)
    培訓(xùn),其中包含人類的反饋

    >:

    減少不需要的偽影。 中國新的AI視頻明星:Step-Video-T2V

    改善運動和紋理的現(xiàn)實主義。

    >將視頻生成與用戶期望相結(jié)合。

    • 5。最終輸出(高質(zhì)量204框架視頻)
      • 最終視頻是> 204幀長,這意味著它為講故事提供了重要的持續(xù)時間。 >高分辨率生成
      • 確保視覺效果清晰和清除對象渲染。
      • >強烈的運動現(xiàn)實主義
      • 表示視頻保持
      • 平穩(wěn)而自然的運動,使其適用於人類手勢,對象相互作用和動態(tài)背景等複雜場景。 針對競爭對手的>基準(zhǔn)測試
      • > step-video-t2v在
      > spep-video-t2v-eval

      上進行評估,

      > 128-prompt-prompt Benchmark

      覆蓋體育,食物,美食,風(fēng)景,超現(xiàn)實主義,人,人和動畫>>。與領(lǐng)先的模型相比,它在運動動力學(xué)和現(xiàn)實主義中提供了最先進的表現(xiàn)。 在整體視頻質(zhì)量和光滑方面,優(yōu)勝於hunyuanvideo。 競爭對手電影gen video ,但由於有限的高質(zhì)量標(biāo)籤數(shù)據(jù)而導(dǎo)致細粒度的美學(xué)滯後。

        擊敗運動一致性的跑道gen-3 alpha
      1. ,但在電影吸引力中略有滯後。
      2. 挑戰(zhàn)中國頂級商業(yè)模型(T2VTOPA和T2VTOPB)
      3. ,但由於較低的分辨率而降低了美學(xué)質(zhì)量(540p vs. 1080p)。 >性能指標(biāo)
      4. step-video-t2v介紹新評估標(biāo)準(zhǔn)
      5. >以下說明
      6. - 測量生成的視頻與提示的對齊程度。

      運動平滑度

      - 評分視頻中動作的自然流動。 身體合理性

      - 評估運動是否遵循物理定律。
      • 美學(xué)上的吸引力 - 判斷視頻的藝術(shù)和視覺質(zhì)量。
      • 在人類評估中, Step-Video-T2V始終優(yōu)於運動平滑性和物理合理性的競爭者,使其成為最先進的開源模型之一。 >如何訪問step-video-t2v?
      • >>步驟1:訪問此處的官方網(wǎng)站。 >
      • 步驟2:
      • 使用您的手機號碼註冊。 > >注意:
      • 當(dāng)前,註冊僅針對有限數(shù)量的國家開放。不幸的是,它在印度不可用,所以我無法註冊。但是,如果您位於受支持的地區(qū),則可以嘗試。
      >

      >

      步驟3:

      >添加您的提示符,然後開始生成驚人的視頻!

      由step-video-t2v

      創(chuàng)建的vidoes的示例 這是該工俱生成的一些視頻。我從他們的官方網(wǎng)站上拿走了這些。 van gogh在巴黎

      >

      提示:在巴黎的街道上,梵高坐在咖啡館外面,用手裡拿著繪圖板畫一個夜面場景。相機以中型拍攝拍攝,顯示了他專注的表情和快速移動的刷子。背景中的路燈和行人略微模糊,使用了淺水深度來突出他的形象。隨著時間的流逝,天空從黃昏變成了夜晚,星星逐漸出現(xiàn)。相機慢慢拉開,看看他完成的作品與真實的夜幕界之間的比較。 提示:

      “在廣闊的宇宙中,《星球大戰(zhàn)》中的千年獵鷹正在穿越星星。相機顯示航天器在遙遠的視野中飛行。相機很快遵循航天器的軌跡,顯示了其高速班車。進入駕駛艙後,攝像機專注於緊張地操作樂器的Han Solo和Chewbacca的面部表情。儀表板閃爍的燈光,背景星空迅速在舷窗外面穿過。

      結(jié)論 在中國以外的情況下, Step-Video-T2V尚不可用。公開後,我將測試並分享我的評論。儘管如此,它仍然標(biāo)誌著中國生物AI的重大進步,證明其實驗室正在與Openai和DeepMind一起塑造多模式AI的未來。視頻生成的下一步需要更好的指導(dǎo)遵循,物理模擬和更豐富的數(shù)據(jù)集。 Step-Video-T2V為開源視頻模型鋪平了道路,從而增強了全球研究人員和創(chuàng)作者的能力。中國的人工智能勢頭表明之前更現(xiàn)實,更有效的文本與視頻創(chuàng)新

    以上是中國新的AI視頻明星:Step-Video-T2V的詳細內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

    本網(wǎng)站聲明
    本文內(nèi)容由網(wǎng)友自願投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請聯(lián)絡(luò)admin@php.cn

    熱AI工具

    Undress AI Tool

    Undress AI Tool

    免費脫衣圖片

    Undresser.AI Undress

    Undresser.AI Undress

    人工智慧驅(qū)動的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

    AI Clothes Remover

    AI Clothes Remover

    用於從照片中去除衣服的線上人工智慧工具。

    Clothoff.io

    Clothoff.io

    AI脫衣器

    Video Face Swap

    Video Face Swap

    使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

    熱工具

    記事本++7.3.1

    記事本++7.3.1

    好用且免費的程式碼編輯器

    SublimeText3漢化版

    SublimeText3漢化版

    中文版,非常好用

    禪工作室 13.0.1

    禪工作室 13.0.1

    強大的PHP整合開發(fā)環(huán)境

    Dreamweaver CS6

    Dreamweaver CS6

    視覺化網(wǎng)頁開發(fā)工具

    SublimeText3 Mac版

    SublimeText3 Mac版

    神級程式碼編輯軟體(SublimeText3)

    熱門話題

    Laravel 教程
    1597
    29
    PHP教程
    1488
    72
    Kimi K2:最強大的開源代理模型 Kimi K2:最強大的開源代理模型 Jul 12, 2025 am 09:16 AM

    還記得今年早些時候破壞了Genai行業(yè)的大量開源中國模型嗎?儘管DeepSeek佔據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

    Grok 4 vs Claude 4:哪個更好? Grok 4 vs Claude 4:哪個更好? Jul 12, 2025 am 09:37 AM

    到2025年中期,AI“軍備競賽”正在加熱,XAI和Anthropic都發(fā)布了他們的旗艦車型Grok 4和Claude 4。這兩種模型處於設(shè)計理念和部署平臺的相反端,但他們卻在

    今天已經(jīng)在我們中間走了10個驚人的人形機器人 今天已經(jīng)在我們中間走了10個驚人的人形機器人 Jul 16, 2025 am 11:12 AM

    但是我們可能甚至不必等10年就可以看到一個。實際上,可以被認為是真正有用的,類人類機器的第一波。 近年來,有許多原型和生產(chǎn)模型從T中走出來

    上下文工程是' new'及時的工程 上下文工程是' new'及時的工程 Jul 12, 2025 am 09:33 AM

    直到上一年,迅速的工程被認為是與大語言模型(LLM)互動的關(guān)鍵技能。然而,最近,LLM在推理和理解能力方面已經(jīng)顯著提高。自然,我們的期望

    6個任務(wù)Manus AI可以在幾分鐘內(nèi)完成 6個任務(wù)Manus AI可以在幾分鐘內(nèi)完成 Jul 06, 2025 am 09:29 AM

    我相信您必須了解通用的AI代理Manus。它是幾個月前推出的,在過去的幾個月中,他們?yōu)橄到y(tǒng)添加了幾個新功能?,F(xiàn)在,您可以生成視頻,創(chuàng)建網(wǎng)站並做很多MO

    Leia的浸入式移動應(yīng)用將3D深度帶入日常照片 Leia的浸入式移動應(yīng)用將3D深度帶入日常照片 Jul 09, 2025 am 11:17 AM

    基於Leia專有的神經(jīng)深度引擎,應(yīng)用程序流程靜止圖像,並添加了自然深度以及模擬運動(例如Pans,Zooms和Alallax Effects),以創(chuàng)建簡短的視頻捲軸,從而給人以踏入SCE的印象

    這些AI模型沒有學(xué)習(xí)語言,他們學(xué)習(xí)了策略 這些AI模型沒有學(xué)習(xí)語言,他們學(xué)習(xí)了策略 Jul 09, 2025 am 11:16 AM

    倫敦國王學(xué)院和牛津大學(xué)的研究人員的一項新研究分享了Openai,Google和Anthropic在基於迭代囚犯的困境基於的cutthroat競爭中一起投擲的結(jié)果。這是沒有的

    7種AI代理的7種類型是什麼? 7種AI代理的7種類型是什麼? Jul 11, 2025 am 11:08 AM

    想像一些複雜的東西,例如AI引擎準(zhǔn)備提供有關(guān)米蘭新服裝系列的詳細反饋,或者自動市場分析用於全球運營的企業(yè),或者智能係統(tǒng)管理大型車隊。

    See all articles