share_log

Sora这就落伍了?Meta“最强视频模型”不用DiT,用Llama大力出奇迹了

Sora這就落伍了?Meta「最強視頻模型」不用DiT,用Llama大力出奇跡了

品玩 ·  10/05 15:35

在OpenAI Sora的主要技術負責人跑去Google、多個報道指出OpenAI Sora在內部因質量問題而導致難產的節骨眼,Meta毫不客氣發了它的視頻模型「Movie Gen」,並直接用一個完整的評測體系宣告自己打敗了Sora們。

而且更狠的是,Meta還「殺人誅心」,雖然這模型目前和Sora一樣還沒對外開放,但它把新模型的95頁技術報告(沒有開源,但包含很多細節)公開,並且告訴大家:

這模型不僅效果上打敗了Sora,而且用了新的技術路線——也就是證明了Sora的技術路線在今天也不再是最先進的了。

各位文生視頻玩家們,別「抄」Sora了。

「媒體基座模型」

準確說,Meta發佈的是一系列模型,一個爲了實現「AI生成媒體內容」而創建的一個組合。這也是這個技術論文的標題的意思:Movie Gen: A Cast of Media Foundation Models

這個組合包括:

最大的基礎文生視頻生成模型 Movie Gen Video , 300 億參數。

最大的基礎視頻生成音頻模型 Movie Gen Audio ,130 億參數。

進一步對 Movie Gen Video 模型進行後訓練獲得的 Personalized Movie Gen Video,用來根據個人的面部生成個性化視頻。以及一種新的後訓練過程,能夠生成 Movie Gen Edit,用於精確編輯視頻。

這些模型結合起來,可以用於創建最高 16 秒的逼真個性化高清視頻(16 FPS)和 48kHz 的音頻,並具備編輯真實或生成視頻的能力。

在用戶側,能體驗到的功能包括:

視頻生成: 用戶用一段文本提示能生成高清視頻(1080p),最長可達 16 秒,幀率 高達16fps。對主體-客體關係,物流規律捕捉和攝像機的各種拍攝運動等也都完成的很好。

個性化視頻生成: 用戶可以上傳自己的圖像,結合文本提示,可以讓自己出現在個性化的生成視頻裏。

精準視頻編輯: 這是Meta重點強調的功能,除了可以對背景和風格做整體的修改,Movie Gen也提供了通過文本指令來添加、移除或替換元素的局部編輯功能。缺乏對視頻的精確編輯能力,在目前視頻生成產品中算是一大痛點。

音頻生成: Movie Gen 不僅可以根據視頻內容和文本指令生成高質量的各類音效和音樂,而且還可以做到與視頻內容更高度的匹配與同步。這些音頻最長可達 45 秒,而且Meta還表示,它們的音頻模型可以生成任意長度視頻的連貫音頻。

這是它展示的一系列案例:

不用DiT了,用Llama大力出奇跡!

這其中,最重要的顯然是文生視頻部分。

根據論文介紹,Movie Gen Video是一個擁有300億參數的基礎模型,用於聯合文本生成圖像和視頻,可以生成符合文本提示的高質量高清(HD)視頻,時長最長可達16秒。該模型能夠自然地生成多種縱橫比、分辨率和時長的高質量圖像和視頻。模型通過聯合預訓練,處理約1億個視頻和約10億張圖像,通過「觀看」視頻來學習視覺世界。

這只是最基礎的介紹,而最最重要的信息就是,它不再是一個DiT架構的模型,也就是和現在幾乎所有最知名的文生視頻模型架構都不一樣。

用Meta視頻生成團隊的研究科學家Andrew Brown的話說,在這個項目裏最大的發現就是:數據,算力和模型參數非常重要。然後把這個搭配上Flow Matching,就可以用一個最簡單最流行的架構——也就是Meta自己的Llama,實現最強的視頻模型。

這明顯是衝着Sora誕生後,已經成爲所有文生視頻創業公司和大廠項目主流的DiT路線去的。

今天視頻生成的技術路線裏,擴散模型是背後最主流的思想。簡單說,它通過逐步將噪聲還原爲圖像或視頻,生成過程是一個去噪的過程。具體地,擴散模型的生成過程通常是從隨機噪聲開始,逐步反向推導出與輸入文本描述相對應的清晰視頻幀。而DiT是把Transformer的能力引入到這個思想裏,來更好完成模型對全局上下文信息的捕捉能力,本質上還是擴散的思路。

但Flow Matching則不再從這個擴散過程入手做訓練,而是更「暴力」,直接尋找更抽象的「近路」,而不是一步步尋找找路過程裏的腳印:

Flow Matching基於軌跡學習,它直接在潛在空間(latent space)中學習從輸入噪聲到目標視頻序列的映射軌跡。它通過優化一個連續的ODE(常微分方程)系統,找到從初始隨機分佈到目標分佈的最佳「路徑」。

而Meta這次把Flow Matching直接加到Llama架構上,第一次徹底不用擴散的思路來做生成並打敗了DiT路線的一衆代表模型。

要實現這個效果,自然是離不開「大力出奇跡」的配套方法。

根據Meta的論文,他們使用了多達 6144 個 H100 GPU 訓練了媒體生成模型,每個 GPU 的運行功率爲 700W TDP,配備 80GB HBM3,採用 Meta 的 Grand Teton AI 服務器平台(Baumgartner 和 Bowman,2022)。在一臺服務器內,有八個 GPU 通過 NVSwitch 進行均勻連接。服務器之間的 GPU 則通過 400Gbps RoCE RDMA 網卡相互連接。訓練任務由 Meta 的全球規模訓練調度器Mast進行調度。

扎克伯格囤的那些卡用在了哪裏,用在了這。

除此之外,在這個詳盡的論文裏,Meta還介紹了在模型各個環節裏的多個創新技巧。比如時空自動編碼器(Temporal Autoencoder, TAE),通過它將視頻和圖像編碼到壓縮的時空潛在空間中,大幅減少生成視頻時的計算量。這些技術讓Meta可以「用一個更通用的架構來處理媒體生成任務」,它把圖像和視頻生成統一了起來。

簡單說,Movie Gen用Llama大力出奇跡打敗了Sora路線。

在Meta的各路人馬對此次模型的宣傳裏,其實有一個很明顯的意圖:在證明了Sora路線不是最優路線後,它希望更多的開發者來基於Llama做文生視頻的模型開發和研究。顯然這對Meta的開源戰略也很重要。

而另一個有意思的地方是,Meta這次的「模型家族」,其實不只是追求榜單和評測上的表現,它已經呈現出明顯的實際應用導向,這讓它本身看起來可能不會走開源路線,它的目標是用在Meta自己的社交媒體,乃至Orion爲代表的下一代的計算平台生態裏。

在Meta的官方博客裏這樣寫道:

想象一下,您可以用文字提示來製作並編輯一個「日常生活」的動畫視頻分享到Reels,或者爲朋友定製一個個性化的生日動畫祝福,並通過WhatsApp發送給他們。隨着創造力和自我表達的主導,可能性將是無限的。

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論