Sora這就落伍了？Meta「最強視頻模型」不用DiT，用Llama大力出奇跡了

品玩 · 10/05 15:35

在OpenAI Sora的主要技术负责人跑去Google、多个报道指出OpenAI Sora在内部因质量问题而导致难产的节骨眼，Meta毫不客气发了它的视频模型“Movie Gen”，并直接用一个完整的评测体系宣告自己打败了Sora们。

而且更狠的是，Meta还“杀人诛心”，虽然这模型目前和Sora一样还没对外开放，但它把新模型的95页技术报告（没有开源，但包含很多细节）公开，并且告诉大家：

这模型不仅效果上打败了Sora，而且用了新的技术路线——也就是证明了Sora的技术路线在今天也不再是最先进的了。

各位文生视频玩家们，别“抄”Sora了。

“媒体基座模型”

准确说，Meta发布的是一系列模型，一个为了实现“AI生成媒体内容”而创建的一个组合。这也是这个技术论文的标题的意思：Movie Gen: A Cast of Media Foundation Models

这个组合包括：

最大的基础文生视频生成模型 Movie Gen Video ， 300 亿参数。

最大的基础视频生成音频模型 Movie Gen Audio ，130 亿参数。

进一步对 Movie Gen Video 模型进行后训练获得的 Personalized Movie Gen Video，用来根据个人的面部生成个性化视频。以及一种新的后训练过程，能够生成 Movie Gen Edit，用于精确编辑视频。

这些模型结合起来，可以用于创建最高 16 秒的逼真个性化高清视频（16 FPS）和 48kHz 的音频，并具备编辑真实或生成视频的能力。

在用户侧，能体验到的功能包括：

视频生成：用户用一段文本提示能生成高清视频（1080p），最长可达 16 秒，帧率高达16fps。对主体-客体关系，物流规律捕捉和摄像机的各种拍摄运动等也都完成的很好。

个性化视频生成：用户可以上传自己的图像，结合文本提示，可以让自己出现在个性化的生成视频里。

精准视频编辑：这是Meta重点强调的功能，除了可以对背景和风格做整体的修改，Movie Gen也提供了通过文本指令来添加、移除或替换元素的局部编辑功能。缺乏对视频的精确编辑能力，在目前视频生成产品中算是一大痛点。

音频生成： Movie Gen 不仅可以根据视频内容和文本指令生成高质量的各类音效和音乐，而且还可以做到与视频内容更高度的匹配与同步。这些音频最长可达 45 秒，而且Meta还表示，它们的音频模型可以生成任意长度视频的连贯音频。

这是它展示的一系列案例：

不用DiT了，用Llama大力出奇迹！

这其中，最重要的显然是文生视频部分。

根据论文介绍，Movie Gen Video是一个拥有300亿参数的基础模型，用于联合文本生成图像和视频，可以生成符合文本提示的高质量高清（HD）视频，时长最长可达16秒。该模型能够自然地生成多种纵横比、分辨率和时长的高质量图像和视频。模型通过联合预训练，处理约1亿个视频和约10亿张图像，通过“观看”视频来学习视觉世界。

这只是最基础的介绍，而最最重要的信息就是，它不再是一个DiT架构的模型，也就是和现在几乎所有最知名的文生视频模型架构都不一样。

用Meta视频生成团队的研究科学家Andrew Brown的话说，在这个项目里最大的发现就是：数据，算力和模型参数非常重要。然后把这个搭配上Flow Matching，就可以用一个最简单最流行的架构——也就是Meta自己的Llama，实现最强的视频模型。

这明显是冲着Sora诞生后，已经成为所有文生视频创业公司和大厂项目主流的DiT路线去的。

今天视频生成的技术路线里，扩散模型是背后最主流的思想。简单说，它通过逐步将噪声还原为图像或视频，生成过程是一个去噪的过程。具体地，扩散模型的生成过程通常是从随机噪声开始，逐步反向推导出与输入文本描述相对应的清晰视频帧。而DiT是把Transformer的能力引入到这个思想里，来更好完成模型对全局上下文信息的捕捉能力，本质上还是扩散的思路。

但Flow Matching则不再从这个扩散过程入手做训练，而是更“暴力”，直接寻找更抽象的“近路”，而不是一步步寻找找路过程里的脚印：

Flow Matching基于轨迹学习，它直接在潜在空间（latent space）中学习从输入噪声到目标视频序列的映射轨迹。它通过优化一个连续的ODE（常微分方程）系统，找到从初始随机分布到目标分布的最佳“路径”。

而Meta这次把Flow Matching直接加到Llama架构上，第一次彻底不用扩散的思路来做生成并打败了DiT路线的一众代表模型。

要实现这个效果，自然是离不开“大力出奇迹”的配套方法。

根据Meta的论文，他们使用了多达 6144 个 H100 GPU 训练了媒体生成模型，每个 GPU 的运行功率为 700W TDP，配备 80GB HBM3，采用 Meta 的 Grand Teton AI 服务器平台（Baumgartner 和 Bowman，2022）。在一台服务器内，有八个 GPU 通过 NVSwitch 进行均匀连接。服务器之间的 GPU 则通过 400Gbps RoCE RDMA 网卡相互连接。训练任务由 Meta 的全球规模训练调度器Mast进行调度。

扎克伯格囤的那些卡用在了哪里，用在了这。

除此之外，在这个详尽的论文里，Meta还介绍了在模型各个环节里的多个创新技巧。比如时空自动编码器（Temporal Autoencoder, TAE），通过它将视频和图像编码到压缩的时空潜在空间中，大幅减少生成视频时的计算量。这些技术让Meta可以“用一个更通用的架构来处理媒体生成任务”，它把图像和视频生成统一了起来。

简单说，Movie Gen用Llama大力出奇迹打败了Sora路线。

在Meta的各路人马对此次模型的宣传里，其实有一个很明显的意图：在证明了Sora路线不是最优路线后，它希望更多的开发者来基于Llama做文生视频的模型开发和研究。显然这对Meta的开源战略也很重要。

而另一个有意思的地方是，Meta这次的“模型家族”，其实不只是追求榜单和评测上的表现，它已经呈现出明显的实际应用导向，这让它本身看起来可能不会走开源路线，它的目标是用在Meta自己的社交媒体，乃至Orion为代表的下一代的计算平台生态里。

在Meta的官方博客里这样写道：

想象一下，您可以用文字提示来制作并编辑一个“日常生活”的动画视频分享到Reels，或者为朋友定制一个个性化的生日动画祝福，并通过WhatsApp发送给他们。随着创造力和自我表达的主导，可能性将是无限的。

在OpenAI Sora的主要技術負責人跑去Google、多個報道指出OpenAI Sora在內部因質量問題而導致難產的節骨眼，Meta毫不客氣發了它的視頻模型「Movie Gen」，並直接用一個完整的評測體系宣告自己打敗了Sora們。

而且更狠的是，Meta還「殺人誅心」，雖然這模型目前和Sora一樣還沒對外開放，但它把新模型的95頁技術報告（沒有開源，但包含很多細節）公開，並且告訴大家：

這模型不僅效果上打敗了Sora，而且用了新的技術路線——也就是證明了Sora的技術路線在今天也不再是最先進的了。

各位文生視頻玩家們，別「抄」Sora了。

「媒體基座模型」

準確說，Meta發佈的是一系列模型，一個爲了實現「AI生成媒體內容」而創建的一個組合。這也是這個技術論文的標題的意思：Movie Gen: A Cast of Media Foundation Models

這個組合包括：

最大的基礎文生視頻生成模型 Movie Gen Video ， 300 億參數。

最大的基礎視頻生成音頻模型 Movie Gen Audio ，130 億參數。

進一步對 Movie Gen Video 模型進行後訓練獲得的 Personalized Movie Gen Video，用來根據個人的面部生成個性化視頻。以及一種新的後訓練過程，能夠生成 Movie Gen Edit，用於精確編輯視頻。

這些模型結合起來，可以用於創建最高 16 秒的逼真個性化高清視頻（16 FPS）和 48kHz 的音頻，並具備編輯真實或生成視頻的能力。

在用戶側，能體驗到的功能包括：

視頻生成：用戶用一段文本提示能生成高清視頻（1080p），最長可達 16 秒，幀率高達16fps。對主體-客體關係，物流規律捕捉和攝像機的各種拍攝運動等也都完成的很好。

個性化視頻生成：用戶可以上傳自己的圖像，結合文本提示，可以讓自己出現在個性化的生成視頻裏。

精準視頻編輯：這是Meta重點強調的功能，除了可以對背景和風格做整體的修改，Movie Gen也提供了通過文本指令來添加、移除或替換元素的局部編輯功能。缺乏對視頻的精確編輯能力，在目前視頻生成產品中算是一大痛點。

音頻生成： Movie Gen 不僅可以根據視頻內容和文本指令生成高質量的各類音效和音樂，而且還可以做到與視頻內容更高度的匹配與同步。這些音頻最長可達 45 秒，而且Meta還表示，它們的音頻模型可以生成任意長度視頻的連貫音頻。

這是它展示的一系列案例：

不用DiT了，用Llama大力出奇跡！

這其中，最重要的顯然是文生視頻部分。

根據論文介紹，Movie Gen Video是一個擁有300億參數的基礎模型，用於聯合文本生成圖像和視頻，可以生成符合文本提示的高質量高清（HD）視頻，時長最長可達16秒。該模型能夠自然地生成多種縱橫比、分辨率和時長的高質量圖像和視頻。模型通過聯合預訓練，處理約1億個視頻和約10億張圖像，通過「觀看」視頻來學習視覺世界。

這只是最基礎的介紹，而最最重要的信息就是，它不再是一個DiT架構的模型，也就是和現在幾乎所有最知名的文生視頻模型架構都不一樣。

用Meta視頻生成團隊的研究科學家Andrew Brown的話說，在這個項目裏最大的發現就是：數據，算力和模型參數非常重要。然後把這個搭配上Flow Matching，就可以用一個最簡單最流行的架構——也就是Meta自己的Llama，實現最強的視頻模型。

這明顯是衝着Sora誕生後，已經成爲所有文生視頻創業公司和大廠項目主流的DiT路線去的。

今天視頻生成的技術路線裏，擴散模型是背後最主流的思想。簡單說，它通過逐步將噪聲還原爲圖像或視頻，生成過程是一個去噪的過程。具體地，擴散模型的生成過程通常是從隨機噪聲開始，逐步反向推導出與輸入文本描述相對應的清晰視頻幀。而DiT是把Transformer的能力引入到這個思想裏，來更好完成模型對全局上下文信息的捕捉能力，本質上還是擴散的思路。

但Flow Matching則不再從這個擴散過程入手做訓練，而是更「暴力」，直接尋找更抽象的「近路」，而不是一步步尋找找路過程裏的腳印：

Flow Matching基於軌跡學習，它直接在潛在空間（latent space）中學習從輸入噪聲到目標視頻序列的映射軌跡。它通過優化一個連續的ODE（常微分方程）系統，找到從初始隨機分佈到目標分佈的最佳「路徑」。

而Meta這次把Flow Matching直接加到Llama架構上，第一次徹底不用擴散的思路來做生成並打敗了DiT路線的一衆代表模型。

要實現這個效果，自然是離不開「大力出奇跡」的配套方法。

根據Meta的論文，他們使用了多達 6144 個 H100 GPU 訓練了媒體生成模型，每個 GPU 的運行功率爲 700W TDP，配備 80GB HBM3，採用 Meta 的 Grand Teton AI 服務器平台（Baumgartner 和 Bowman，2022）。在一臺服務器內，有八個 GPU 通過 NVSwitch 進行均勻連接。服務器之間的 GPU 則通過 400Gbps RoCE RDMA 網卡相互連接。訓練任務由 Meta 的全球規模訓練調度器Mast進行調度。

扎克伯格囤的那些卡用在了哪裏，用在了這。

除此之外，在這個詳盡的論文裏，Meta還介紹了在模型各個環節裏的多個創新技巧。比如時空自動編碼器（Temporal Autoencoder, TAE），通過它將視頻和圖像編碼到壓縮的時空潛在空間中，大幅減少生成視頻時的計算量。這些技術讓Meta可以「用一個更通用的架構來處理媒體生成任務」，它把圖像和視頻生成統一了起來。

簡單說，Movie Gen用Llama大力出奇跡打敗了Sora路線。

在Meta的各路人馬對此次模型的宣傳裏，其實有一個很明顯的意圖：在證明了Sora路線不是最優路線後，它希望更多的開發者來基於Llama做文生視頻的模型開發和研究。顯然這對Meta的開源戰略也很重要。

而另一個有意思的地方是，Meta這次的「模型家族」，其實不只是追求榜單和評測上的表現，它已經呈現出明顯的實際應用導向，這讓它本身看起來可能不會走開源路線，它的目標是用在Meta自己的社交媒體，乃至Orion爲代表的下一代的計算平台生態裏。

在Meta的官方博客裏這樣寫道：

想象一下，您可以用文字提示來製作並編輯一個「日常生活」的動畫視頻分享到Reels，或者爲朋友定製一個個性化的生日動畫祝福，並通過WhatsApp發送給他們。隨着創造力和自我表達的主導，可能性將是無限的。

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

Sora这就落伍了？Meta“最强视频模型”不用DiT，用Llama大力出奇迹了

Sora這就落伍了？Meta「最強視頻模型」不用DiT，用Llama大力出奇跡了

“媒体基座模型”

不用DiT了，用Llama大力出奇迹！

「媒體基座模型」

不用DiT了，用Llama大力出奇跡！

風險及免責聲明

聲明