賽道正在變得擁擠騰訊混元大模型殺入文生視頻讓用戶「用起來」是關鍵

財聯社 · 12/04 09:19

①腾讯混元大模型正式上线视频生成能力，并开源该视频生成大模型，参数量130亿，这是当前最大的视频开源模型。②腾讯认为，当下的视频生成，还未到大规模商用的阶段，还有很多技术难点需要克服，混元文生视频当下阶段更重要的是开源让更多人“用起来”，使模型的飞轮能快速转动带动优化模型本身。

《科创板日报》12月4日讯（记者张洋洋）昨日，腾讯混元大模型正式上线视频生成能力，这是继文生文、文生图、3D生成之后，混元大模型的最新业务进展。与此同时，腾讯开源该视频生成大模型，参数量130亿，是当前最大的视频开源模型。

“用户只需要输入一段描述，即可生成视频，”腾讯混元相关负责人透露，目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。目前该模型已上线腾讯元宝APP，用户可在AI应用中的“AI视频”板块申请试用。企业用户通过腾讯云提供服务接入，目前API同步开放内测申请。

自从OpenAI 的Sora 基于 DiT（Diffusion Transformer）架构，把长视频生成的效果提高到了前所未有的水平，全球AI厂商加速赶来，掀起视频生成热潮。

2024年接近尾声，今年以来大模型领域最热闹的细分赛道要数视频生成。字节豆包正在推出文生视频内测，Minmax，快手，商汤等也先后推出了文生视频。由清华大学联合生数科技共同研发Vidu 则宣称是中国首个长时长、高一致性、高动态性视频大模型。

不过，做好文生视频这件事并不简单，这一点从OpenAI在今年初发布了Sora之后，仍未正式对外开放便可见一斑。

这主要是因为当前的视频生成技术产出的结果与用户期望之间仍存在较大差距，这些模型在理解和应用物理规则方面表现不足，并且在生成过程中缺乏有效的可控性。

按照腾讯的说法，混元文生视频大模型主要的优势能力在于，可以实现超写实画质、生成高度符合提示词的视频画面，画面流畅不易变形。

“比如，在冲浪、跳舞等大幅度运动画面的生成中，腾讯混元可以生成非常流畅、合理的运动镜头，物体不易出现变形；光影反射基本符合物理规律，在镜面或者照镜子场景中，可以做到镜面内外动作一致。同时，模型还可以实现在画面主角保持不变的情况下自动切镜头，这是业界大部分模型所不具备的能力。”

从技术角度来看，据腾讯混元相关负责人介绍，混元大模型基于跟Sora类似的DiT架构，在架构设计上进行了多处升级。

混元视频生成模型适配了新一代文本编码器提升语义遵循，其具备强大的语义跟随能力，更好地应对多个主体描绘，实现更加细致的指令和画面呈现；采用统一的全注意力机制，使得每帧视频的衔接更为流畅，并能实现主体一致的多视角镜头切换；通过先进的图像视频混合VAE（3D 变分编码器），让模型在细节表现有明显提升，特别是小人脸、高速镜头等场景。

比如写下这么一段提示词，一位中国美女穿着汉服，头发飘扬，背景是伦敦，然后镜头切换到特写镜头：

不过在视频生成领域，快手、抖音、智谱科技、生数科技等国内厂商均已推出相应的产品，甚至开启了商业化，腾讯混元此番的节奏并不算快。

对此，腾讯混元相关负责人在接受《科创板日报》记者采访时回应称，当下的视频生成技术，从可用度而言，还未到大规模商用的阶段，还有很多技术难点需要克服，混元大模型文生视频功能也并不急于一时，当下阶段更重要的是开源让更多人用起来，使模型的飞轮能快速转动带动优化模型本身。

在落地应用上，上述负责人表示，混元大模型生成的视频可用于工业级商业场景，例如广告宣传、动画制作、创意视频生成等场景。对于未来的商业化，腾讯暂时还没有详细的规划出来。

目前，腾讯宣布开源该视频生成大模型已在 Hugging Face平台及Github上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费使用和开发生态插件。基于腾讯混元的开源模型，开发者及企业无需从头训练，即可直接用于推理，并可基于腾讯混元系列打造专属应用及服务。

①騰訊混元大模型正式上線視頻生成能力，並開源該視頻生成大模型，參數量130億，這是當前最大的視頻開源模型。②騰訊認爲，當下的視頻生成，還未到大規模商用的階段，還有很多技術難點需要克服，混元文生視頻當下階段更重要的是開源讓更多人「用起來」，使模型的飛輪能快速轉動帶動優化模型本身。

《科創板日報》12月4日訊（記者張洋洋）昨日，騰訊混元大模型正式上線視頻生成能力，這是繼文生文、文生圖、3D生成之後，混元大模型的最新業務進展。與此同時，騰訊開源該視頻生成大模型，參數量130億，是當前最大的視頻開源模型。

「用戶只需要輸入一段描述，即可生成視頻，」騰訊混元相關負責人透露，目前的生成視頻支持中英文雙語輸入、多種視頻尺寸以及多種視頻清晰度。目前該模型已上線騰訊元寶APP，用戶可在AI應用中的「AI視頻」板塊申請試用。企業用戶通過騰訊雲提供服務接入，目前API同步開放內測申請。

自從OpenAI 的Sora 基於 DiT（Diffusion Transformer）架構，把長視頻生成的效果提高到了前所未有的水平，全球AI廠商加速趕來，掀起視頻生成熱潮。

2024年接近尾聲，今年以來大模型領域最熱鬧的細分賽道要數視頻生成。字節豆包正在推出文生視頻內測，Minmax，快手，商湯等也先後推出了文生視頻。由清華大學聯合生數科技共同研發Vidu 則宣稱是中國首個長時長、高一致性、高動態性視頻大模型。

不過，做好文生視頻這件事並不簡單，這一點從OpenAI在今年初發布了Sora之後，仍未正式對外開放便可見一斑。

這主要是因爲當前的視頻生成技術產出的結果與用戶期望之間仍存在較大差距，這些模型在理解和應用物理規則方面表現不足，並且在生成過程中缺乏有效的可控性。

按照騰訊的說法，混元文生視頻大模型主要的優勢能力在於，可以實現超寫實畫質、生成高度符合提示詞的視頻畫面，畫面流暢不易變形。

「比如，在衝浪、跳舞等大幅度運動畫面的生成中，騰訊混元可以生成非常流暢、合理的運動鏡頭，物體不易出現變形；光影反射基本符合物理規律，在鏡面或者照鏡子場景中，可以做到鏡面內外動作一致。同時，模型還可以實現在畫面主角保持不變的情況下自動切鏡頭，這是業界大部分模型所不具備的能力。」

從技術角度來看，據騰訊混元相關負責人介紹，混元大模型基於跟Sora類似的DiT架構，在架構設計上進行了多處升級。

混元視頻生成模型適配了新一代文本編碼器提升語義遵循，其具備強大的語義跟隨能力，更好地應對多個主體描繪，實現更加細緻的指令和畫面呈現；採用統一的全注意力機制，使得每幀視頻的銜接更爲流暢，並能實現主體一致的多視角鏡頭切換；通過先進的圖像視頻混合VAE（3D 變分編碼器），讓模型在細節表現有明顯提升，特別是小人臉、高速鏡頭等場景。

比如寫下這麼一段提示詞，一位中國美女穿着漢服，頭髮飄揚，背景是倫敦，然後鏡頭切換到特寫鏡頭：

不過在視頻生成領域，快手、抖音、智譜科技、生數科技等國內廠商均已推出相應的產品，甚至開啓了商業化，騰訊混元此番的節奏並不算快。

對此，騰訊混元相關負責人在接受《科創板日報》記者採訪時回應稱，當下的視頻生成技術，從可用度而言，還未到大規模商用的階段，還有很多技術難點需要克服，混元大模型文生視頻功能也並不急於一時，當下階段更重要的是開源讓更多人用起來，使模型的飛輪能快速轉動帶動優化模型本身。

在落地應用上，上述負責人表示，混元大模型生成的視頻可用於工業級商業場景，例如廣告宣傳、動畫製作、創意視頻生成等場景。對於未來的商業化，騰訊暫時還沒有詳細的規劃出來。

目前，騰訊宣佈開源該視頻生成大模型已在 Hugging Face平台及Github上發佈，包含模型權重、推理代碼、模型算法等完整模型，可供企業與個人開發者免費使用和開發生態插件。基於騰訊混元的開源模型，開發者及企業無需從頭訓練，即可直接用於推理，並可基於騰訊混元系列打造專屬應用及服務。

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

赛道正在变得拥挤 腾讯混元大模型杀入文生视频 让用户 “用起来”是关键

賽道正在變得擁擠 騰訊混元大模型殺入文生視頻 讓用戶 「用起來」是關鍵

風險及免責聲明

聲明

赛道正在变得拥挤腾讯混元大模型杀入文生视频让用户 “用起来”是关键

賽道正在變得擁擠騰訊混元大模型殺入文生視頻讓用戶「用起來」是關鍵