萬興科技朱偉：Sora至今沒有商業化，視頻模型成熟需要週期丨GenAICon 2024

智東西 · 04/29 20:50

60秒视频一键生成，天幕音视频大模型已开启公测。2024中国生成式AI大会于4月18-19日在北京举行，在大会首日的主会场大模型专场上，万兴科技副总裁朱伟以《音视频多媒体大模型市场洞察与落地实践》为题发表演讲。

当前，大模型正从1.0图文时代进入以音视频多媒体为载体的2.0时代。视频创作需求量巨大，然而长期来视频相关模型仅占极少数，且大模型在音视频领域的应用面临数据集缺失、视频内容结构及层级复杂、算力成本高等严峻挑战。万兴科技副总裁朱伟认为，大模型的出现为视频创作带来前所未有的便利和可能性，2024年有望迎来AI视频的元年。在此背景下，万兴科技在4月28日旗下万兴“天幕”音视频多媒体大模型正式公测。“天幕”大模型于今年1月份发布，聚焦数字创意垂类创作场景，基于15亿创作者及100亿本土化高质量音视频数据沉淀，以音视频生成式AI技术为基础，具有多媒体、垂直解决方案、算力数据及应用本土化三大特色。这是国内首个专注于数字创意领域的音视频多媒体大模型，已通过中央网信办备案，将支持60秒视频一键生成，并具备视频生视频、文生音乐、文生音效等近百项原子能力，全链条赋能全球创作者。以下为朱伟的演讲实录：我们万兴的模型叫“音视频多媒体大模型”，专注于市场及应用方面的情况。公司成立20多年来，一直在音视频、多媒体领域深耕，为音视频内容生产者赋能。我们主要是视频内容生产的工具和服务的厂家。如今，我们在音视频多媒体领域已有超过20年的积累，当大模型出现后，我们很欣喜，因为它为我们所在的行业和用户提供了更优秀的技术服务。因此，我们希望通过此次分享，向大家介绍音视频多媒体大模型在市场上的一些趋势以及实践经验。

01.大模型开始进入2.0时代，音视频模态入口尚未完全打开

说到大模型，万兴科技在深度学习来临之时就已组建团队进行人工智能（AI）的研究。随着大模型时代来临，我们必然跟随潮流，因为我们相信大模型会为内容制作，特别是视频内容制作，带来更大的驱动力。我们曾提出大模型应该像基础设施一样，赋能各行各业，我们也一直坚信这一观点。去年，大家都在说“百模大战”，整个大模型领域呈现爆发式增长，许多大型模型相继问世，并且很多模型已经投入商用，特别在文本和图片领域已经形成商业的闭环，给用户带来价值。其中，一些产品一旦接入大模型后，我们发现它获得了十倍甚至几十倍的增长，这让我们深信大模型或将为很多行业带来超乎寻常的改变。此外，我们看到，3月份ChatGPT的访问量已达17亿多，量已经很大了。不过，我们也同时意识到一些问题，比如增长速度已经开始放缓。这是为什么呢？特别以文本和图片为主的大模型，用户的使用量没有像去年或者前年底大规模的爆发是为什么？我们认为这可能是因为下一个模态的入口尚未完全打开。什么意思？我们认为，在AI 2.0时代，大模型也开始进入2.0时代。为什么这么说？大模型正从以图文为主的时代，如果将其定义为1.0时代，今年开始逐渐转向以音视频多媒体为载体的2.0时代。

这个趋势与万兴的业务密切相关，因此我们一直在研究和实践这一领域的技术，并关注市场用户的需求。从数据上看，互联网流量中，80%是视频流量，这与视频数据体积有一定的关系，但也反映了用户偏好，他们更倾向于视频内容。尤其在大模型进行用户调研时，一些公开资料显示，用户最希望大模型能够生成视频，这是用户需求排名前三的项目之一。

因此，用户迫切希望大模型能够协助他们进行视频创作。而万兴正好是视频创意赛道20多年的深耕者，因此责无旁贷地要做音视频生成领域的事。过去，视频创作是好莱坞导演、剪辑师们的专利。但随着科技发展、手机摄影设备的普及以及AI能力的提升，这让编辑视频变得越来越容易，创作视频的人也越来越多，需求越来越大。

02.Sora至今没有成功商业化，视频模型应用难度与挑战大

一个问题是，这两年，在文本和图像领域的模型比较多，但是视频领域的模型却较少，从一些行业数据上看，视频模型相对文本、图像来讲少之又少。虽然一些视频模型出来了，但面临的问题比文本、图像严峻得多，比如数据、算法、成本，特别是效果。事实上，视频大模型效果还有很大的提升空间。今年过年期间发布的Sora，被认为是目前效果最好的视频模型，我相信行业第二梯队跟它的效果比起来，有较大的提升空间。视频模型占比非常少，但我们也开始在应用了，只是说应用的难度和挑战较大。那么，视频模型为什么应用难度那么大？就像Sora，在今年过年的时候发布了视频，但至今不仅没有商业化，也没有对公众普遍开放的时间点。所以我们认为，虽然大家都在做视频模型，但离商业化还有距离。

鉴于这些原因，我们不禁思考：为什么视频和多媒体方面的工作没有像文字语言模型那样一出来就被大范围使用？我们认为视频的场景是比较复杂的，无论是它的信息包含量还是表达方式，甚至还要加入时间维度，这都使得视频的表达变得非常复杂。另外，视频制作本身也是一个漫长的过程。我们的工具主要针对半专业用户，而非专业用户。半专业用户使用我们的工具和海量数据，制作一个视频需要1.6小时，说明整个视频制作是有一定的门槛。从AI技术的角度来看，视频模型的成熟和应用肯定需要一定的周期。因此，我们一直认为2024年可能会成为AI视频的元年，也就是说，我们相信今年AI视频会越来越多，甚至会有一个爆发的趋势。在这种趋势下，作为音视频领域的一家公司，尤其是为音视频创作者提供赋能的公司，万兴科技感受到了前所未有的机遇。

03.获取视频数据不难，难在转化成大模型可用的数据

目前，公司在全球200多个国家积累了一大批忠实用户。很多用户都在反馈一个问题：为什么我们的产品还没有AI能力，或者为什么还没有那项AI能力？尽管我们的产品从几年前就开始陆续增加了一些AI功能，但用户的需求远远超过我们提供的速度和能力。因此，我们既感受到机会，也感受到了压力。同时，我相信老用户对我们公司的了解。在过去的20多年里，我们一直在不断为用户提供当前时代的技术能力和赋能。随着从最早的PC时代到移动互联网时代，再到如今的AI时代，我们一直致力于为用户提供相应的技术赋能。因此，我认为用户对我们也有期待。对于全球的视频或多媒体创作者，我们有着比较深刻的认知和理解。我们知道，一个视频创作者在什么时候需要什么样的能力和赋能，以便有利于他去创造视频。除了大模型的能力，我们还积累了许多传统算法方面的能力，这些能力在与大模型相结合时，对赋能创作者起到非常大的作用。在大模型时代，我们原来的能力起了很大的作用，我们将其称之为“数据生产和管理的能力”，也就是对于数据处理的能力。获取视频数据并不难，但要将其转化为可用于大模型训练的数据，仍然需要一定的成本、时间和技术能力。这正是拥有这样一个平台的好处，可以更好地处理这个问题。同时，我们对算法基础设施的投资，特别是自研的推理训练平台，也为大模型研发提供了更好的支持。

04.今年1月发布音视频多媒体大模型，三大特点支撑商业化落地

基于多年来的基础积累、用户的期待以及这些多年的数据、算法、技术的积累，和对大模型时代的观察，今年年初，也就是1月底，我们发布了自己的多媒体大模型，即“音视频多媒体大模型”万兴“天幕”。让我简单介绍一下“天幕”具备什么样的特点。第一，从多模态到多媒体。如今大家都在提多模态，我们并没有否认多模态，只是从应用和用户认知的角度来看，对于普通视频剪辑用户来说，多模态这个术语有些过于技术化了。因此，我们想要强调的是，多模态实际上是指文字、图片等各种元素的组合。我们的目标是将所有这些多模态元素很好地融合在一起，最终让用户在剪辑视频时产生高质量的多媒体视频。

此外，我们目前在视频模型方面并没有着手最底层的L0模型，而是在L0.5或往上的层级，我们更多地致力于提供垂类解决方案，更多地希望我们的模型能够给用户带来价值，能够解决用户的实际需求。举例来说，对于多模态和多媒体这两个概念，我们更强调视频中应包含片头、主题、字幕等多个模态元素的融合，形成一个多媒体视频。我们强调的不是多模态的处理能力，而是每个模态最终形成一个视频的融合能力，这是我们的模型想达到的第一个特点。第二，从通用模型到垂直解决方案。通用模型像ChatGPT已经存在了很长时间，访问量增长趋缓。使用ChatGPT询问中医问题时，可能得到的答案并不理想。因此我们认为，如果GPT是一个基础模型，就需要在此基础上进行市场化，并解决用户的实际问题，最终创造商业价值。这必须通过解决某些人的某些问题来实现。在开发“天幕”大模型时，我们重点强调如何提供垂直的解决方案，以解决用户的具体问题。我们不会将通用能力作为一个产品，而是将其与垂直场景结合，形成可用的功能或解决方案。目前这种做法可能是一个较好的商业化解决方案。

第三，在数据、算力、应用方面进行本土化扩充。大家可能会说，全球的数据都已经有了，为什么还要做这件事？这其实是我们在研究中的一种感受。我记得在去年10月、11月份的时候，当时我们做了一个名为《女孩的一生》的视频。做出来后，很多朋友问我说，你们那个视频为什么前面看起来像一个东方小女孩，到后面老的时候好像变成一个西方老太太？我想这可能就是数据问题。我们最近又重新做了《女孩的一生》这个视频，ID的一致性和人的ID属性得到了较好的保持，所以数据完整性非常重要。因此，我们说自己是土生土长的面向全球市场的大模型。

05.“天幕”大模型4月28日公测，可一键生成60秒+视频

说了这么多我们的大模型，那它到底有什么特点和能力？我通过几个原子能力的视频来给大家简单介绍一下，我们从4月28日起开展公测，希望大家能多体验，提供指导意见。首先是文生视频的能力，即一键生成60秒以上的视频。这意味着可以用一键方式将一个简短的故事转化为视频。生成的视频质量包括故事情节、角色形象、画面连贯性等方面，基本上能够按照你的故事情节完成视频制作。在这个领域，我们并没有过多地与其他模型比较生成视频的基础能力，比如生成的质量和时长。我们更多地希望用文生视频的能力解决用户在视频创作过程中遇到的无法获得素材、无法插入场景等一系列的问题。

另外一块是视频生视频，主要偏向视频风格化。这个算法已经比较多了，但真正将其应用到行业产品中并商业化的，并不多见。我们现在的技术不仅在C端产品中让用户使用，也在B端与国内视频媒体行业沟通合作，思考怎样给他们赋能。我们提供生成音效的能力，即用文字方式生成音效。这些生成能力极大地方便了用户在视频剪辑过程中寻找素材的时间和效率，所以当把这些能力给到用户以后，用户还是比较喜爱的。另外，我们还提供生成音乐的能力，因为每个视频都需要配备背景音乐。但以往为用户寻找背景音乐是一件费时费力的事情，而且还涉及版权问题。我们的这些能力为用户带来了很好的解决方案。因此，我们可以说是国内首家拥有音视频多媒体大模型的企业，并且已经通过了中央网信办的备案，可以有效支撑后续公司全球业务的开展。

06.已推出多款具有大模型能力的AI产品，未来将构建天幕模型开放生态

我之前提到大模型的能力，一旦有了一个小的能力成熟，我们就会推进其应用到产品上，让产品面向用户进行体验。特别是我们公司的主力产品Wondershare Filmora，中文版名称为“万兴喵影”，去年陆续增加了很多AI能力，为用户解决个性化问题和特定问题。我们发现我们的用户对这些能力的喜爱度和使用度有了很大的提升。这也让我们更加决心在AI大模型领域进一步投入。此外，在国内市场，我们还开发了一款新产品万兴播爆，利用口播数字人的能力通过文生视频的方式，为跨境电商卖家提供方便，让他们能够更轻松地制作商品展示介绍视频。这一领域也受到越来越多人的喜爱。现阶段，我们更多地是利用AI和模型的能力来赋能自己内部的产品，通过产品将模型的价值传递给最终用户，解决用户的问题，产生价值。今年开始，我们逐步把模型的能力又往外扩充，希望整个“天幕”能力除了内部使用外，也能够赋能各行各业，特别是生态赋能。我们在长沙有一个AI Lab中心，在长沙马栏山一带，算是湖南视频媒体文创产业集中地。我们正在探索与一些企业的合作，尤其是媒体企业，目前主要是在视频后期处理阶段，利用我们的技术提高他们的效率，降低他们的成本，为传统媒体行业降本增效。所以整体来看，我们锚定“新生代AIGC数字创意赋能者”定位。因为我们相信AI会在整个视频制作业会产生一个颠覆式的变化，利用AI和大模型的能力降低成本、提高效率，是时代的趋势。我们的天幕大模型上一次发布以后主要在内部使用，并在一些小范围试用。4月28日，我们正式公测。或许我们的模型现在还不够完美，但正是因为不完美，才有了更多的憧憬。未来，我们一定会不懈努力，不断完善我们的模型，还请大家多提意见和建议。感谢大家！以上是朱伟演讲内容的完整整理。（本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）

60秒視頻一鍵生成，天幕音視頻大模型已開啓公測。2024中國生成式AI大會於4月18-19日在北京舉行，在大會首日的主會場大模型專場上，萬興科技副總裁朱偉以《音視頻多媒體大模型市場洞察與落地實踐》爲題發表演講。

當前，大模型正從1.0圖文時代進入以音視頻多媒體爲載體的2.0時代。視頻創作需求量巨大，然而長期來視頻相關模型僅佔極少數，且大模型在音視頻領域的應用面臨數據集缺失、視頻內容結構及層級複雜、算力成本高等嚴峻挑戰。萬興科技副總裁朱偉認爲，大模型的出現爲視頻創作帶來前所未有的便利和可能性，2024年有望迎來AI視頻的元年。在此背景下，萬興科技在4月28日旗下萬興“天幕”音視頻多媒體大模型正式公測。“天幕”大模型於今年1月份發佈，聚焦數字創意垂類創作場景，基於15億創作者及100億本土化高質量音視頻數據沉澱，以音視頻生成式AI技術爲基礎，具有多媒體、垂直解決方案、算力數據及應用本土化三大特色。這是國內首個專注於數字創意領域的音視頻多媒體大模型，已通過中央網信辦備案，將支持60秒視頻一鍵生成，並具備視頻生視頻、文生音樂、文生音效等近百項原子能力，全鏈條賦能全球創作者。以下爲朱偉的演講實錄：我們萬興的模型叫“音視頻多媒體大模型”，專注於市場及應用方面的情況。公司成立20多年來，一直在音視頻、多媒體領域深耕，爲音視頻內容生產者賦能。我們主要是視頻內容生產的工具和服務的廠家。如今，我們在音視頻多媒體領域已有超過20年的積累，當大模型出現後，我們很欣喜，因爲它爲我們所在的行業和用戶提供了更優秀的技術服務。因此，我們希望通過此次分享，向大家介紹音視頻多媒體大模型在市場上的一些趨勢以及實踐經驗。

01.大模型開始進入2.0時代，音視頻模態入口尚未完全打開

說到大模型，萬興科技在深度學習來臨之時就已組建團隊進行人工智能（AI）的研究。隨着大模型時代來臨，我們必然跟隨潮流，因爲我們相信大模型會爲內容製作，特別是視頻內容製作，帶來更大的驅動力。我們曾提出大模型應該像基礎設施一樣，賦能各行各業，我們也一直堅信這一觀點。去年，大家都在說“百模大戰”，整個大模型領域呈現爆發式增長，許多大型模型相繼問世，並且很多模型已經投入商用，特別在文本和圖片領域已經形成商業的閉環，給用戶帶來價值。其中，一些產品一旦接入大模型後，我們發現它獲得了十倍甚至幾十倍的增長，這讓我們深信大模型或將爲很多行業帶來超乎尋常的改變。此外，我們看到，3月份ChatGPT的訪問量已達17億多，量已經很大了。不過，我們也同時意識到一些問題，比如增長速度已經開始放緩。這是爲什麼呢？特別以文本和圖片爲主的大模型，用戶的使用量沒有像去年或者前年底大規模的爆發是爲什麼？我們認爲這可能是因爲下一個模態的入口尚未完全打開。什麼意思？我們認爲，在AI 2.0時代，大模型也開始進入2.0時代。爲什麼這麼說？大模型正從以圖文爲主的時代，如果將其定義爲1.0時代，今年開始逐漸轉向以音視頻多媒體爲載體的2.0時代。

這個趨勢與萬興的業務密切相關，因此我們一直在研究和實踐這一領域的技術，並關注市場用戶的需求。從數據上看，互聯網流量中，80%是視頻流量，這與視頻數據體積有一定的關係，但也反映了用戶偏好，他們更傾向於視頻內容。尤其在大模型進行用戶調研時，一些公開資料顯示，用戶最希望大模型能夠生成視頻，這是用戶需求排名前三的項目之一。

因此，用戶迫切希望大模型能夠協助他們進行視頻創作。而萬興正好是視頻創意賽道20多年的深耕者，因此責無旁貸地要做音視頻生成領域的事。過去，視頻創作是好萊塢導演、剪輯師們的專利。但隨着科技發展、手機攝影設備的普及以及AI能力的提升，這讓編輯視頻變得越來越容易，創作視頻的人也越來越多，需求越來越大。

02.Sora至今沒有成功商業化，視頻模型應用難度與挑戰大

一個問題是，這兩年，在文本和圖像領域的模型比較多，但是視頻領域的模型卻較少，從一些行業數據上看，視頻模型相對文本、圖像來講少之又少。雖然一些視頻模型出來了，但面臨的問題比文本、圖像嚴峻得多，比如數據、算法、成本，特別是效果。事實上，視頻大模型效果還有很大的提升空間。今年過年期間發佈的Sora，被認爲是目前效果最好的視頻模型，我相信行業第二梯隊跟它的效果比起來，有較大的提升空間。視頻模型佔比非常少，但我們也開始在應用了，只是說應用的難度和挑戰較大。那麼，視頻模型爲什麼應用難度那麼大？就像Sora，在今年過年的時候發佈了視頻，但至今不僅沒有商業化，也沒有對公衆普遍開放的時間點。所以我們認爲，雖然大家都在做視頻模型，但離商業化還有距離。

鑑於這些原因，我們不禁思考：爲什麼視頻和多媒體方面的工作沒有像文字語言模型那樣一出來就被大範圍使用？我們認爲視頻的場景是比較複雜的，無論是它的信息包含量還是表達方式，甚至還要加入時間維度，這都使得視頻的表達變得非常複雜。另外，視頻製作本身也是一個漫長的過程。我們的工具主要針對半專業用戶，而非專業用戶。半專業用戶使用我們的工具和海量數據，製作一個視頻需要1.6小時，說明整個視頻製作是有一定的門檻。從AI技術的角度來看，視頻模型的成熟和應用肯定需要一定的週期。因此，我們一直認爲2024年可能會成爲AI視頻的元年，也就是說，我們相信今年AI視頻會越來越多，甚至會有一個爆發的趨勢。在這種趨勢下，作爲音視頻領域的一家公司，尤其是爲音視頻創作者提供賦能的公司，萬興科技感受到了前所未有的機遇。

03.獲取視頻數據不難，難在轉化成大模型可用的數據

目前，公司在全球200多個國家積累了一大批忠實用戶。很多用戶都在反饋一個問題：爲什麼我們的產品還沒有AI能力，或者爲什麼還沒有那項AI能力？儘管我們的產品從幾年前就開始陸續增加了一些AI功能，但用戶的需求遠遠超過我們提供的速度和能力。因此，我們既感受到機會，也感受到了壓力。同時，我相信老用戶對我們公司的了解。在過去的20多年裏，我們一直在不斷爲用戶提供當前時代的技術能力和賦能。隨着從最早的PC時代到移動互聯網時代，再到如今的AI時代，我們一直致力於爲用戶提供相應的技術賦能。因此，我認爲用戶對我們也有期待。對於全球的視頻或多媒體創作者，我們有着比較深刻的認知和理解。我們知道，一個視頻創作者在什麼時候需要什麼樣的能力和賦能，以便有利於他去創造視頻。除了大模型的能力，我們還積累了許多傳統算法方面的能力，這些能力在與大模型相結合時，對賦能創作者起到非常大的作用。在大模型時代，我們原來的能力起了很大的作用，我們將其稱之爲“數據生產和管理的能力”，也就是對於數據處理的能力。獲取視頻數據並不難，但要將其轉化爲可用於大模型訓練的數據，仍然需要一定的成本、時間和技術能力。這正是擁有這樣一個平台的好處，可以更好地處理這個問題。同時，我們對算法基礎設施的投資，特別是自研的推理訓練平台，也爲大模型研發提供了更好的支持。

04.今年1月發佈音視頻多媒體大模型，三大特點支撐商業化落地

基於多年來的基礎積累、用戶的期待以及這些多年的數據、算法、技術的積累，和對大模型時代的觀察，今年年初，也就是1月底，我們發佈了自己的多媒體大模型，即“音視頻多媒體大模型”萬興“天幕”。讓我簡單介紹一下“天幕”具備什麼樣的特點。第一，從多模態到多媒體。如今大家都在提多模態，我們並沒有否認多模態，只是從應用和用戶認知的角度來看，對於普通視頻剪輯用戶來說，多模態這個術語有些過於技術化了。因此，我們想要強調的是，多模態實際上是指文字、圖片等各種元素的組合。我們的目標是將所有這些多模態元素很好地融合在一起，最終讓用戶在剪輯視頻時產生高質量的多媒體視頻。

此外，我們目前在視頻模型方面並沒有着手最底層的L0模型，而是在L0.5或往上的層級，我們更多地致力於提供垂類解決方案，更多地希望我們的模型能夠給用戶帶來價值，能夠解決用戶的實際需求。舉例來說，對於多模態和多媒體這兩個概念，我們更強調視頻中應包含片頭、主題、字幕等多個模態元素的融合，形成一個多媒體視頻。我們強調的不是多模態的處理能力，而是每個模態最終形成一個視頻的融合能力，這是我們的模型想達到的第一個特點。第二，從通用模型到垂直解決方案。通用模型像ChatGPT已經存在了很長時間，訪問量增長趨緩。使用ChatGPT詢問中醫問題時，可能得到的答案並不理想。因此我們認爲，如果GPT是一個基礎模型，就需要在此基礎上進行市場化，並解決用戶的實際問題，最終創造商業價值。這必須通過解決某些人的某些問題來實現。在開發“天幕”大模型時，我們重點強調如何提供垂直的解決方案，以解決用戶的具體問題。我們不會將通用能力作爲一個產品，而是將其與垂直場景結合，形成可用的功能或解決方案。目前這種做法可能是一個較好的商業化解決方案。

第三，在數據、算力、應用方面進行本土化擴充。大家可能會說，全球的數據都已經有了，爲什麼還要做這件事？這其實是我們在研究中的一種感受。我記得在去年10月、11月份的時候，當時我們做了一個名爲《女孩的一生》的視頻。做出來後，很多朋友問我說，你們那個視頻爲什麼前面看起來像一個東方小女孩，到後面老的時候好像變成一個西方老太太？我想這可能就是數據問題。我們最近又重新做了《女孩的一生》這個視頻，ID的一致性和人的ID屬性得到了較好的保持，所以數據完整性非常重要。因此，我們說自己是土生土長的面向全球市場的大模型。

05.“天幕”大模型4月28日公測，可一鍵生成60秒+視頻

說了這麼多我們的大模型，那它到底有什麼特點和能力？我通過幾個原子能力的視頻來給大家簡單介紹一下，我們從4月28日起開展公測，希望大家能多體驗，提供指導意見。首先是文生視頻的能力，即一鍵生成60秒以上的視頻。這意味着可以用一鍵方式將一個簡短的故事轉化爲視頻。生成的視頻質量包括故事情節、角色形象、畫面連貫性等方面，基本上能夠按照你的故事情節完成視頻製作。在這個領域，我們並沒有過多地與其他模型比較生成視頻的基礎能力，比如生成的質量和時長。我們更多地希望用文生視頻的能力解決用戶在視頻創作過程中遇到的無法獲得素材、無法插入場景等一系列的問題。

另外一塊是視頻生視頻，主要偏向視頻風格化。這個算法已經比較多了，但真正將其應用到行業產品中並商業化的，並不多見。我們現在的技術不僅在C端產品中讓用戶使用，也在B端與國內視頻媒體行業溝通合作，思考怎樣給他們賦能。我們提供生成音效的能力，即用文字方式生成音效。這些生成能力極大地方便了用戶在視頻剪輯過程中尋找素材的時間和效率，所以當把這些能力給到用戶以後，用戶還是比較喜愛的。另外，我們還提供生成音樂的能力，因爲每個視頻都需要配備背景音樂。但以往爲用戶尋找背景音樂是一件費時費力的事情，而且還涉及版權問題。我們的這些能力爲用戶帶來了很好的解決方案。因此，我們可以說是國內首家擁有音視頻多媒體大模型的企業，並且已經通過了中央網信辦的備案，可以有效支撐後續公司全球業務的開展。

06.已推出多款具有大模型能力的AI產品，未來將構建天幕模型開放生態

我之前提到大模型的能力，一旦有了一個小的能力成熟，我們就會推進其應用到產品上，讓產品面向用戶進行體驗。特別是我們公司的主力產品Wondershare Filmora，中文版名稱爲“萬興喵影”，去年陸續增加了很多AI能力，爲用戶解決個性化問題和特定問題。我們發現我們的用戶對這些能力的喜愛度和使用度有了很大的提升。這也讓我們更加決心在AI大模型領域進一步投入。此外，在國內市場，我們還開發了一款新產品萬興播爆，利用口播數字人的能力通過文生視頻的方式，爲跨境電商賣家提供方便，讓他們能夠更輕鬆地製作商品展示介紹視頻。這一領域也受到越來越多人的喜愛。現階段，我們更多地是利用AI和模型的能力來賦能自己內部的產品，通過產品將模型的價值傳遞給最終用戶，解決用戶的問題，產生價值。今年開始，我們逐步把模型的能力又往外擴充，希望整個“天幕”能力除了內部使用外，也能夠賦能各行各業，特別是生態賦能。我們在長沙有一個AI Lab中心，在長沙馬欄山一帶，算是湖南視頻媒體文創產業集中地。我們正在探索與一些企業的合作，尤其是媒體企業，目前主要是在視頻後期處理階段，利用我們的技術提高他們的效率，降低他們的成本，爲傳統媒體行業降本增效。所以整體來看，我們錨定“新生代AIGC數字創意賦能者”定位。因爲我們相信AI會在整個視頻製作業會產生一個顛覆式的變化，利用AI和大模型的能力降低成本、提高效率，是時代的趨勢。我們的天幕大模型上一次發佈以後主要在內部使用，並在一些小範圍試用。4月28日，我們正式公測。或許我們的模型現在還不夠完美，但正是因爲不完美，才有了更多的憧憬。未來，我們一定會不懈努力，不斷完善我們的模型，還請大家多提意見和建議。感謝大家！以上是朱偉演講內容的完整整理。（本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容，未經賬號授權，禁止隨意轉載。）

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

万兴科技朱伟：Sora至今没有商业化，视频模型成熟需要周期丨GenAICon 2024

萬興科技朱偉：Sora至今沒有商業化，視頻模型成熟需要週期丨GenAICon 2024

風險及免責聲明

聲明