share_log

快手“可灵”意外走红,字节紧急追赶,AI文生视频赛道竞争加剧

AI Finance Net ·  Jul 30 19:25

2024年2月,Sora的横空出世,让许多大模型公司的春节都没能过好。

“春晚还在重播,我们就在紧急拉群讨论”,一家AI头部公司员工对「市界」急切地说。看到Sora丝滑的体验,连卖课博主都蜂拥而动,赶着上线教程,大赚一把。

谁能最快时间“复制”出国内版的Sora,更多人将目光放在了阿里、百度、“大模型五虎”身上。但无人想到,拔得头筹的会是技术表现相对“佛系”的快手。

6月7日,快手突然上线了文生视频模型“可灵”(Kling),并可支持长达2分钟的视频生成。此外,与Sora至今仍在“期货”阶段相比,可灵一经公布便开放了测试,生成效果亦可圈可点。

“可灵是最近圈内,被讨论最多的对象”,一位风投行业人士对「市界」说。据官方数据显示:可灵上线一个月有超50万人申请,已开放给超30万用户使用,生成了超700万条短视频。

可灵的意外火爆,不免让字节有些尴尬。今年5月,字节也开放了文生视频模型“即梦”测试,但效果在目前火爆的文生视频赛道中,尚不具明显优势。

突然被曾经“忽视”的对手甩开身位,字节需要埋头追赶。据钛媒体报道,近期,字节跳动将AI大模型设为集团“P0最高级别”的方向。抖音、剪映等多个团队也在抓紧研发AI视频模型应用,预计将在近期公布。

1、做可灵,快、糙、猛

多位开发者对「市界」表示,可灵的上线与亮眼表现,在行业内也算是个意外。

近日,「市界」以一段“黑猫”为关键词,在可灵、即梦,以及智谱AI刚刚上线的“清影”中分别输入了相同的提示:“下雨天的城市街道上空无一人,一只可爱的黑猫奔跑而过。它的眼珠是绿色,脖子上带有黄色的项圈和铃铛,全身长着黑亮的长毛。视频用摄像机的视角拍摄,地面的积水反射出黑猫的身影。”

在生成的三段视频里,可灵版虽然未能实现快速奔跑的效果,但视频大致符合客观规律。

与之对比,“即梦”版地面没有积水,黑猫也没有向前走动。“清影”版虽有积水,黑猫行走时,步态古怪,尾巴也出现了丢帧。

▲(图片依次为可灵、即梦、清影)

据“硅星人”报道,可灵是快手花了3个月的时间打造的;团队规模很小,仅有20余人,牵头人是现快手视觉生成与互动中心负责人万鹏飞,其大部分的研究方向为图像/视频信号处理、计算摄影和计算机视觉、减少Loss函数、视觉生成等。

可灵的前身,来自快手在2023年10月重启的一个不起眼的项目“噗叽”,这是一款将静态图片通过AI生成2s Gif表情包的工具软件。今年3月初,快手内部开了一个小会,万鹏飞的想法得到了快手高级副总裁盖坤(于越)的肯定,迅速确定了将噗叽作为预调研的产品。

据“硅星人”了解,“做可灵的时候,执行层面有个共识,就是快、糙、猛。”

可灵项目开始不到一个月,就获得了快手创始人程一笑的支持,将其视为公司战略级项目。盖坤也常说:公司的卡都给你们用,公司全力支持。

数字人赛道创业者柯燃对「市界」分析道:“可灵的成功,很大程度上要归功于快手积累的视频数据素材。放眼国内,这方面可以与之一战的也只有抖音。”

可灵风光的同时,字节显得有些落寞。

虽然“即梦”5月9日便官宣上线;6月17日,即梦也作为首席AI技术支持方,在AIGC短剧集《三星堆:未来启示录》中亮相。但无论是在C端的表现,或是相较于快手7月13日上线的AIGC短剧《山海奇镜》,即梦的声量均不甚响亮。

7月17日,市场曾传出消息称,字节将公布类Sora的文生视频技术进展。外界也将其解读为,字节要奋起直追,与可灵正面迎战了。

但字节方面随后向「市界」表示,该消息并不准确。7月17日当日,「市界」注意到,活动更类似一场技术分享会。会议主要由豆包大模型视觉基础研究团队负责人冯佳时主持,并由字节研究科学家、机构学者等,做了整场的英语技术分享。

看起来,字节的“大招”或许还需要等些时日。

2、字节还没回过神

那么,在最近如火如荼的文生视频赛道里,字节为何错过盛宴;最近字节又在忙些什么?

某种程度上,或许因为比起快手押注“可灵”,可以“一力降十会”。字节的大模型布局要更为复杂——而今年上半年,字节更重要的对手放在了腾讯与阿里。

面对大模型,字节的步调已不可谓不“激进”。毕竟2个多月前,率先在行业内发起大模型价格战的,正是字节。

5月15日,在字节跳动“FORCE原动力大会”上,字节推出了基于其自研豆包大模型的API服务。同时,火山引擎总裁谭待一步到位,亮出了“豆包”的最新价格:0.0008元/千Tokens,宣布这是低于行业99.3%的“地板价”。

彼时,字节的“发难”曾先声夺人。据「市界」从多方了解,头部玩家对字节的出击缺少准备;各方虽感无奈,也只能被动追随。

接下来几天,阿里云、百度文心大模型、腾讯云先后宣布,将旗下大模型推理输入token以及API大幅降价。在此影响下,如今头部大模型的C端调用,已几乎悉数免费,行业也开始朝着下一个生态量级“卷”去。

据一家法律AI应用企业创始人向「市界」透露,API服务开放后几乎没有时间差,火山引擎的销售人员就开始积极接触客户、推介产品。这也侧面印证了,市场流传的字节已将大模型标记为最高级别战略的猜测。

而最近,字节的“当家产品”豆包,增长得较为明显。

据Questmobile数据显示,截至2024年6月,在国内AIGC App中,豆包、天工、Kimi智能助手、猫箱增长亮眼——其中豆包流量排名第一。

与快手相比,字节如今更在意的,或许是从基础大模型、到AI应用层的全生态竞争。此外,考虑到2021年才正式做云的火山引擎,在巨头云厂商里是“最年轻”的一朵。三年多来,火山云也一直被视为云市场的挑战者角色。字节如何将基础大模型、应用层、云市场协同起来,更是一项综合命题。

近日,据“光子星球”报道,字节“扣子”平台的大量使用者,正寻求如何将创建的智能体、bot接入微信公号或小程序,讨论十分活跃。

去年12月,字节在海外推出了AI应用开发平台“coze”。今年2月,国内版“扣子”上线。大量抖音体系商家,也希望从中迅速掘一桶金。

考虑到腾讯在今年5月才姗姗来迟,发布了AI智能体创作与分发平台“腾讯元器”。彼时,扣子的访问量已达到了233万次。而截至目前,腾讯元器尚未打通小程序、公众号、客服订阅号微信系列生态。

毕竟当下,AI发展仍在早期阶段。字节与腾讯一样,都还需要花费大量时间教育用户。争夺AI时代的分发权,先声夺人,或许是字节为了瞄准腾讯要做的更大功课。

3、后发制人,尚有时间

站在行业层面,在当今互联网中,最不缺内容流量、电商流量,以及资金弹药的字节,即便短期在文生视频中“落后”一步,从长期来看,仍具备后发制人的潜力。

用积极的市场策略追平落后身位、大力出奇迹,同样也是字节的拿手好戏。

最近,瞄准阿里,字节也在做整合大模型的工作。在刚刚过去的6月26日钉钉生态大会上,总裁叶军宣布除了阿里自家的通义外,还将把其余6家的第三方大模型装入钉钉中。其中包含MiniMax、月之暗面、智谱AI、猎户星空、零一万物和百川智能,涵盖了国内几乎所有知名的大模型创企,要“构建中国最开放的AI生态”不言自明。

而与钉钉玩法类似,字节旗下扣子平台除了支持自家的“豆包”外,还接入了通义千问、月之暗面、MiniMax等各大外部模型。6月14日,扣子还上线了“模型广场”功能,支持用户选择匿名的两个模型,根据生成内容的表现来为其打分PK。

此外,字节近期被曝光,对“AI+硬件”的探索正在加快,并不惜通过收购延揽人才。

据“Tech星球”报道,字节旗下的PICO从去年下半年开始在研发多个穿戴设备,包括耳机和音响,这些设备也将搭载AI。字节豆包团队也有基于大模型软硬件结合的探索,大模型软硬件结合已经逐步在学习机、机器狗、机器人等硬件设备上有所应用。

另据36氪报道,字节AI硬件“D线”负责人为李浩乾。后者为字节在今年3月份收购的OWS(Open Wearable Stereo,开放式可穿戴立体声耳机)耳机品牌Oladance的创始人。另一条AI硬件条线“O线”的负责人也是字节曾收购公司的创始人,其向字节跳动技术副总裁洪定坤汇报。

而在文生视频方向,面对赛道刚刚的火爆,包括字节在内的追赶者们,大家都还有时间。

近日,一位开发者告诉「市界」:“现在就是用可灵构构图、减负工作流程,还不到完全用它创作的程度,所以也还没有什么依赖性。”

而在另一位开发者、短视频AIGC博主的眼中,可灵还有不少优化空间:“靠可灵文生视频不能保证虚拟人IP的一贯性。我一般都是用可灵图生视频的功能,相当于给可灵‘垫’一张图,让他在这个基础上生成不同视角动态视频,再拼接到一起,模拟运镜的效果,实际上还是人操作的比重更大。”

国内某AI模拟交友产品的研发成员则讲道:“现在的大模型应用市场,大家都在摸着石头过河。怎样商业化是一个太遥远、太模糊的问题。但可以肯定的是,越多人用起来、玩起来,越能保证产品的优化迭代。”

(柯燃为化名)

作者 | 董温淑

编辑 | 李 原

运营 | 刘 珊

The above content is for informational or educational purposes only and does not constitute any investment advice related to Futu. Although we strive to ensure the truthfulness, accuracy, and originality of all such content, we cannot guarantee it.
    Write a comment