文 | 首席商业评论
就在OpenAI举行连续12天的发布会时,谷歌震撼性地发布了量子芯片Willow,震惊世界,其声称在一个标准基准计算任务,Willow用时不到5分钟(300秒)神速完成。
而原来世界上最快超算Frontier要完成同样任务,则需要10亿亿亿年,也就是10,000,000,000,000,000,000,000,000年。这是一个天文数字,甚至超过了宇宙的年龄(138亿年)!
不过大家也不用恐慌量子计算会马上颠覆一切,原来量子计算的挑战主要是精确度,简单理解就是,计算快,但误差也高,如今终于克服了近30年的纠错问题,芯片的计算误差也呈指数级下降,有很大进步了,但离真正的概念中的量子计算机还有一段距离。
芯片的发布无疑在硅谷引发了一场科技海啸,还在发布会中的OpenAI CEO 山姆奥特曼第一时间送上祝贺。谷歌CEO劈柴对此回应:量子计算+AI的多重宇宙即将带来,也恭喜o1大模型发布!
此外,劈柴还和马斯克联动了起来,他说未来可以借助星舰在外太空搞一个量子计算集群。马斯克回复说这是有可能的,并提到了要实现卡尔达舍夫第二型文明所需的能源。
如果说量子计算机还有点遥远,但AI大模型的更新是离我们很近的,我们来看看OpenAI连续几天的发布会到底发布了什么?OpenAI未来是要彻底商业化运作了吗?
意外但不够惊艳的发布会:
01 模型仍然是常规更新
OpenAI好像很久都没有大动作了,距离Sora的第一次亮相已经过去了294天,距离ChatGPT语音版发布已经过去了205天,o1前瞻版的发布也已经是九月的事了。不是说好的AI元年吗?怎么热度反倒是倒过来的?
今年上半年Claude 3.5 Sonnet 俨然已经成为目前评价最好的模型、谷歌正式上架 Veo 视频生成模型,还有刚发布的 Genie 2 世界模型,以及李飞飞的世界模型都走上台前获得了不低的关注度。
OpenAI这个时候自然需要“反击”,来证明自己“AI一哥”的身份,OpenAI不是老了只是大招还在后面。
Sam Altman指出新版o1在处理复杂问题时的重大错误率降低了34%,而且能根据题目的难易程度调节处理时间,困难的题可能做几分钟,但简单题目仅需几秒。这使得用户等待时间下降超过50%。Sam Altman紧接着给出了它的表现数据。o1在国际数学奥林匹克预选赛题目(AIME 2024)中拿到了83%的正确率,把GPT-4o那可怜巴巴的13%甩得连尾灯都看不见了,比起o1 -preview的56.7%也提升了将近一半!
如下图所示,o1 Pro 仅用时 6 分 48 秒就成功解答了 2006 年国际数学奥林匹克竞赛(IMO)的第三题——当年公认难度最高的题目。
2006 年全球约 500 名 19 岁以下的顶尖数学学生中,仅有 28 人能够完全解答此题……他们拥有 4 个半小时的时间来攻克……而 6 名美国队成员中无一人能够解决这个问题……网友们尝试使用其他所有模型(包括 o1)来解决这个问题,结果 o1 Pro 是唯一一个大语言模型给出了正确答案,也是目前推理最强的大语言模型。
ChatGPT Pro 订阅计划将允许用户无限制访问 o1、o1-mini、GPT-4o 以及高级语音模式,还包括一个仅供 Pro 用户使用的 o1 版本,也就是o1 pro 模式。但200美元一个月的价格也足以劝退大部分普通用户,有业内人士指出想过很涨价但没想到会涨这么多,如果你提不出专业的问题和具体且特别的需求,买这个会员就是在浪费钱。
不断细分的GPT模型往好处说是为了更好满足不同需求的用户,但经历过国内互联网手机和车圈大战的人,应该能很快明白这是什么意思。更多产品对应具体需求这不假,但本质上是在争取已经存量化的细分市场,以至于要出各种不同名头的产品。这并非不行,但这跟OpenAI宣称的未来是属于AI的世界,距离恐怕有点远。
02 Sora Turbo正式上线
在OpenAI 12天发布会的第三天,终于放出了一个像样的大招。OpenAI 在 X 平台表示,自 2 月份以来,他们一直在构建 Sora Turbo,后者是一个速度明显更快的模型版本,今天也将其作为独立产品向Plus 和 Pro 用户开放。
在 Sora Turbo「Library」中,用户可以保存自己喜欢或有用的提示词,以便未来使用。并且保存的提示词可以按需查看或修改,对于需要重复创作相似内容的用户,无疑能大大提高效率。在工作流方面,Sora 的编辑功能是区别于其它竞品的重要亮点。比如说,在 Remix 功能中,用户可以利用纯自然语言提示词对视频进行编辑,并通过简单的「strength(强度)」选项和滑块来控制生成的变化程度。
在技术规格上,Sora Turbo支持 5-20 秒的视频生成,并兼容 1:1、9:16 等主流宽高比。相比早期版本,现在的生成速度有了显著提升。
有趣的是,由于 Sora Turbo热度太高,大批用户涌入体验网站,导致该网站一度崩溃,停止注册登录。不给力的服务也让 Altman 连连在 X 平台安抚用户:由于需求超出预期,我们将不得不间歇性地关闭新用户注册,并且生成内容的速度会在一段时间内减慢。我们正在全力以赴!
生成视频贵这是行业内的普遍共识,但没想到这次Sora Turbo贵的超乎想象,连两百美元的会员都不能自由生成。对于订阅用户而言,20 美元的 ChatGPT Plus 计划提供 50 个优先视频额度(1000 积分),支持最高 720p 分辨率和 5 秒时长。而200 美元的 ChatGPT Pro 计划则提供最多 500个优先视频(10000 个积分),支持最高 1080p 分辨率、20 秒时长、5 个并发生成和无水印输出。
虽然官方博客中提到,Sora Turbo用了一种新的扩散模型,它通过从一段看起来像静态噪声的基础视频开始,逐步去除噪声并转变为最终的视频。通过同时处理多个帧,模型成功解决了一个难题:即使目标暂时脱离视野,也能确保其在视频中始终保持一致。
比如画面中门的开向各开各的
但生成视频共有的一些毛病他还是有的,在物理模拟方面,模型对物体运动的理解还不够深入,常常出现动作不自然、物体突然消失等问题。特别是在处理带有腿部运动的对象时,经常出现前后腿位置混乱的情况,导致动作看起来不自然。
又或者,某些视频生成结果看起来像是慢动作,而视频的其他部分则以正常速度播放,肉眼很容易察觉这种「别扭」。简言之,Sora 还是没能解决老毛病,缺乏对物理世界规律的理解。另外,Sora 没能解决文字生成的问题,导致经常出现文字混乱的现象。
笔者认为这次Sora Turbo最大更新恐怕是对产权的明晰,官方博客中写道,未经他人许可使用他人肖像,并禁止描绘真实未成年人;禁止创建非法内容或侵犯知识产权的内容;禁止生成有害内容,例如未经同意的亲密影像、用于欺凌、骚扰或诽谤的内容,或旨在传播暴力、仇恨或使他人痛苦的内容;创建并传播用于欺诈、诈骗或误导他人的内容。
所有 Sora Turbo生成的视频都带有 C2PA 元数据,这些元数据能够标识视频的来源,从而提高透明度,并可用于验证其来源。这些动作或许可以应对一些新闻媒体和艺术家对OpenAI的侵权起诉,可能有助于AI视频和内容快速走向商业化。
03 OpenAI也要把商业化放在第一位了
正如我们这次的标题所言OpenAI最新发布会,很意外、很昂贵、很着急。论技术力OpenAI仍然是行业第一这没有问题,但技术和美好的愿景并不足以解决所有问题,能够正常商业运作且有盈利可能的产品才能活得更久。
OpenAI在接受FT财经网采访时表示,他们制定了明年冲击 10 亿活跃用户的目标,现在 ChatGPT 的周活在 2.5 亿左右;完全不线性的增长预期,建立在和苹果的合作上,iPhone 的全球活跃设备超过 20 亿台,这会是成为搭便车的最好机会;OpenAI 给投资者画大饼时也表示,达到 10 亿活跃用户,才能拿到和 Meta、Google 上同一张牌桌的入场券;OpenAI 今年的收入突破了 40 亿美金,但同时创造了 50 亿美金以上的成本,亏损压力难以忽视;API 业务对收入贡献很大,但利润很低,来自 C 端用户的直接订阅才是最赚钱的,这也是 OpenAI 对提高活跃用户规模兴趣甚高的原因。
OpenAI 首席财务官 Sarah Friar 在接受《金融时报》采访时表示:"到 2025 年,我们将从一家服务数百万用户的研究实验室,发展成为服务全球数十亿消费者的科技巨头。"这家成立九年的创业公司正在向全球科技巨头转型,为公司创始人兼 CEO Sam Altman 所描绘的"智能时代"做好准备。
OpenAI从非盈利组织转向盈利的大公司几乎是可以确定的事,改变世界很美好但在这之前他们要先活下来。
不过OpenAI的大饼真的能这么顺利实现吗?
OpenAI 新任政策主管 Chris Lehane 透露,公司计划在美国中西部和西南部地区建设数据中心集群,以支持未来发展。这一自建 AI 基础设施的战略,与 Google 和 Amazon 等科技巨头的做法如出一辙。Lehane 指出,在 AI 竞争中,"芯片、数据和能源"是取得成功的三大关键要素。但问题在于OpenAI并不比这些大公司在芯片、数据和能源上拥有太多优势。
iPhone用户虽然全球有20亿活跃设备,但支持AI功能的只有最近两年的产品,AI本地化是苹果一直倡导的,未必会支持用户去购买功能更为复杂成本更高的01模型或者Sora Turbo。而且苹果自家AI也一直在追赶,能用自己的未来肯定会用自己的,搭便车可没想象中那么容易。
OpenAI对AGI五个阶段定义如下:1)L1:聊天机器人(Chatbots),具备对话能力的AI;2)L2:推理者(Reasoners),具备人类的推理水平能解决很多复杂难题;3)L3:智能体(Agents),不只是推理,还能执行全自动化业务的智能体;4)L4:创新者(Innovators),能协助人类完成新发明的AI;5)L5:组织(Organizations),可以自动执行组织全部业务的AI。
据新浪科技,2024年中旬,OpenAI评估自己处于L1阶段,而这次超长发布会后,笔者认为OpenAI有望在此次发布会后进入L2阶段和L3初级阶段,01模型的推理能力已经毋庸置疑,智能体(Agents)也有望在这次发布会出现。
Agent可帮忙寻找营销线索、推送潜在客户、进行初期产品沟通等,带来实际收入,所以大家愿意买单。Agent的核心是大模型的推理能力(链式推理、多步推理能力),它能把复杂事情拆解成多步,若多步推理能力不足,AI成功率很低。国内已经有大模型在推送Agent服务,或许OpenAI这次能提供不一样的东西。
写在最后
目前OpenAI模型的真正使用者更多是专业开发者和领域专家研究员,普通大众用于聊天不需要这么大算力需求。而专业人士对人类科技进步和生产力提升有很大帮助,也会反推大家能力提升。所以这个时候,就不要谈生成式AI是伪需求了。
但AI也走过了早期教育市场的阶段,需要回答如何在性能、效果、成本之间实现平衡了。Agent算是眼下不多的AI热点,但从算力上来讲,Agent模式的成本开支较大,是GPU的5到10倍左右,算力消耗大,是AI应用的瓶颈之一。有时候或许要做的不是另辟蹊径,而是先在成本上合理性可靠性,再来谈商业化的事。
参考资料:
- OpenAI最短发布会 来源:Appso
- Sora上线挤爆服务器 来源:智东西
- OpenAI要搞12天连续发布会 来源:Founder Park