share_log

谷歌发布量子芯片Willow,OpenAI还在挤牙膏式发布会

TMTPost News ·  Dec 13 15:34

文 | 首席商业评论

就在OpenAI举行连续12天的发布会时,谷歌震撼性地发布了量子芯片Willow,震惊世界,其声称在一个标准基准计算任务,Willow用时不到5分钟(300秒)神速完成。

而原来世界上最快超算Frontier要完成同样任务,则需要10亿亿亿年,也就是10,000,000,000,000,000,000,000,000年。这是一个天文数字,甚至超过了宇宙的年龄(138亿年)!

不过大家也不用恐慌量子计算会马上颠覆一切,原来量子计算的挑战主要是精确度,简单理解就是,计算快,但误差也高,如今终于克服了近30年的纠错问题,芯片的计算误差也呈指数级下降,有很大进步了,但离真正的概念中的量子计算机还有一段距离。

芯片的发布无疑在硅谷引发了一场科技海啸,还在发布会中的OpenAI CEO 山姆奥特曼第一时间送上祝贺。谷歌CEO劈柴对此回应:量子计算+AI的多重宇宙即将带来,也恭喜o1大模型发布!

big

此外,劈柴还和马斯克联动了起来,他说未来可以借助星舰在外太空搞一个量子计算集群。马斯克回复说这是有可能的,并提到了要实现卡尔达舍夫第二型文明所需的能源。

如果说量子计算机还有点遥远,但AI大模型的更新是离我们很近的,我们来看看OpenAI连续几天的发布会到底发布了什么?OpenAI未来是要彻底商业化运作了吗?

意外但不够惊艳的发布会:

01 模型仍然是常规更新

OpenAI好像很久都没有大动作了,距离Sora的第一次亮相已经过去了294天,距离ChatGPT语音版发布已经过去了205天,o1前瞻版的发布也已经是九月的事了。不是说好的AI元年吗?怎么热度反倒是倒过来的?

今年上半年Claude 3.5 Sonnet 俨然已经成为目前评价最好的模型、谷歌正式上架 Veo 视频生成模型,还有刚发布的 Genie 2 世界模型,以及李飞飞的世界模型都走上台前获得了不低的关注度。

OpenAI这个时候自然需要“反击”,来证明自己“AI一哥”的身份,OpenAI不是老了只是大招还在后面。

big

Sam Altman指出新版o1在处理复杂问题时的重大错误率降低了34%,而且能根据题目的难易程度调节处理时间,困难的题可能做几分钟,但简单题目仅需几秒。这使得用户等待时间下降超过50%。Sam Altman紧接着给出了它的表现数据。o1在国际数学奥林匹克预选赛题目(AIME 2024)中拿到了83%的正确率,把GPT-4o那可怜巴巴的13%甩得连尾灯都看不见了,比起o1 -preview的56.7%也提升了将近一半!

如下图所示,o1 Pro 仅用时 6 分 48 秒就成功解答了 2006 年国际数学奥林匹克竞赛(IMO)的第三题——当年公认难度最高的题目。

big

2006 年全球约 500 名 19 岁以下的顶尖数学学生中,仅有 28 人能够完全解答此题……他们拥有 4 个半小时的时间来攻克……而 6 名美国队成员中无一人能够解决这个问题……网友们尝试使用其他所有模型(包括 o1)来解决这个问题,结果 o1 Pro 是唯一一个大语言模型给出了正确答案,也是目前推理最强的大语言模型。

ChatGPT Pro 订阅计划将允许用户无限制访问 o1、o1-mini、GPT-4o 以及高级语音模式,还包括一个仅供 Pro 用户使用的 o1 版本,也就是o1 pro 模式。但200美元一个月的价格也足以劝退大部分普通用户,有业内人士指出想过很涨价但没想到会涨这么多,如果你提不出专业的问题和具体且特别的需求,买这个会员就是在浪费钱。

不断细分的GPT模型往好处说是为了更好满足不同需求的用户,但经历过国内互联网手机和车圈大战的人,应该能很快明白这是什么意思。更多产品对应具体需求这不假,但本质上是在争取已经存量化的细分市场,以至于要出各种不同名头的产品。这并非不行,但这跟OpenAI宣称的未来是属于AI的世界,距离恐怕有点远。

02 Sora Turbo正式上线

big

在OpenAI 12天发布会的第三天,终于放出了一个像样的大招。OpenAI 在 X 平台表示,自 2 月份以来,他们一直在构建 Sora Turbo,后者是一个速度明显更快的模型版本,今天也将其作为独立产品向Plus 和 Pro 用户开放。

在 Sora Turbo「Library」中,用户可以保存自己喜欢或有用的提示词,以便未来使用。并且保存的提示词可以按需查看或修改,对于需要重复创作相似内容的用户,无疑能大大提高效率。在工作流方面,Sora 的编辑功能是区别于其它竞品的重要亮点。比如说,在 Remix 功能中,用户可以利用纯自然语言提示词对视频进行编辑,并通过简单的「strength(强度)」选项和滑块来控制生成的变化程度。

在技术规格上,Sora Turbo支持 5-20 秒的视频生成,并兼容 1:1、9:16 等主流宽高比。相比早期版本,现在的生成速度有了显著提升。

有趣的是,由于 Sora Turbo热度太高,大批用户涌入体验网站,导致该网站一度崩溃,停止注册登录。不给力的服务也让 Altman 连连在 X 平台安抚用户:由于需求超出预期,我们将不得不间歇性地关闭新用户注册,并且生成内容的速度会在一段时间内减慢。我们正在全力以赴!

生成视频贵这是行业内的普遍共识,但没想到这次Sora Turbo贵的超乎想象,连两百美元的会员都不能自由生成。对于订阅用户而言,20 美元的 ChatGPT Plus 计划提供 50 个优先视频额度(1000 积分),支持最高 720p 分辨率和 5 秒时长。而200 美元的 ChatGPT Pro 计划则提供最多 500个优先视频(10000 个积分),支持最高 1080p 分辨率、20 秒时长、5 个并发生成和无水印输出。

虽然官方博客中提到,Sora Turbo用了一种新的扩散模型,它通过从一段看起来像静态噪声的基础视频开始,逐步去除噪声并转变为最终的视频。通过同时处理多个帧,模型成功解决了一个难题:即使目标暂时脱离视野,也能确保其在视频中始终保持一致。

big

比如画面中门的开向各开各的

但生成视频共有的一些毛病他还是有的,在物理模拟方面,模型对物体运动的理解还不够深入,常常出现动作不自然、物体突然消失等问题。特别是在处理带有腿部运动的对象时,经常出现前后腿位置混乱的情况,导致动作看起来不自然。

big

又或者,某些视频生成结果看起来像是慢动作,而视频的其他部分则以正常速度播放,肉眼很容易察觉这种「别扭」。简言之,Sora 还是没能解决老毛病,缺乏对物理世界规律的理解。另外,Sora 没能解决文字生成的问题,导致经常出现文字混乱的现象。

笔者认为这次Sora Turbo最大更新恐怕是对产权的明晰,官方博客中写道,未经他人许可使用他人肖像,并禁止描绘真实未成年人;禁止创建非法内容或侵犯知识产权的内容;禁止生成有害内容,例如未经同意的亲密影像、用于欺凌、骚扰或诽谤的内容,或旨在传播暴力、仇恨或使他人痛苦的内容;创建并传播用于欺诈、诈骗或误导他人的内容。

big

所有 Sora Turbo生成的视频都带有 C2PA 元数据,这些元数据能够标识视频的来源,从而提高透明度,并可用于验证其来源。这些动作或许可以应对一些新闻媒体和艺术家对OpenAI的侵权起诉,可能有助于AI视频和内容快速走向商业化。

03 OpenAI也要把商业化放在第一位了

正如我们这次的标题所言OpenAI最新发布会,很意外、很昂贵、很着急。论技术力OpenAI仍然是行业第一这没有问题,但技术和美好的愿景并不足以解决所有问题,能够正常商业运作且有盈利可能的产品才能活得更久。

OpenAI在接受FT财经网采访时表示,他们制定了明年冲击 10 亿活跃用户的目标,现在 ChatGPT 的周活在 2.5 亿左右;完全不线性的增长预期,建立在和苹果的合作上,iPhone 的全球活跃设备超过 20 亿台,这会是成为搭便车的最好机会;OpenAI 给投资者画大饼时也表示,达到 10 亿活跃用户,才能拿到和 Meta、Google 上同一张牌桌的入场券;OpenAI 今年的收入突破了 40 亿美金,但同时创造了 50 亿美金以上的成本,亏损压力难以忽视;API 业务对收入贡献很大,但利润很低,来自 C 端用户的直接订阅才是最赚钱的,这也是 OpenAI 对提高活跃用户规模兴趣甚高的原因。

OpenAI 首席财务官 Sarah Friar 在接受《金融时报》采访时表示:"到 2025 年,我们将从一家服务数百万用户的研究实验室,发展成为服务全球数十亿消费者的科技巨头。"这家成立九年的创业公司正在向全球科技巨头转型,为公司创始人兼 CEO Sam Altman 所描绘的"智能时代"做好准备。

OpenAI从非盈利组织转向盈利的大公司几乎是可以确定的事,改变世界很美好但在这之前他们要先活下来。

不过OpenAI的大饼真的能这么顺利实现吗?

OpenAI 新任政策主管 Chris Lehane 透露,公司计划在美国中西部和西南部地区建设数据中心集群,以支持未来发展。这一自建 AI 基础设施的战略,与 Google 和 Amazon 等科技巨头的做法如出一辙。Lehane 指出,在 AI 竞争中,"芯片、数据和能源"是取得成功的三大关键要素。但问题在于OpenAI并不比这些大公司在芯片、数据和能源上拥有太多优势。

iPhone用户虽然全球有20亿活跃设备,但支持AI功能的只有最近两年的产品,AI本地化是苹果一直倡导的,未必会支持用户去购买功能更为复杂成本更高的01模型或者Sora Turbo。而且苹果自家AI也一直在追赶,能用自己的未来肯定会用自己的,搭便车可没想象中那么容易。

OpenAI对AGI五个阶段定义如下:1)L1:聊天机器人(Chatbots),具备对话能力的AI;2)L2:推理者(Reasoners),具备人类的推理水平能解决很多复杂难题;3)L3:智能体(Agents),不只是推理,还能执行全自动化业务的智能体;4)L4:创新者(Innovators),能协助人类完成新发明的AI;5)L5:组织(Organizations),可以自动执行组织全部业务的AI。

据新浪科技,2024年中旬,OpenAI评估自己处于L1阶段,而这次超长发布会后,笔者认为OpenAI有望在此次发布会后进入L2阶段和L3初级阶段,01模型的推理能力已经毋庸置疑,智能体(Agents)也有望在这次发布会出现。

Agent可帮忙寻找营销线索、推送潜在客户、进行初期产品沟通等,带来实际收入,所以大家愿意买单。Agent的核心是大模型的推理能力(链式推理、多步推理能力),它能把复杂事情拆解成多步,若多步推理能力不足,AI成功率很低。国内已经有大模型在推送Agent服务,或许OpenAI这次能提供不一样的东西。

写在最后

目前OpenAI模型的真正使用者更多是专业开发者和领域专家研究员,普通大众用于聊天不需要这么大算力需求。而专业人士对人类科技进步和生产力提升有很大帮助,也会反推大家能力提升。所以这个时候,就不要谈生成式AI是伪需求了。

但AI也走过了早期教育市场的阶段,需要回答如何在性能、效果、成本之间实现平衡了。Agent算是眼下不多的AI热点,但从算力上来讲,Agent模式的成本开支较大,是GPU的5到10倍左右,算力消耗大,是AI应用的瓶颈之一。有时候或许要做的不是另辟蹊径,而是先在成本上合理性可靠性,再来谈商业化的事。

参考资料:

  • OpenAI最短发布会 来源:Appso
  • Sora上线挤爆服务器 来源:智东西
  • OpenAI要搞12天连续发布会 来源:Founder Park
The above content is for informational or educational purposes only and does not constitute any investment advice related to Futu. Although we strive to ensure the truthfulness, accuracy, and originality of all such content, we cannot guarantee it.
    Write a comment