追蹤AI最新趨勢

專題 1022條資訊 19463人訂閱

週末讀物 | 谷歌發佈新一代大模型Gemini 2.0，掀了AI圈牌桌，全力狙擊OpenAI

騰訊科技 · 15:13

① 谷歌发布了新一代大模型Gemini 2.0，速度翻倍，能力更强，支持原生图像生成和音频输出的多模态输出。

② 谷歌推出新的多模态实时API，支持实时音频、视频流输入和多个组合工具的使用。此外，还展示了三个智能体研究原型：Project Astra、Project Mariner和Jules。

③ 谷歌Gemini 2.0的发布是对固有业务的防御，以期在更低成本下实现更强大的能力所带来的投资回报率提升。

$谷歌-C (GOOG.US)$ 用一次发布，干了比OpenAI 五天都多的事儿。

12月12日凌晨，就在OpenAI轰轰烈烈的“12天连续发布”进行到第五天时，谷歌发布了他们的重磅更新—— Gemini 2.0 Flash。

它的速度翻倍，能力更强，且支持原生图像生成和音频输出的多模态输出，以及原生使用 Google 搜索和地图等工具。

这些更新，让谷歌带来的远不止是一个升级版的语言模型，而是一个满足了智能体基本需求的统一底层模型。

谷歌CEO桑达尔·皮查伊在公开信中表示：“如果说Gemini 1.0是关于整理和理解信息，那么Gemini 2.0就是要让这些信息真正变得有用。”

“过去一年，我们一直在投资开发更具主动性的模型，”皮查伊对此解释说，“这意味着它们可以更好地理解周围的世界，提前思考多个步骤，并在你的监督下采取行动。”

这意味着，AI不再只是被动地回答问题，而是能够理解用户的需求，提前思考，并在用户监督下采取行动。想象一个既能帮你规划旅行，又能实际帮你订票的助手，这就是谷歌对未来AI的愿景。

这一愿景，OpenAI提过、微软提过，他们也都推出了自己的理念和渐进性的产品。但真正的完整的系统级 Copilot 和智能体应用，还都在一步步落地之中。

但谷歌这回直接把一整锅都端上桌来了。包括那些OpenAI和微软没展示出来的，它都带来了。

从Gemini 2.0能力结构的提升，到谷歌对Project Astra、Project Mariner和Jules三个智能体研究原型的展示，都标志着谷歌AI已经初步做到了向“主动代理”时代的转变。它意味着AI将从被动的信息处理工具，转变为能够主动思考和行动的智能助手。

就算不说超过竞争对手，随着Gemini 2.0的推出，谷歌也重新回到了产品、模型、智能体、系统这所有领域的一线领先者位置。

谷歌，王者归来。

01 Gemini 2.0 Flash：村里的新霸主

Gemini Flash 2.0带来了很多眼前一亮的提升，而这些提升最终都可以落地到对智能体的支持上。

技术上的进步首先体现在速度和性能的突破性提升。Gemini 2.0的Flash版本实现了速度翻倍的同时，性能还超越了参数量级更大的1.5 Pro模型。

虽然没有提供和其他主流模型的数据直接对比。但前几天刷屏的竞技场新王Gemini-Exp-1121正是Gemini Flash 2.0。

在这个榜单中我们可以看到，它超越了ChatGPT-4o和o1 Preview，登上了第一。这足见其模型的实力。

而且Flash，是Gemini 模型序列中，除了专为端侧开发的Nano模型外，参数最小的模型。

正如谷歌DeepMind的CTO科雷·卡武克奥卢所说：“如果把我们一年前的位置和现在相比，今天发布的Flash模型比我们一年前的任何模型都要强大得多，而且成本只是其一小部分。”

最小赢过了竞争对手最大、最先进的模型，这让人甚至都很难想象 Gemini 2.0 Ultra 会强到什么地步。

借由模型性能的提升，Gemini能够更好地理解复杂指令、进行长期规划，并具备更强的组合函数调用能力。

这是Gemini强大规划能力的基础。

但更引人注目的是模型的多模态能力。Gemini 2.0不仅能理解文本、图像、视频、音频和代码，还能原生生成图像和多语言音频。

这意味着它可以像人类一样自然地在不同形式的信息之间转换。

在Gemini 1.0时，谷歌已经实现了多模态大系统模型的训练，但生成这一侧他们还是没能突破。现在它做到了。

这是其它所有领先模型都做不到的事，ChatGPT的图片生成还要依靠DALLE，语音生成也是单独的模块。

虽然Gemini 1.0刚推出的时候，大家都认为大一统模型会是未来，但到今天，GPT-4o可能也还没用这种方式训练。

这是Gemini感知能力的基础。

长上下文理解也一直是Gemini的长项，虽然在官方文档中仅仅提及了“更长的上下文”，但鉴于Gemini 1.5 Pro 已经支持 200 万token的海量上下文窗口， Gemini 2不会比这更低。

这是Gemini记忆能力的基础。

此外，Gemini 2.0还能原生调用Google搜索、执行代码以及使用第三方用户定义的功能。

这是Gemini工具使用能力的基础。

让我们回顾前OpenAI研究副总裁翁荔分析的智能体的几大基础能力。记忆、工具使用和规划能力，都在Gemini 2.0中得到了大幅的提升。

而感知，也是传统智能体的核心需求之一，它决定了智能体的应用范围。

谷歌产品经理图尔西·多希在新闻发布会上就表示：“这些新能力使得构建能够思考、记忆、规划，甚至代表你采取行动的代理成为可能。”

从今天开始，全球Gemini用户就可以在桌面和移动网页版中选择使用2.0 Flash实验版，移动应用版本也将很快推出。

谷歌计划在明年初将Gemini 2.0扩展到更多产品中。

对开发者而言，谷歌推出了新的多模态实时API，支持实时音频、视频流输入和多个组合工具的使用。这些功能将从本周开始通过谷歌AI工作室和Vertex AI向开发者开放，而完整版本将于明年1月推出。

接着Gemini-Exp-1121的火热，Gemini 2.0 Flash在正式发布前就已经获得了用户用脚投的票了。

根据API团队产品经理Logan Kilpatrick的数据，“Flash使用量的增长超过900%，这是令人难以置信的。

在过去几个月里，我们推出了六个实验性模型，现在已有数百万开发者在使用Gemini。”

因此，Gemini 2.0的发布确如皮查伊所说，这标志着谷歌AI发展进入了新阶段。

但谷歌并没有止步于此。

02 让智能体渗入谷歌的每条血脉

如果说Gemini 2.0的技术突破令人印象深刻，那么把它结合进具体的应用场景会诞生什么呢？

答案是：谷歌版的智能体全家桶！

谷歌通过三个研究原型展示了这一技术的潜力：Project Astra、Project Mariner和Jules，每一个都展现了智能体会如何改变我们与数字世界的互动方式。

Project Astra：目前看起来最惊艳的系统级智能体

Project Astra是谷歌最早在今年5月 I/O大会上展示的AI助手，刚发布时看起来并不太惊艳。但现在搭载Gemini 2.0后获得了显著提升。

在演示中，你可以把它当成谷歌版的Apple Intelligence或者Windows Copilot，它的定位是一个系统级的智能体助手。

Astra 利用 Gemini 2.0 内置的代理框架，通过文本、语音、图像和视频回答问题并执行任务，在需要时调用现有的 Google 应用，如搜索、地图和 Lens。

Astra 产品经理 Bibo Xu 表示：“它正在整合当今一些最强大的信息检索系统。”

这使其在日常生活中的实用性大大提高。

在记忆能力方面，Project Astra也有重要突破。系统现在拥有长达10分钟的会话记忆，并能记住过去的对话历史，甚至是多模态的历史，比如在演示中，它甚至能记住你的门锁密码。这让它能提供更加个性化的服务。

通过新的流式处理功能和原生音频理解能力，Astra能以接近人类对话的延迟速度理解语言，也支持多语言。

根据《连线》杂志和彭博社的报道，在谷歌伦敦总部的“家庭图书馆”场景中，这些能力得到了生动展示。Project Astra能够自如地与参观者交谈，解读挪威画家爱德华·蒙克的《呐喊》所反映的焦虑情绪，并探讨这幅作品如何捕捉了那个时代的普遍偏执感。

在布置成酒吧的房间里，它能快速分析视野中的葡萄酒瓶，提供地理信息、口感特征，并从网上搜索价格信息。当有人快速翻阅书籍时，它能实时阅读内容，甚至将西班牙诗歌即时翻译成英语。

这和Greg Brockman给《60 Minutes》节目展示的能实时语音对话的ChatGPT-Vision水平相当，但功能似乎更丰富。

但它同时也是个完整的LLMOS系统，可以结合你在设备上的浏览和通过视频看到的内容综合给出你答案。在演示视频里，小哥先给Astra看了朋友喜欢的书单，又让它通过即时视频推荐书店里有的书。

借由对工具的支持，Astra可以随时获取你所在的地点信息，并了解到该地的具体情况和政策。因此在演示中，小哥想骑车进公园，Astra准确识别出了公园，还告诉他这个公园里不许骑车。

这种多模态间丝滑切换和对工具的无碍结合，目前对Copilot还是OpenAI来讲，都尚未实现。这都是Gemini 2.0原生能力带来的强大加持。毫无疑问，这种体验才是我们日常应用中期待看到的。

难怪MIT Technology review的报道不吝赞美的认为Astra 或将成为生成式 AI 的杀手级应用。

而且谷歌的野心并不止于手机。它已经开始扩大其可信测试者计划，包括让一小组用户在原型XR眼镜上测试Project Astra。它正在探索将这项技术扩展到更多形态，包括AR眼镜等可穿戴设备。

Project Mariner：谷歌版的AutoGLM，但更贴心

Project Mariner则是一个插件版的智能体。毕竟谷歌没有电脑系统，插件是它能找到的最大PC系统入口。作为一个实验性的Chrome扩展，它能够理解和分析浏览器屏幕上的所有信息，包括像素、文本、代码、图像和表单。

当你通过Prompt让它完成一系列工作时，比如在演示中的找到四家公司的邮箱。Mariner可以控制Chrome里的一系列自主操作，包括输入信息，打开网页并网络浏览、进一步点击查询等。

Project Mariner只能在活动标签页中输入、滚动或点击，并且在进行购物等敏感操作前需要用户的最终确认。

它的整体能力和Anthropic10月发布的“计算机使用”功能非常类似。国内的智谱近期发布的AutoGLM也是类似的逻辑。

但Mariner的特别之处在于，它可以把每一步计划像思维链一样同步展示出来，你可以随时叫停并修改它的错误步骤。让用户老板感满满。

而且在WebVoyager基准测试中，Project Mariner作为单一智能体设置取得了83.5%的最优成绩，很能打。

虽然目前导航速度还不够快，准确性也有待提高，但谷歌表示这些问题会随着时间快速改善。

Jules：谷歌也有Devin了，应该卖不到500刀/月

针对开发者群体，谷歌推出了实验性的AI智能体Jules。它和Devin、Cursor 0.43一样，作为编码助手能够制定详尽的多步骤计划来解决问题，高效地修改多个文件，甚至准备拉取请求，将修复直接提交回 GitHub。

另外比较特别的是，Jules 还可以以异步方式工作，并与你的 GitHub 工作流程集成，在你专注于实际想要构建的内容时，它负责处理 Bug 修复和其他耗时的任务。真助手，给你做好同步辅助。

这在Cursor和Devin上似乎还未做到，更别提OpenAI 刚发布的Canva了。

除了这些主要应用，谷歌还在游戏领域进行了有趣的尝试。他们正在与Supercell等领先游戏开发商合作，探索AI代理在不同类型游戏中的应用，从《部落冲突》这样的策略游戏到《卡通农场》这样的模拟经营游戏。

这些游戏AI助手不仅能理解游戏规则和挑战，还能通过实时对话提供建议，甚至调用Google搜索来连接网络上丰富的游戏知识。

在系统级AI助手战争打响：微软用Vision划出了一道分水岭一文中，腾讯科技报道了微软Vision，一个他们刚推出的智能语音助手，它能帮你给购物提意见。在宣传视频里，微软曾提到，也许很快，Vision就能陪你打游戏了。

确实够快，一个礼拜之后就实现了。但是是谷歌实现的。

更令人期待的是，谷歌正在探索将Gemini 2.0的空间推理能力应用到机器人领域。虽然还处于早期阶段，但这预示着AI代理在物理环境中提供帮助的潜力。

这三个产品意味着谷歌通过一场发布会，在主流智能体应用方向上全部追平业界顶尖水平，甚至还能做出点新花样。

03 Gemini 2.0背后的功臣，英伟达的在喉之梗

支撑这些进步的是谷歌在硬件层面的重大投入。新一代TPU芯片Trillium不仅支持了Gemini 2.0的全部训练和推理过程，现在还向客户开放。

在Gemini 2.0背后，是谷歌最新一代AI芯片的强大支撑。第六代TPU（张量处理器）Trillium不仅全程支持了Gemini 2.0的训练和推理，更代表了AI硬件领域的重大突破。

与上一代相比，Trillium在多个关键指标上都实现了显著提升：训练性能提升超过4倍，推理吞吐量提升达3倍，每芯片的峰值计算性能提升4.7倍，同时能耗效率提升67%。更重要的是，谷歌在单个Jupiter网络架构中部署了超过10万片Trillium芯片，创造了前所未有的规模。

这种性能提升直接体现在大型语言模型的训练上。在训练Llama-2-70B等密集型模型时，Trillium比上一代TPU v5e快4倍。对于越来越流行的混合专家模型（MoE），提升更是达到了3.8倍。

在扩展性方面，Trillium展现出惊人的效率。在使用3072个芯片（12个计算单元）进行训练时，可以达到99%的扩展效率；即使扩展到6144个芯片（24个计算单元），仍能保持94%的效率。这种近乎线性的扩展能力，让Gemini 2.0这样的大规模模型训练成为可能。

不仅是性能，Trillium在成本效益上同样表现出色。在训练大型语言模型时，每美元性能比较上一代提升了2.5倍。在图像生成任务中，生成1000张图像的成本比TPU v5e低27%（离线推理）和22%（在线服务）。

这些进步背后是谷歌在基础设施上的深度创新。AI Hypercomputer架构将优化的硬件、开源软件和领先的机器学习框架整合在一起，通过13Pb/s的双向带宽连接超过10万片Trillium芯片，使单个分布式训练任务能够扩展到数十万个加速器的规模。

对英伟达来讲可能不太好的消息是，Trillium也已经面向Google Cloud客户全面开放。

这意味着企业和初创公司都能够使用与谷歌训练Gemini相同的强大、高效且可持续的基础设施。这可能对于很多模型公司来讲都很有吸引力。

AI21 Labs的CTO Barak Lenz在新闻会上就表示：“作为从v4版本就开始使用TPU的长期用户，我们对谷歌云的Trillium的能力印象深刻。在规模、速度和成本效率方面的进步都很显著。”

04 多快好省，谷歌更新可能带来商业版图的漂移

谷歌Gemini 2.0的发布带来的商业意义在最显见的层面是对固有业务的防御。

正如彭博社报道指出，Alphabet的谷歌一直在努力确保OpenAI等初创公司推出的最新AI工具不会动摇其在搜索和广告领域的主导地位。尽管谷歌目前仍保持着搜索市场的份额，但OpenAI正在将更多搜索功能整合到ChatGPT中，这给行业领导者带来了压力。

目前，谷歌的AI概览功能已经触及10亿用户，但上一代Gemini 1.0驱动的搜索曾犯下“每天吃石头补钙”这种令人瞠目结舌的错误，让谷歌AI搜索在用户层面上很难被信任。

通过将Gemini 2.0的高级推理能力引入搜索，谷歌希望在更复杂的话题、多步骤问题上保持领先优势。

但这只是第一层。

更重要的一层是ROI上的改变。从今年开始，投资者一直都在对谷歌等公司在AI领域的巨额投入回报率表示担忧。现在好了，Gemini 2.0 flash在更低成本下实现了更强大的能力，多快好省，ROI好看多了。而且如果谷歌保持这一优势，在价格战上都可以耗死对手。

然而，这场AI革命的最终目标似乎指向更远大的愿景。如谷歌DeepMind的CEO戴密斯·哈萨比斯所说，他长期以来一直梦想着一个通用数字助手，将其视为通向通用人工智能的垫脚石。这种愿景与OpenAI等竞争对手的目标不谋而合：都在追求能够执行任务的AGI（通用人工智能），并认为这才是真正的价值所在。

DevMind的CTO卡武克奥卢也强调了这一点：“我们想要构建这种技术——真正的价值就在于此。在通往这一目标的道路上，我们试图选择正确的应用，试图选择正确的问题来解决。”

通过这次更新，谷歌重新回到了智能体的牌桌上，甚至还比别人坐的近了一点。

就在2024年，谷歌就推出了笔记产品NotebookLM，教育AI产品Learn About 两款大热的应用，产品的底子可以说相当厚实。现在再搭配上更好的基础模型，爆款应用还会远吗？

如果2025年是智能体和AI应用的爆发年，那这最大一块蛋糕，现在的谷歌有的分。

编辑/Somer

① 谷歌發佈了新一代大模型Gemini 2.0，速度翻倍，能力更強，支持原生圖像生成和音頻輸出的多模態輸出。

② 谷歌推出新的多模態實時API，支持實時音頻、視頻流輸入和多個組合工具的使用。此外，還展示了三個智能體研究原型：Project Astra、Project Mariner和Jules。

③ 谷歌Gemini 2.0的發佈是對固有業務的防禦，以期在更低成本下實現更強大的能力所帶來的投資回報率提升。

$谷歌-C (GOOG.US)$ 用一次發佈，幹了比OpenAI 五天都多的事兒。

12月12日凌晨，就在OpenAI轟轟烈烈的「12天連續發佈」進行到第五天時，谷歌發佈了他們的重磅更新—— Gemini 2.0 Flash。

它的速度翻倍，能力更強，且支持原生圖像生成和音頻輸出的多模態輸出，以及原生使用 Google 搜索和地圖等工具。

這些更新，讓谷歌帶來的遠不止是一個升級版的語言模型，而是一個滿足了智能體基本需求的統一底層模型。

谷歌CEO桑達爾·皮查伊在公開信中表示：「如果說Gemini 1.0是關於整理和理解信息，那麼Gemini 2.0就是要讓這些信息真正變得有用。」

「過去一年，我們一直在投資開發更具主動性的模型，」皮查伊對此解釋說，「這意味着它們可以更好地理解周圍的世界，提前思考多個步驟，並在你的監督下采取行動。」

這意味着，AI不再只是被動地回答問題，而是能夠理解用戶的需求，提前思考，並在用戶監督下采取行動。想象一個既能幫你規劃旅行，又能實際幫你訂票的助手，這就是谷歌對未來AI的願景。

這一願景，OpenAI提過、微軟提過，他們也都推出了自己的理念和漸進性的產品。但真正的完整的系統級 Copilot 和智能體應用，還都在一步步落地之中。

但谷歌這回直接把一整鍋都端上桌來了。包括那些OpenAI和微軟沒展示出來的，它都帶來了。

從Gemini 2.0能力結構的提升，到谷歌對Project Astra、Project Mariner和Jules三個智能體研究原型的展示，都標誌着谷歌AI已經初步做到了向「主動代理」時代的轉變。它意味着AI將從被動的信息處理工具，轉變爲能夠主動思考和行動的智能助手。

就算不說超過競爭對手，隨着Gemini 2.0的推出，谷歌也重新回到了產品、模型、智能體、系統這所有領域的一線領先者位置。

谷歌，王者歸來。

01 Gemini 2.0 Flash：村裏的新霸主

Gemini Flash 2.0帶來了很多眼前一亮的提升，而這些提升最終都可以落地到對智能體的支持上。

技術上的進步首先體現在速度和性能的突破性提升。Gemini 2.0的Flash版本實現了速度翻倍的同時，性能還超越了參數量級更大的1.5 Pro模型。

雖然沒有提供和其他主流模型的數據直接對比。但前幾天刷屏的競技場新王Gemini-Exp-1121正是Gemini Flash 2.0。

在這個榜單中我們可以看到，它超越了ChatGPT-4o和o1 Preview，登上了第一。這足見其模型的實力。

而且Flash，是Gemini 模型序列中，除了專爲端側開發的Nano模型外，參數最小的模型。

正如谷歌DeepMind的CTO科雷·卡武克奧盧所說：「如果把我們一年前的位置和現在相比，今天發佈的Flash模型比我們一年前的任何模型都要強大得多，而且成本只是其一小部分。」

最小贏過了競爭對手最大、最先進的模型，這讓人甚至都很難想象 Gemini 2.0 Ultra 會強到什麼地步。

藉由模型性能的提升，Gemini能夠更好地理解複雜指令、進行長期規劃，並具備更強的組合函數調用能力。

這是Gemini強大規劃能力的基礎。

但更引人注目的是模型的多模態能力。Gemini 2.0不僅能理解文本、圖像、視頻、音頻和代碼，還能原生生成圖像和多語言音頻。

這意味着它可以像人類一樣自然地在不同形式的信息之間轉換。

在Gemini 1.0時，谷歌已經實現了多模態大系統模型的訓練，但生成這一側他們還是沒能突破。現在它做到了。

這是其它所有領先模型都做不到的事，ChatGPT的圖片生成還要依靠DALLE，語音生成也是單獨的模塊。

雖然Gemini 1.0剛推出的時候，大家都認爲大一統模型會是未來，但到今天，GPT-4o可能也還沒用這種方式訓練。

這是Gemini感知能力的基礎。

長上下文理解也一直是Gemini的長項，雖然在官方文檔中僅僅提及了「更長的上下文」，但鑑於Gemini 1.5 Pro 已經支持 200 萬token的海量上下文窗口， Gemini 2不會比這更低。

這是Gemini記憶能力的基礎。

此外，Gemini 2.0還能原生調用Google搜索、執行代碼以及使用第三方用戶定義的功能。

這是Gemini工具使用能力的基礎。

讓我們回顧前OpenAI研究副總裁翁荔分析的智能體的幾大基礎能力。記憶、工具使用和規劃能力，都在Gemini 2.0中得到了大幅的提升。

而感知，也是傳統智能體的核心需求之一，它決定了智能體的應用範圍。

谷歌產品經理圖爾西·多希在新聞發佈會上就表示：「這些新能力使得構建能夠思考、記憶、規劃，甚至代表你採取行動的代理成爲可能。」

從今天開始，全球Gemini用戶就可以在桌面和移動網頁版中選擇使用2.0 Flash實驗版，移動應用版本也將很快推出。

谷歌計劃在明年初將Gemini 2.0擴展到更多產品中。

對開發者而言，谷歌推出了新的多模態實時API，支持實時音頻、視頻流輸入和多個組合工具的使用。這些功能將從本週開始通過谷歌AI工作室和Vertex AI向開發者開放，而完整版本將於明年1月推出。

接着Gemini-Exp-1121的火熱，Gemini 2.0 Flash在正式發佈前就已經獲得了用戶用腳投的票了。

根據API團隊產品經理Logan Kilpatrick的數據，“Flash使用量的增長超過900%，這是令人難以置信的。

在過去幾個月裏，我們推出了六個實驗性模型，現在已有數百萬開發者在使用Gemini。”

因此，Gemini 2.0的發佈確如皮查伊所說，這標誌着谷歌AI發展進入了新階段。

但谷歌並沒有止步於此。

02 讓智能體滲入谷歌的每條血脈

如果說Gemini 2.0的技術突破令人印象深刻，那麼把它結合進具體的應用場景會誕生什麼呢？

答案是：谷歌版的智能體全家桶！

谷歌通過三個研究原型展示了這一技術的潛力：Project Astra、Project Mariner和Jules，每一個都展現了智能體會如何改變我們與數字世界的互動方式。

Project Astra：目前看起來最驚豔的系統級智能體

Project Astra是谷歌最早在今年5月 I/O大會上展示的AI助手，剛發佈時看起來並不太驚豔。但現在搭載Gemini 2.0後獲得了顯著提升。

在演示中，你可以把它當成谷歌版的Apple Intelligence或者Windows Copilot，它的定位是一個系統級的智能體助手。

Astra 利用 Gemini 2.0 內置的代理框架，通過文本、語音、圖像和視頻回答問題並執行任務，在需要時調用現有的 Google 應用，如搜索、地圖和 Lens。

Astra 產品經理 Bibo Xu 表示：「它正在整合當今一些最強大的信息檢索系統。」

這使其在日常生活中的實用性大大提高。

在記憶能力方面，Project Astra也有重要突破。系統現在擁有長達10分鐘的會話記憶，並能記住過去的對話歷史，甚至是多模態的歷史，比如在演示中，它甚至能記住你的門鎖密碼。這讓它能提供更加個性化的服務。

通過新的流式處理功能和原生音頻理解能力，Astra能以接近人類對話的延遲速度理解語言，也支持多語言。

根據《連線》雜誌和彭博社的報道，在谷歌倫敦總部的「家庭圖書館」場景中，這些能力得到了生動展示。Project Astra能夠自如地與參觀者交談，解讀挪威畫家愛德華·蒙克的《吶喊》所反映的焦慮情緒，並探討這幅作品如何捕捉了那個時代的普遍偏執感。

在佈置成酒吧的房間裏，它能快速分析視野中的葡萄酒瓶，提供地理信息、口感特徵，並從網上搜索價格信息。當有人快速翻閱書籍時，它能實時閱讀內容，甚至將西班牙詩歌即時翻譯成英語。

這和Greg Brockman給《60 Minutes》節目展示的能實時語音對話的ChatGPT-Vision水平相當，但功能似乎更豐富。

但它同時也是個完整的LLMOS系統，可以結合你在設備上的瀏覽和通過視頻看到的內容綜合給出你答案。在演示視頻裏，小哥先給Astra看了朋友喜歡的書單，又讓它通過即時視頻推薦書店裏有的書。

藉由對工具的支持，Astra可以隨時獲取你所在的地點信息，並了解到該地的具體情況和政策。因此在演示中，小哥想騎車進公園，Astra準確識別出了公園，還告訴他這個公園裏不許騎車。

這種多模態間絲滑切換和對工具的無礙結合，目前對Copilot還是OpenAI來講，都尚未實現。這都是Gemini 2.0原生能力帶來的強大加持。毫無疑問，這種體驗才是我們日常應用中期待看到的。

難怪MIT Technology review的報道不吝讚美的認爲Astra 或將成爲生成式 AI 的殺手級應用。

而且谷歌的野心並不止於手機。它已經開始擴大其可信測試者計劃，包括讓一小組用戶在原型XR眼鏡上測試Project Astra。它正在探索將這項技術擴展到更多形態，包括AR眼鏡等可穿戴設備。

Project Mariner：谷歌版的AutoGLM，但更貼心

Project Mariner則是一個插件版的智能體。畢竟谷歌沒有電腦系統，插件是它能找到的最大PC系統入口。作爲一個實驗性的Chrome擴展，它能夠理解和分析瀏覽器屏幕上的所有信息，包括像素、文本、代碼、圖像和表單。

當你通過Prompt讓它完成一系列工作時，比如在演示中的找到四家公司的郵箱。Mariner可以控制Chrome裏的一系列自主操作，包括輸入信息，打開網頁併網絡瀏覽、進一步點擊查詢等。

Project Mariner只能在活動標籤頁中輸入、滾動或點擊，並且在進行購物等敏感操作前需要用戶的最終確認。

它的整體能力和Anthropic10月發佈的「計算機使用」功能非常類似。國內的智譜近期發佈的AutoGLM也是類似的邏輯。

但Mariner的特別之處在於，它可以把每一步計劃像思維鏈一樣同步展示出來，你可以隨時叫停並修改它的錯誤步驟。讓用戶老闆感滿滿。

而且在WebVoyager基準測試中，Project Mariner作爲單一智能體設置取得了83.5%的最優成績，很能打。

雖然目前導航速度還不夠快，準確性也有待提高，但谷歌表示這些問題會隨着時間快速改善。

Jules：谷歌也有Devin了，應該賣不到500刀/月

針對開發者群體，谷歌推出了實驗性的AI智能體Jules。它和Devin、Cursor 0.43一樣，作爲編碼助手能夠制定詳盡的多步驟計劃來解決問題，高效地修改多個文件，甚至準備拉取請求，將修復直接提交回 GitHub。

另外比較特別的是，Jules 還可以以異步方式工作，並與你的 GitHub 工作流程集成，在你專注於實際想要構建的內容時，它負責處理 Bug 修復和其他耗時的任務。真助手，給你做好同步輔助。

這在Cursor和Devin上似乎還未做到，更別提OpenAI 剛發佈的Canva了。

除了這些主要應用，谷歌還在遊戲領域進行了有趣的嘗試。他們正在與Supercell等領先遊戲開發商合作，探索AI代理在不同類型遊戲中的應用，從《部落衝突》這樣的策略遊戲到《卡通農場》這樣的模擬經營遊戲。

這些遊戲AI助手不僅能理解遊戲規則和挑戰，還能通過實時對話提供建議，甚至調用Google搜索來連接網絡上豐富的遊戲知識。

在系統級AI助手戰爭打響：微軟用Vision劃出了一道分水嶺一文中，騰訊科技報道了微軟Vision，一個他們剛推出的智能語音助手，它能幫你給購物提意見。在宣傳視頻裏，微軟曾提到，也許很快，Vision就能陪你打遊戲了。

確實夠快，一個禮拜之後就實現了。但是是谷歌實現的。

更令人期待的是，谷歌正在探索將Gemini 2.0的空間推理能力應用到機器人領域。雖然還處於早期階段，但這預示着AI代理在物理環境中提供幫助的潛力。

這三個產品意味着谷歌通過一場發佈會，在主流智能體應用方向上全部追平業界頂尖水平，甚至還能做出點新花樣。

03 Gemini 2.0背後的功臣，英偉達的在喉之梗

支撐這些進步的是谷歌在硬件層面的重大投入。新一代TPU芯片Trillium不僅支持了Gemini 2.0的全部訓練和推理過程，現在還向客戶開放。

在Gemini 2.0背後，是谷歌最新一代AI芯片的強大支撐。第六代TPU（張量處理器）Trillium不僅全程支持了Gemini 2.0的訓練和推理，更代表了AI硬件領域的重大突破。

與上一代相比，Trillium在多個關鍵指標上都實現了顯著提升：訓練性能提升超過4倍，推理吞吐量提升達3倍，每芯片的峯值計算性能提升4.7倍，同時能耗效率提升67%。更重要的是，谷歌在單個Jupiter網絡架構中部署了超過10萬片Trillium芯片，創造了前所未有的規模。

這種性能提升直接體現在大型語言模型的訓練上。在訓練Llama-2-70B等密集型模型時，Trillium比上一代TPU v5e快4倍。對於越來越流行的混合專家模型（MoE），提升更是達到了3.8倍。

在擴展性方面，Trillium展現出驚人的效率。在使用3072個芯片（12個計算單元）進行訓練時，可以達到99%的擴展效率；即使擴展到6144個芯片（24個計算單元），仍能保持94%的效率。這種近乎線性的擴展能力，讓Gemini 2.0這樣的大規模模型訓練成爲可能。

不僅是性能，Trillium在成本效益上同樣表現出色。在訓練大型語言模型時，每美元性能比較上一代提升了2.5倍。在圖像生成任務中，生成1000張圖像的成本比TPU v5e低27%（離線推理）和22%（在線服務）。

這些進步背後是谷歌在基礎設施上的深度創新。AI Hypercomputer架構將優化的硬件、開源軟件和領先的機器學習框架整合在一起，通過13Pb/s的雙向帶寬連接超過10萬片Trillium芯片，使單個分佈式訓練任務能夠擴展到數十萬個加速器的規模。

對英偉達來講可能不太好的消息是，Trillium也已經面向Google Cloud客戶全面開放。

這意味着企業和初創公司都能夠使用與谷歌訓練Gemini相同的強大、高效且可持續的基礎設施。這可能對於很多模型公司來講都很有吸引力。

AI21 Labs的CTO Barak Lenz在新聞會上就表示：「作爲從v4版本就開始使用TPU的長期用戶，我們對谷歌雲的Trillium的能力印象深刻。在規模、速度和成本效率方面的進步都很顯著。」

04 多快好省，谷歌更新可能帶來商業版圖的漂移

谷歌Gemini 2.0的發佈帶來的商業意義在最顯見的層面是對固有業務的防禦。

正如彭博社報道指出，Alphabet的谷歌一直在努力確保OpenAI等初創公司推出的最新AI工具不會動搖其在搜索和廣告領域的主導地位。儘管谷歌目前仍保持着搜索市場的份額，但OpenAI正在將更多搜索功能整合到ChatGPT中，這給行業領導者帶來了壓力。

目前，谷歌的AI概覽功能已經觸及10億用戶，但上一代Gemini 1.0驅動的搜索曾犯下「每天吃石頭補鈣」這種令人瞠目結舌的錯誤，讓谷歌AI搜索在用戶層面上很難被信任。

通過將Gemini 2.0的高級推理能力引入搜索，谷歌希望在更復雜的話題、多步驟問題上保持領先優勢。

但這只是第一層。

更重要的一層是ROI上的改變。從今年開始，投資者一直都在對谷歌等公司在AI領域的巨額投入回報率表示擔憂。現在好了，Gemini 2.0 flash在更低成本下實現了更強大的能力，多快好省，ROI好看多了。而且如果谷歌保持這一優勢，在價格戰上都可以耗死對手。

然而，這場AI革命的最終目標似乎指向更遠大的願景。如谷歌DeepMind的CEO戴密斯·哈薩比斯所說，他長期以來一直夢想着一個通用數字助手，將其視爲通向通用人工智能的墊腳石。這種願景與OpenAI等競爭對手的目標不謀而合：都在追求能夠執行任務的AGI（通用人工智能），並認爲這才是真正的價值所在。

DevMind的CTO卡武克奧盧也強調了這一點：「我們想要構建這種技術——真正的價值就在於此。在通往這一目標的道路上，我們試圖選擇正確的應用，試圖選擇正確的問題來解決。」

通過這次更新，谷歌重新回到了智能體的牌桌上，甚至還比別人坐的近了一點。

就在2024年，谷歌就推出了筆記產品NotebookLM，教育AI產品Learn About 兩款大熱的應用，產品的底子可以說相當厚實。現在再搭配上更好的基礎模型，爆款應用還會遠嗎？

如果2025年是智能體和AI應用的爆發年，那這最大一塊蛋糕，現在的谷歌有的分。

編輯/Somer

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。