追蹤AI最新趨勢

谷歌I/O開發者大會集合貼：足足喊了120次AI，實時交互、視頻模型登場

財聯社 · 05/15 09:50

来源：财联社

①北京时间周三凌晨1点，谷歌举行年度I/O开发者大会；②在两个小时的发布会中，一众谷歌高管喊了至少120次AI；③一系列升级后的大模型，和最新的应用将在未来几个月陆续登场。

从北京时间周三凌晨1点开始，$谷歌-A (GOOGL.US)$/$谷歌-C (GOOG.US)$在山景城总部附近的海岸线圆形剧场，召开了长达两个小时的年度I/O开发者大会Keynote演讲。

与预期一致，谷歌的这场发布会基本都是在谈AI、AI、AI、AI和AI。根据发布会最后的官方统计，整场Keynote的演讲稿里总共提了120次AI。而且这只统计了讲稿，实际上的数量还会更多一些。

在一大堆更新和新发布的功能中，也有许多具有记忆点的产品。例如从本周开始，谷歌搜索引擎将在美国推出“AI概览”（AI Overviews）的功能，搜索引擎会直接归纳总结搜索结果。同时谷歌搜索也将具备多步骤推理能力，可以一次性处理带有多个限制条件的长问题，并支持“拍视频”搜索解决方案的新搜索形式。

另外以上下文窗口“长”闻名的Gemini 1.5 Pro大模型，在今年晚些时候将会把100万Tokens的窗口，进一步扩大至200万Tokens，拓展同步处理多模态信息的边界。而对于一些需要快速响应的场景，谷歌也推出了Gemini 1.5 Flash模型。今年2月刚刚问世的Gemma开源模型，也将在下个月迎来参数量更大的Gemma 2。在多模态领域，谷歌也发布了文生图工具Imagen 3、与Youtube&音乐家合作的“AI音乐沙盒”，以及最新的视频生成模型Veo。而多模态Gemini Nano模型也将在今年晚些时候登陆Pixel手机，这是在本地运行的机载模型。

值得一提的是，谷歌的发布会上也有一些与昨日OpenAI发布会“雷同”的地方——实时AI助手。从今年夏天开始，Gemini也将支持语音实时交互，同时今年晚些时候还将上线实时视频交互。未来几个月内，谷歌也将推出类似于GPTs的自定义AI助手功能，叫做Gems，能够与整套“谷歌全家桶”联动。

硬件方面，谷歌宣布了第六代TPU芯片Trillium，并透露能够在明年初用上英伟达最新的Blackwell架构GPU。另外，液冷、光缆等中国股民可能会感兴趣的题材也在发布会上出现。

----全场发布会回顾----

发布会开始，Alphabet&谷歌CEO桑达尔·皮查伊登上舞台。

皮查伊表示，现在已经有超过150万开发者正在使用谷歌的人工智能Gemini，今天将展示一系列有关搜索、图片、工作套件、安卓系统等等与人工智能有关的案例。

皮查伊宣布，能够总结谷歌搜索引擎结果的“AI概览”（AI Overviews）功能，将于本周在美国推出。

基于Gemini支持，谷歌图片（Google Photos）将支持用户存储图片的AI搜索，例如“告诉我，我的车牌号码是多少？”——这个名为Ask Photos的功能将于今年夏天推出。

皮查伊宣布，最新版本的Gemini 1.5 Pro（在多项核心功能方面均较最初发布版本有所提高）现在向全球所有开发者开放。从今天开始，支持100万tokens上下文窗口的Gemini 1.5 Pro将在Gemini Advanced功能下向用户开放，支持35种语言。

谷歌同时面向开发者推出支持200万tokens的Gemini 1.5 Pro模型的预览，并表示最终的目标将是“无限上下文”。

谷歌AI业务总负责人、DeepMind的首席执行官杰米斯·哈萨比斯登台，宣布推出Gemini 1.5 Flash大模型。这个模型兼具速度与效率，和多模态推理能力，以及长达100万tokens的上下文窗口。开发者将能够申请体验200万tokens的上下文窗口的Gemini 1.5 Flash。

谷歌展示“未来的人工智能助手”——名为“Astra”的项目。哈萨比斯表示，这样的AI助手需要像人类一样理解这个动态且复杂的世界。需要记得住它看到的东西，这样才能理解对话并付诸于行动。同时它也得能积极主动接受教导，以及自然、无延迟地进行交流。在演示视频中，谷歌的AI助手能够通过摄像头视频，识别“什么东西能发出声音”、“现在身处何地”等指令。

谷歌宣布了一系列与图像、音乐、视频有关的生成式AI工具。包括文生图工具Imagen 3、与Youtube以及音乐家合作的“AI音乐沙盒”，以及最新的视频生成模型Veo。

其中最受关注的视频生成模型Veo，能够根据文字、图片和视频的提示，生成高质量1080p视频。

哈萨比斯离场，皮查伊重回舞台，发布第六代TPU芯片Trillium，较上一代芯片的算力表现翻4.7倍，云用户从今年下半年开始可以用上新芯片。同时谷歌云将在2025年初，用上英伟达的最新Blackwell架构GPU。

皮查伊开始介绍自家的AI超级计算机，比起用户自己买相同的硬件和芯片，谷歌的架构能使得效能翻倍，其中有部分功劳来自于液冷系统。皮查伊表示，谷歌部署液冷系统的数据中心已经达到1GW，而且还在不断增长中。

皮查伊表示，谷歌投资了200万英里的地面和海底光纤，比第二名的云服务商翻了十倍。

液冷、光缆，应该都是股民们会感兴趣的东西。

谷歌搜索业务负责人Liz Reid开始具体介绍AI Overviews功能。Reid表示，在进行搜索时，搜素引擎具备多步骤推理的能力，例如寻找一个瑜伽教室，同时展示新手优惠报价，和距离特定位置的步行时间。这个AI搜索引擎助手，还能介绍食谱、安排行程，以及接受视频形式的提问（例如视频中的相机怎么使用）。

在办公套件Workspace方面，谷歌将逐步推出总结、邮件Q&A，以及智能回复等功能。

谷歌Gemini总经理Sissie Hsiao介绍了Gemini App的更新。与周一的OpenAI一样，从今年夏天开始，Gemini也将支持语音实时交互，同时今年晚些时候还将上线实时视频交互功能。未来几个月内，谷歌也将推出类似于GPTs的自定义AI助手功能，叫做Gems。这个AI助手的亮点，将是能与“谷歌全家桶”进行交互。

Hsiao再次强调了Gemini的长上下文窗口——能够一次性处理整整1500页的文件，或3万行代码、1小时视频。不同的载体也能混同一起提交给聊天机器人。她再次强调，今年晚些时候上下文窗口将翻倍至200万Tokens。

安卓生态系统的负责人Sameer Samat登台，他将讨论今年安卓系统实现的“三大突破”，分别是“画圈圈搜索”、Gemini手机AI助手，第三是在手机本地运行的AI。

谷歌表示，今年晚些时候，能够在本地运行的多模态Gemini Nano模型将登陆Pixel手机，意味着手机将能通过文字、图片、视频、音频，理解用户的世界。举例而言，在听到“帮你把钱转到安全账户”这样的诈骗电话时，手机会自动弹出诈骗警告。整个过程都是在本地运行，不会引发隐私泄露。

谷歌披露大模型API的最新定价，其中Gemini 1.5 Pro定价为7美元/100万Tokens，12.8K上下文窗口的版本定价为3.5美元/100万Tokens；而Gemini 1.5的起售价为0.35美元/100万Tokens。

对于在今年二月刚刚推出的轻量级开源模型Gemma，谷歌宣布推出视频语言模型PaliGemma，并将会在6月推出Gemma 2。相较于第一代模型只有20亿和70亿的参数量，第二代开源Gemma的参数量能达到270亿。

作为发布会最后的彩蛋，谷歌CEO皮查伊最后用Gemini总结了今天的发布会稿子里总共提了多少次AI——120次。当然，这并不包括皮查伊问完这个问题后，又唤了几遍AI。

发布会结束

编辑/tolk

來源：財聯社

①北京時間週三凌晨1點，谷歌舉行年度I/O開發者大會；②在兩個小時的發佈會中，一衆谷歌高管喊了至少120次AI；③一系列升級後的大模型，和最新的應用將在未來幾個月陸續登場。

從北京時間週三凌晨1點開始，$谷歌-A (GOOGL.US)$/$谷歌-C (GOOG.US)$在山景城總部附近的海岸線圓形劇場，召開了長達兩個小時的年度I/O開發者大會Keynote演講。

與預期一致，谷歌的這場發佈會基本都是在談AI、AI、AI、AI和AI。根據發佈會最後的官方統計，整場Keynote的演講稿裏總共提了120次AI。而且這隻統計了講稿，實際上的數量還會更多一些。

在一大堆更新和新發布的功能中，也有許多具有記憶點的產品。例如從本週開始，谷歌搜索引擎將在美國推出“AI概覽”（AI Overviews）的功能，搜索引擎會直接歸納總結搜索結果。同時谷歌搜索也將具備多步驟推理能力，可以一次性處理帶有多個限制條件的長問題，並支持“拍視頻”搜索解決方案的新搜索形式。

另外以上下文窗口“長”聞名的Gemini 1.5 Pro大模型，在今年晚些時候將會把100萬Tokens的窗口，進一步擴大至200萬Tokens，拓展同步處理多模態信息的邊界。而對於一些需要快速響應的場景，谷歌也推出了Gemini 1.5 Flash模型。今年2月剛剛問世的Gemma開源模型，也將在下個月迎來參數量更大的Gemma 2。在多模態領域，谷歌也發佈了文生圖工具Imagen 3、與Youtube&音樂家合作的“AI音樂沙盒”，以及最新的視頻生成模型Veo。而多模態Gemini Nano模型也將在今年晚些時候登陸Pixel手機，這是在本地運行的機載模型。

值得一提的是，谷歌的發佈會上也有一些與昨日OpenAI發佈會“雷同”的地方——實時AI助手。從今年夏天開始，Gemini也將支持語音實時交互，同時今年晚些時候還將上線實時視頻交互。未來幾個月內，谷歌也將推出類似於GPTs的自定義AI助手功能，叫做Gems，能夠與整套“谷歌全家桶”聯動。

硬件方面，谷歌宣佈了第六代TPU芯片Trillium，並透露能夠在明年初用上英偉達最新的Blackwell架構GPU。另外，液冷、光纜等中國股民可能會感興趣的題材也在發佈會上出現。

----全場發佈會回顧----

發佈會開始，Alphabet&谷歌CEO桑達爾·皮查伊登上舞臺。

皮查伊表示，現在已經有超過150萬開發者正在使用谷歌的人工智能Gemini，今天將展示一系列有關搜索、圖片、工作套件、安卓系統等等與人工智能有關的案例。

皮查伊宣佈，能夠總結谷歌搜索引擎結果的“AI概覽”（AI Overviews）功能，將於本週在美國推出。

基於Gemini支持，谷歌圖片（Google Photos）將支持用戶存儲圖片的AI搜索，例如“告訴我，我的車牌號碼是多少？”——這個名爲Ask Photos的功能將於今年夏天推出。

皮查伊宣佈，最新版本的Gemini 1.5 Pro（在多項核心功能方面均較最初發布版本有所提高）現在向全球所有開發者開放。從今天開始，支持100萬tokens上下文窗口的Gemini 1.5 Pro將在Gemini Advanced功能下向用戶開放，支持35種語言。

谷歌同時面向開發者推出支持200萬tokens的Gemini 1.5 Pro模型的預覽，並表示最終的目標將是“無限上下文”。

谷歌AI業務總負責人、DeepMind的首席執行官傑米斯·哈薩比斯登臺，宣佈推出Gemini 1.5 Flash大模型。這個模型兼具速度與效率，和多模態推理能力，以及長達100萬tokens的上下文窗口。開發者將能夠申請體驗200萬tokens的上下文窗口的Gemini 1.5 Flash。

谷歌展示“未來的人工智能助手”——名爲“Astra”的項目。哈薩比斯表示，這樣的AI助手需要像人類一樣理解這個動態且複雜的世界。需要記得住它看到的東西，這樣才能理解對話並付諸於行動。同時它也得能積極主動接受教導，以及自然、無延遲地進行交流。在演示視頻中，谷歌的AI助手能夠通過攝像頭視頻，識別“什麼東西能發出聲音”、“現在身處何地”等指令。

谷歌宣佈了一系列與圖像、音樂、視頻有關的生成式AI工具。包括文生圖工具Imagen 3、與Youtube以及音樂家合作的“AI音樂沙盒”，以及最新的視頻生成模型Veo。

其中最受關注的視頻生成模型Veo，能夠根據文字、圖片和視頻的提示，生成高質量1080p視頻。

哈薩比斯離場，皮查伊重回舞臺，發佈第六代TPU芯片Trillium，較上一代芯片的算力表現翻4.7倍，雲用戶從今年下半年開始可以用上新芯片。同時谷歌雲將在2025年初，用上英偉達的最新Blackwell架構GPU。

皮查伊開始介紹自家的AI超級計算機，比起用戶自己買相同的硬件和芯片，谷歌的架構能使得效能翻倍，其中有部分功勞來自於液冷系統。皮查伊表示，谷歌部署液冷系統的數據中心已經達到1GW，而且還在不斷增長中。

皮查伊表示，谷歌投資了200萬英里的地面和海底光纖，比第二名的雲服務商翻了十倍。

液冷、光纜，應該都是股民們會感興趣的東西。

谷歌搜索業務負責人Liz Reid開始具體介紹AI Overviews功能。Reid表示，在進行搜索時，搜素引擎具備多步驟推理的能力，例如尋找一個瑜伽教室，同時展示新手優惠報價，和距離特定位置的步行時間。這個AI搜索引擎助手，還能介紹食譜、安排行程，以及接受視頻形式的提問（例如視頻中的相機怎麼使用）。

在辦公套件Workspace方面，谷歌將逐步推出總結、郵件Q&A，以及智能回覆等功能。

谷歌Gemini總經理Sissie Hsiao介紹了Gemini App的更新。與週一的OpenAI一樣，從今年夏天開始，Gemini也將支持語音實時交互，同時今年晚些時候還將上線實時視頻交互功能。未來幾個月內，谷歌也將推出類似於GPTs的自定義AI助手功能，叫做Gems。這個AI助手的亮點，將是能與“谷歌全家桶”進行交互。

Hsiao再次強調了Gemini的長上下文窗口——能夠一次性處理整整1500頁的文件，或3萬行代碼、1小時視頻。不同的載體也能混同一起提交給聊天機器人。她再次強調，今年晚些時候上下文窗口將翻倍至200萬Tokens。

安卓生態系統的負責人Sameer Samat登臺，他將討論今年安卓系統實現的“三大突破”，分別是“畫圈圈搜索”、Gemini手機AI助手，第三是在手機本地運行的AI。

谷歌表示，今年晚些時候，能夠在本地運行的多模態Gemini Nano模型將登陸Pixel手機，意味着手機將能通過文字、圖片、視頻、音頻，理解用戶的世界。舉例而言，在聽到“幫你把錢轉到安全賬戶”這樣的詐騙電話時，手機會自動彈出詐騙警告。整個過程都是在本地運行，不會引發隱私泄露。

谷歌披露大模型API的最新定價，其中Gemini 1.5 Pro定價爲7美元/100萬Tokens，12.8K上下文窗口的版本定價爲3.5美元/100萬Tokens；而Gemini 1.5的起售價爲0.35美元/100萬Tokens。

對於在今年二月剛剛推出的輕量級開源模型Gemma，谷歌宣佈推出視頻語言模型PaliGemma，並將會在6月推出Gemma 2。相較於第一代模型只有20億和70億的參數量，第二代開源Gemma的參數量能達到270億。

作爲發佈會最後的彩蛋，谷歌CEO皮查伊最後用Gemini總結了今天的發佈會稿子裏總共提了多少次AI——120次。當然，這並不包括皮查伊問完這個問題後，又喚了幾遍AI。

發佈會結束

編輯/tolk

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

追蹤AI最新趨勢

谷歌I/O开发者大会集合贴：足足喊了120次AI，实时交互、视频模型登场

谷歌I/O開發者大會集合貼：足足喊了120次AI，實時交互、視頻模型登場

----全场发布会回顾----

----全場發佈會回顧----

風險及免責聲明

聲明