五大重磅更新速覽！谷歌I/O開發者大會究竟公佈了什麼？

財聯社 · 05/15 07:52

①Gemini 1.5 Pro将迎来升级，在今年晚些时候将会把100万Tokens的窗口进一步扩大至200万； ②谷歌推出了自己的视频生成模型“Veo”，可以根据文字、图片和视频的提示，生成各种风格的高质量1080P视频。

财联社5月15日讯（编辑赵昊）北京时间周三（5月15日）凌晨，谷歌举办了年度I/O开发者大会，召开了长达两个小时的主题演讲。正如外界预期的那样，人工智能成为了这次活动的中心。

在演讲中，这家科技巨头发布了众多有关人工智能的产品和服务：

一、Gemini的广泛升级

谷歌推出了新模型“Gemini 1.5 Flash”，以作为Gemini 1.5 Pro更具成本效益的替代方案，同时仍具有强大的功能。Gemini 1.5 Flash从活动当天开始在谷歌的AI工作室和Vertex AI中提供公开预览版。

2月份公布的Gemini 1.5 Pro也将迎来升级，在今年晚些时候将会把100万Tokens的窗口进一步扩大至200万，这将使其能够同时处理2小时的视频、22小时的音频、超过60,000行代码或超过140万个单词。

谷歌CEO皮查伊强调了Gemini在跨语言方面的改进，它将以35种语言向全球所有开发人员提供。皮查伊表示，Gemini 1.5 Pro可以分析PDF和视频以提供摘要，这意味着当用户假期归来后，模型可以将电子邮件和附件一起进行总结。

专为在智能手机上运行而设计的Gemini Nano也从纯文本输入扩展到可以图片输入。谷歌表示，“手机将能通过文字、图片、视频、音频，理解用户的世界。”并且整个过程都是在本地运行，不会引发隐私泄露。

开源大模型Gemma也将有一系列的更新，定于下月推出的Gemma 2参数量将能达到270亿。最后，谷歌的第一个视觉语言模型PaliGemma也被添加到Gemma模型系列中。

二、Veo、Imagen 3、音频概述

针对OpenAI的Sora，谷歌也推出了自己的视频生成模型“Veo”，可以根据文字、图片和视频的提示，生成各种风格的高质量1080P视频。

公司表示，Veo可以更好地理解自然语言，从而生成更能代表用户视觉的视频。它还能理解“延时拍摄”等电影术语，以生成各种风格的视频，并让用户更好地控制最终输出。

去年，谷歌推出了一款名为“SynthID”的工具，可以在AI生成的图像中嵌入人眼不可见的水印。在今天的大会上，公司宣布正在将这项工具扩展到文本和视频之中。上文提到的视频生成模型Veo，在该平台生成的所有视频都会包含SynthID水印。

谷歌还推出了新一代的图像生成模型“Imagen 3”，根据公司的说法该模型可生成迄今为止最高质量的图像，图像中具有更多细节和更少伪影，有助于创建更真实的视觉体验。

与Veo一样，Imagen 3也改进了其自然语言功能，可以更好地理解用户提示及其背后的意图。谷歌称，Imagen 3是渲染文本的最佳选择，目前只有选定的创作者才能使用，很快就会在Vertex AI中推出。

通过Gemini 1.5 Pro，音频概述（Audio Overview）功能可以基于源文件生成个性化和交互式音频对话。

三、AI赋能谷歌搜索

作为主业，谷歌自然会大力将AI融进其主导全球的搜索引擎之中。从本周开始，谷歌搜索引擎将在美国推出“AI概览”（AI Overviews）的功能，搜索引擎会直接归纳总结搜索结果。

同时谷歌搜索也将具备多步骤推理能力，可以一次性处理带有多个限制条件的长问题，并支持“拍视频”搜索解决方案的新搜索形式。

根据现场演示，搜索引擎具备多步骤推理的能力，例如寻找一个瑜伽教室，同时展示新手优惠报价，和距离特定位置的步行时间。这个AI搜索引擎助手，还能介绍食谱、安排行程，以及接受视频形式的提问。

许多人可能都曾经历过花费数小时滚动浏览网页信息流来查找想要搜索的图片，对此，谷歌推出了AI解决方案。借助Gemini，用户可以在Google Photos中通过对话提示来查找他们寻找的图像。

在谷歌提供的案例中，一位用户希望看到他的女儿作为游泳运动员随着时间推移的进步，Google Photos自动筛选给出。谷歌表示，这项名为“Ask Photos”的功能将于今年夏季晚些时候推出。

四、Astra项目

谷歌在大会上宣布了一个名为“Astra”的高级视觉和对话响应智能体项目，即开发能在日常生活中提供帮助的通用AI智能体。媒体分析认为，这个项目旨在开发一种类似《钢铁侠》中人工智能系统“贾维斯”。

根据谷歌的说法，为了做到真正实用，智能体需要能够像人一样理解周围复杂多变的环境并做出反应——它需要能接收并记忆所见所闻，从而了解上下文信息并采取行动。

谷歌表示，它还需要具备主动性、“会学习”并能满足个性化需求，这样用户才能自然地与它交谈，不会有滞后或延迟。

DeepMind首席执行官Demis Hassabis在台上表示，“将响应时间缩短为对话式的内容是一项艰巨的工程挑战。”

五、AI芯片等硬件

谷歌推出了第六代TPU（张量处理单元）“Trillium”，将在2024年底向云客户提供。公司表示，与上一代TPU v5e相比，每个芯片的计算性能提高了4.7倍。

除了TPU，谷歌也会推出CPU和GPU来支持工作负载。

皮查伊也在大会上提到，谷歌云将成为首批提供英伟达Blackwell GPU的云提供商之一，他在演讲中强调了谷歌“与英伟达的长期合作伙伴关系”。

①Gemini 1.5 Pro將迎來升級，在今年晚些時候將會把100萬Tokens的窗口進一步擴大至200萬； ②谷歌推出了自己的視頻生成模型“Veo”，可以根據文字、圖片和視頻的提示，生成各種風格的高質量1080P視頻。

財聯社5月15日訊（編輯趙昊）北京時間週三（5月15日）凌晨，谷歌舉辦了年度I/O開發者大會，召開了長達兩個小時的主題演講。正如外界預期的那樣，人工智能成爲了這次活動的中心。

在演講中，這家科技巨頭髮布了衆多有關人工智能的產品和服務：

一、Gemini的廣泛升級

谷歌推出了新模型“Gemini 1.5 Flash”，以作爲Gemini 1.5 Pro更具成本效益的替代方案，同時仍具有強大的功能。Gemini 1.5 Flash從活動當天開始在谷歌的AI工作室和Vertex AI中提供公開預覽版。

2月份公佈的Gemini 1.5 Pro也將迎來升級，在今年晚些時候將會把100萬Tokens的窗口進一步擴大至200萬，這將使其能夠同時處理2小時的視頻、22小時的音頻、超過60,000行代碼或超過140萬個單詞。

谷歌CEO皮查伊強調了Gemini在跨語言方面的改進，它將以35種語言向全球所有開發人員提供。皮查伊表示，Gemini 1.5 Pro可以分析PDF和視頻以提供摘要，這意味着當用戶假期歸來後，模型可以將電子郵件和附件一起進行總結。

專爲在智能手機上運行而設計的Gemini Nano也從純文本輸入擴展到可以圖片輸入。谷歌表示，“手機將能通過文字、圖片、視頻、音頻，理解用戶的世界。”並且整個過程都是在本地運行，不會引發隱私泄露。

開源大模型Gemma也將有一系列的更新，定於下月推出的Gemma 2參數量將能達到270億。最後，谷歌的第一個視覺語言模型PaliGemma也被添加到Gemma模型系列中。

二、Veo、Imagen 3、音頻概述

針對OpenAI的Sora，谷歌也推出了自己的視頻生成模型“Veo”，可以根據文字、圖片和視頻的提示，生成各種風格的高質量1080P視頻。

公司表示，Veo可以更好地理解自然語言，從而生成更能代表用戶視覺的視頻。它還能理解“延時拍攝”等電影術語，以生成各種風格的視頻，並讓用戶更好地控制最終輸出。

去年，谷歌推出了一款名爲“SynthID”的工具，可以在AI生成的圖像中嵌入人眼不可見的水印。在今天的大會上，公司宣佈正在將這項工具擴展到文本和視頻之中。上文提到的視頻生成模型Veo，在該平台生成的所有視頻都會包含SynthID水印。

谷歌還推出了新一代的圖像生成模型“Imagen 3”，根據公司的說法該模型可生成迄今爲止最高質量的圖像，圖像中具有更多細節和更少僞影，有助於創建更真實的視覺體驗。

與Veo一樣，Imagen 3也改進了其自然語言功能，可以更好地理解用戶提示及其背後的意圖。谷歌稱，Imagen 3是渲染文本的最佳選擇，目前只有選定的創作者才能使用，很快就會在Vertex AI中推出。

通過Gemini 1.5 Pro，音頻概述（Audio Overview）功能可以基於源文件生成個性化和交互式音頻對話。

三、AI賦能谷歌搜索

作爲主業，谷歌自然會大力將AI融進其主導全球的搜索引擎之中。從本週開始，谷歌搜索引擎將在美國推出“AI概覽”（AI Overviews）的功能，搜索引擎會直接歸納總結搜索結果。

同時谷歌搜索也將具備多步驟推理能力，可以一次性處理帶有多個限制條件的長問題，並支持“拍視頻”搜索解決方案的新搜索形式。

根據現場演示，搜索引擎具備多步驟推理的能力，例如尋找一個瑜伽教室，同時展示新手優惠報價，和距離特定位置的步行時間。這個AI搜索引擎助手，還能介紹食譜、安排行程，以及接受視頻形式的提問。

許多人可能都曾經歷過花費數小時滾動瀏覽網頁信息流來查找想要搜索的圖片，對此，谷歌推出了AI解決方案。藉助Gemini，用戶可以在Google Photos中通過對話提示來查找他們尋找的圖像。

在谷歌提供的案例中，一位用戶希望看到他的女兒作爲游泳運動員隨着時間推移的進步，Google Photos自動篩選給出。谷歌表示，這項名爲“Ask Photos”的功能將於今年夏季晚些時候推出。

四、Astra項目

谷歌在大會上宣佈了一個名爲“Astra”的高級視覺和對話響應智能體項目，即開發能在日常生活中提供幫助的通用AI智能體。媒體分析認爲，這個項目旨在開發一種類似《鋼鐵俠》中人工智能系統“賈維斯”。

根據谷歌的說法，爲了做到真正實用，智能體需要能夠像人一樣理解周圍複雜多變的環境並做出反應——它需要能接收並記憶所見所聞，從而了解上下文信息並採取行動。

谷歌表示，它還需要具備主動性、“會學習”並能滿足個性化需求，這樣用戶才能自然地與它交談，不會有滯後或延遲。

DeepMind首席執行官Demis Hassabis在臺上表示，“將響應時間縮短爲對話式的內容是一項艱鉅的工程挑戰。”

五、AI芯片等硬件

谷歌推出了第六代TPU（張量處理單元）“Trillium”，將在2024年底向雲客戶提供。公司表示，與上一代TPU v5e相比，每個芯片的計算性能提高了4.7倍。

除了TPU，谷歌也會推出CPU和GPU來支持工作負載。

皮查伊也在大會上提到，谷歌雲將成爲首批提供英偉達Blackwell GPU的雲提供商之一，他在演講中強調了谷歌“與英偉達的長期合作伙伴關係”。

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

五大重磅更新速览！谷歌I/O开发者大会究竟公布了什么？

五大重磅更新速覽！谷歌I/O開發者大會究竟公佈了什麼？

風險及免責聲明

聲明