share_log

五大重磅更新速览!谷歌I/O开发者大会究竟公布了什么?

五大重磅更新速覽!谷歌I/O開發者大會究竟公佈了什麼?

財聯社 ·  05/15 07:52

①Gemini 1.5 Pro將迎來升級,在今年晚些時候將會把100萬Tokens的窗口進一步擴大至200萬; ②谷歌推出了自己的視頻生成模型“Veo”,可以根據文字、圖片和視頻的提示,生成各種風格的高質量1080P視頻。

財聯社5月15日訊(編輯 趙昊)北京時間週三(5月15日)凌晨,谷歌舉辦了年度I/O開發者大會,召開了長達兩個小時的主題演講。正如外界預期的那樣,人工智能成爲了這次活動的中心。

在演講中,這家科技巨頭髮布了衆多有關人工智能的產品和服務:

一、Gemini的廣泛升級

谷歌推出了新模型“Gemini 1.5 Flash”,以作爲Gemini 1.5 Pro更具成本效益的替代方案,同時仍具有強大的功能。Gemini 1.5 Flash從活動當天開始在谷歌的AI工作室和Vertex AI中提供公開預覽版。

image

2月份公佈的Gemini 1.5 Pro也將迎來升級,在今年晚些時候將會把100萬Tokens的窗口進一步擴大至200萬,這將使其能夠同時處理2小時的視頻、22小時的音頻、超過60,000行代碼或超過140萬個單詞。

谷歌CEO皮查伊強調了Gemini在跨語言方面的改進,它將以35種語言向全球所有開發人員提供。皮查伊表示,Gemini 1.5 Pro可以分析PDF和視頻以提供摘要,這意味着當用戶假期歸來後,模型可以將電子郵件和附件一起進行總結。

專爲在智能手機上運行而設計的Gemini Nano也從純文本輸入擴展到可以圖片輸入。谷歌表示,“手機將能通過文字、圖片、視頻、音頻,理解用戶的世界。”並且整個過程都是在本地運行,不會引發隱私泄露。

開源大模型Gemma也將有一系列的更新,定於下月推出的Gemma 2參數量將能達到270億。最後,谷歌的第一個視覺語言模型PaliGemma也被添加到Gemma模型系列中。

二、Veo、Imagen 3、音頻概述

針對OpenAI的Sora,谷歌也推出了自己的視頻生成模型“Veo”,可以根據文字、圖片和視頻的提示,生成各種風格的高質量1080P視頻。

公司表示,Veo可以更好地理解自然語言,從而生成更能代表用戶視覺的視頻。它還能理解“延時拍攝”等電影術語,以生成各種風格的視頻,並讓用戶更好地控制最終輸出。

image

去年,谷歌推出了一款名爲“SynthID”的工具,可以在AI生成的圖像中嵌入人眼不可見的水印。在今天的大會上,公司宣佈正在將這項工具擴展到文本和視頻之中。上文提到的視頻生成模型Veo,在該平台生成的所有視頻都會包含SynthID水印。

谷歌還推出了新一代的圖像生成模型“Imagen 3”,根據公司的說法該模型可生成迄今爲止最高質量的圖像,圖像中具有更多細節和更少僞影,有助於創建更真實的視覺體驗。

與Veo一樣,Imagen 3也改進了其自然語言功能,可以更好地理解用戶提示及其背後的意圖。谷歌稱,Imagen 3是渲染文本的最佳選擇,目前只有選定的創作者才能使用,很快就會在Vertex AI中推出。

通過Gemini 1.5 Pro,音頻概述(Audio Overview)功能可以基於源文件生成個性化和交互式音頻對話。

三、AI賦能谷歌搜索

作爲主業,谷歌自然會大力將AI融進其主導全球的搜索引擎之中。從本週開始,谷歌搜索引擎將在美國推出“AI概覽”(AI Overviews)的功能,搜索引擎會直接歸納總結搜索結果。

同時谷歌搜索也將具備多步驟推理能力,可以一次性處理帶有多個限制條件的長問題,並支持“拍視頻”搜索解決方案的新搜索形式。

image

根據現場演示,搜索引擎具備多步驟推理的能力,例如尋找一個瑜伽教室,同時展示新手優惠報價,和距離特定位置的步行時間。這個AI搜索引擎助手,還能介紹食譜、安排行程,以及接受視頻形式的提問。

許多人可能都曾經歷過花費數小時滾動瀏覽網頁信息流來查找想要搜索的圖片,對此,谷歌推出了AI解決方案。藉助Gemini,用戶可以在Google Photos中通過對話提示來查找他們尋找的圖像。

在谷歌提供的案例中,一位用戶希望看到他的女兒作爲游泳運動員隨着時間推移的進步,Google Photos自動篩選給出。谷歌表示,這項名爲“Ask Photos”的功能將於今年夏季晚些時候推出。

四、Astra項目

谷歌在大會上宣佈了一個名爲“Astra”的高級視覺和對話響應智能體項目,即開發能在日常生活中提供幫助的通用AI智能體。媒體分析認爲,這個項目旨在開發一種類似《鋼鐵俠》中人工智能系統“賈維斯”。

image

根據谷歌的說法,爲了做到真正實用,智能體需要能夠像人一樣理解周圍複雜多變的環境並做出反應——它需要能接收並記憶所見所聞,從而了解上下文信息並採取行動。

谷歌表示,它還需要具備主動性、“會學習”並能滿足個性化需求,這樣用戶才能自然地與它交談,不會有滯後或延遲。

DeepMind首席執行官Demis Hassabis在臺上表示,“將響應時間縮短爲對話式的內容是一項艱鉅的工程挑戰。”

五、AI芯片等硬件

谷歌推出了第六代TPU(張量處理單元)“Trillium”,將在2024年底向雲客戶提供。公司表示,與上一代TPU v5e相比,每個芯片的計算性能提高了4.7倍。

image

除了TPU,谷歌也會推出CPU和GPU來支持工作負載。

皮查伊也在大會上提到,谷歌雲將成爲首批提供英偉達Blackwell GPU的雲提供商之一,他在演講中強調了谷歌“與英偉達的長期合作伙伴關係”。

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論