share_log

谷歌I/O开发者大会集合贴:足足喊了120次AI,实时交互、视频模型登场

谷歌I/O開發者大會集合貼:足足喊了120次AI,實時交互、視頻模型登場

財聯社 ·  05/15 09:50

來源:財聯社

①北京時間週三凌晨1點,谷歌舉行年度I/O開發者大會;②在兩個小時的發佈會中,一衆谷歌高管喊了至少120次AI;③一系列升級後的大模型,和最新的應用將在未來幾個月陸續登場。

從北京時間週三凌晨1點開始,$谷歌-A (GOOGL.US)$/$谷歌-C (GOOG.US)$在山景城總部附近的海岸線圓形劇場,召開了長達兩個小時的年度I/O開發者大會Keynote演講。

與預期一致,谷歌的這場發佈會基本都是在談AI、AI、AI、AI和AI。根據發佈會最後的官方統計,整場Keynote的演講稿裏總共提了120次AI。而且這隻統計了講稿,實際上的數量還會更多一些。

在一大堆更新和新發布的功能中,也有許多具有記憶點的產品。例如從本週開始,谷歌搜索引擎將在美國推出“AI概覽”(AI Overviews)的功能,搜索引擎會直接歸納總結搜索結果。同時谷歌搜索也將具備多步驟推理能力,可以一次性處理帶有多個限制條件的長問題,並支持“拍視頻”搜索解決方案的新搜索形式。

另外以上下文窗口“長”聞名的Gemini 1.5 Pro大模型,在今年晚些時候將會把100萬Tokens的窗口,進一步擴大至200萬Tokens,拓展同步處理多模態信息的邊界。而對於一些需要快速響應的場景,谷歌也推出了Gemini 1.5 Flash模型。今年2月剛剛問世的Gemma開源模型,也將在下個月迎來參數量更大的Gemma 2。在多模態領域,谷歌也發佈了文生圖工具Imagen 3、與Youtube&音樂家合作的“AI音樂沙盒”,以及最新的視頻生成模型Veo。而多模態Gemini Nano模型也將在今年晚些時候登陸Pixel手機,這是在本地運行的機載模型。

值得一提的是,谷歌的發佈會上也有一些與昨日OpenAI發佈會“雷同”的地方——實時AI助手。從今年夏天開始,Gemini也將支持語音實時交互,同時今年晚些時候還將上線實時視頻交互。未來幾個月內,谷歌也將推出類似於GPTs的自定義AI助手功能,叫做Gems,能夠與整套“谷歌全家桶”聯動。

硬件方面,谷歌宣佈了第六代TPU芯片Trillium,並透露能夠在明年初用上英偉達最新的Blackwell架構GPU。另外,液冷、光纜等中國股民可能會感興趣的題材也在發佈會上出現。

----全場發佈會回顧----

發佈會開始,Alphabet&谷歌CEO桑達爾·皮查伊登上舞臺。

皮查伊表示,現在已經有超過150萬開發者正在使用谷歌的人工智能Gemini,今天將展示一系列有關搜索、圖片、工作套件、安卓系統等等與人工智能有關的案例。

皮查伊宣佈,能夠總結谷歌搜索引擎結果的“AI概覽”(AI Overviews)功能,將於本週在美國推出。

基於Gemini支持,谷歌圖片(Google Photos)將支持用戶存儲圖片的AI搜索,例如“告訴我,我的車牌號碼是多少?”——這個名爲Ask Photos的功能將於今年夏天推出。

皮查伊宣佈,最新版本的Gemini 1.5 Pro(在多項核心功能方面均較最初發布版本有所提高)現在向全球所有開發者開放。從今天開始,支持100萬tokens上下文窗口的Gemini 1.5 Pro將在Gemini Advanced功能下向用戶開放,支持35種語言。

谷歌同時面向開發者推出支持200萬tokens的Gemini 1.5 Pro模型的預覽,並表示最終的目標將是“無限上下文”。

谷歌AI業務總負責人、DeepMind的首席執行官傑米斯·哈薩比斯登臺,宣佈推出Gemini 1.5 Flash大模型。這個模型兼具速度與效率,和多模態推理能力,以及長達100萬tokens的上下文窗口。開發者將能夠申請體驗200萬tokens的上下文窗口的Gemini 1.5 Flash。

谷歌展示“未來的人工智能助手”——名爲“Astra”的項目。哈薩比斯表示,這樣的AI助手需要像人類一樣理解這個動態且複雜的世界。需要記得住它看到的東西,這樣才能理解對話並付諸於行動。同時它也得能積極主動接受教導,以及自然、無延遲地進行交流。在演示視頻中,谷歌的AI助手能夠通過攝像頭視頻,識別“什麼東西能發出聲音”、“現在身處何地”等指令。

谷歌宣佈了一系列與圖像、音樂、視頻有關的生成式AI工具。包括文生圖工具Imagen 3、與Youtube以及音樂家合作的“AI音樂沙盒”,以及最新的視頻生成模型Veo

其中最受關注的視頻生成模型Veo,能夠根據文字、圖片和視頻的提示,生成高質量1080p視頻

哈薩比斯離場,皮查伊重回舞臺,發佈第六代TPU芯片Trillium,較上一代芯片的算力表現翻4.7倍,雲用戶從今年下半年開始可以用上新芯片。同時谷歌雲將在2025年初,用上英偉達的最新Blackwell架構GPU。

皮查伊開始介紹自家的AI超級計算機,比起用戶自己買相同的硬件和芯片,谷歌的架構能使得效能翻倍,其中有部分功勞來自於液冷系統。皮查伊表示,谷歌部署液冷系統的數據中心已經達到1GW,而且還在不斷增長中。

皮查伊表示,谷歌投資了200萬英里的地面和海底光纖,比第二名的雲服務商翻了十倍。

液冷、光纜,應該都是股民們會感興趣的東西。

谷歌搜索業務負責人Liz Reid開始具體介紹AI Overviews功能。Reid表示,在進行搜索時,搜素引擎具備多步驟推理的能力,例如尋找一個瑜伽教室,同時展示新手優惠報價,和距離特定位置的步行時間。這個AI搜索引擎助手,還能介紹食譜、安排行程,以及接受視頻形式的提問(例如視頻中的相機怎麼使用)。

在辦公套件Workspace方面,谷歌將逐步推出總結、郵件Q&A,以及智能回覆等功能。

谷歌Gemini總經理Sissie Hsiao介紹了Gemini App的更新。與週一的OpenAI一樣,從今年夏天開始,Gemini也將支持語音實時交互,同時今年晚些時候還將上線實時視頻交互功能。未來幾個月內,谷歌也將推出類似於GPTs的自定義AI助手功能,叫做Gems。這個AI助手的亮點,將是能與“谷歌全家桶”進行交互。

Hsiao再次強調了Gemini的長上下文窗口——能夠一次性處理整整1500頁的文件,或3萬行代碼、1小時視頻。不同的載體也能混同一起提交給聊天機器人。她再次強調,今年晚些時候上下文窗口將翻倍至200萬Tokens。

安卓生態系統的負責人Sameer Samat登臺,他將討論今年安卓系統實現的“三大突破”,分別是“畫圈圈搜索”、Gemini手機AI助手,第三是在手機本地運行的AI

谷歌表示,今年晚些時候,能夠在本地運行的多模態Gemini Nano模型將登陸Pixel手機,意味着手機將能通過文字、圖片、視頻、音頻,理解用戶的世界。舉例而言,在聽到“幫你把錢轉到安全賬戶”這樣的詐騙電話時,手機會自動彈出詐騙警告。整個過程都是在本地運行,不會引發隱私泄露。

谷歌披露大模型API的最新定價,其中Gemini 1.5 Pro定價爲7美元/100萬Tokens,12.8K上下文窗口的版本定價爲3.5美元/100萬Tokens;而Gemini 1.5的起售價爲0.35美元/100萬Tokens。

對於在今年二月剛剛推出的輕量級開源模型Gemma,谷歌宣佈推出視頻語言模型PaliGemma,並將會在6月推出Gemma 2。相較於第一代模型只有20億和70億的參數量,第二代開源Gemma的參數量能達到270億。

作爲發佈會最後的彩蛋,谷歌CEO皮查伊最後用Gemini總結了今天的發佈會稿子裏總共提了多少次AI——120次。當然,這並不包括皮查伊問完這個問題後,又喚了幾遍AI。

發佈會結束

編輯/tolk

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論