谷歌I/O開發者大會5月14日正式舉行。首日長達兩個小時的Keynote演講環節,信息量巨大,以下我們綜合整理了其中的16個信息點:
1、推出“AI Overviews”功能,能使用生成式人工智能來綜合信息並回答更復雜的問題,本週將向美國所有用戶推出,後續會推廣到更多國家和地區。
2、推出Ask Photos的新功能,Google Photos將支持用戶存儲圖片的AI搜索。
3、推出Gemini 1.5 Flash。該模型速度更快,體積更小,部署更加靈活,並支持多模態。
4、對Gemini 1.5 Pro模型升級,把上下文窗口(人工智能模型可理解的信息量)從當前100萬tokens增加到200萬。意味着,當提示中給出數千頁文本或一個多小時的視頻時,Gemini 1.5 Pro也能夠處理。支持35種語言。
5、谷歌展示“未來的人工智能助手”,一個名爲“Astra”的項目,能夠通過攝像頭視頻,識別“什麼東西能發出聲音”、“現在身處何地”等指令。
6、推出文生視頻模型Veo,可以生成長度超過1分鐘,分辨率最高1080P、具有多種視覺和電影風格的“高質量”視頻;
7、推出文生圖大模型Imagen 3,處理文本的能力比上一代產品更好,而且它在處理長提示詞的細節方面也更智能。谷歌稱這是該公司“最高質量”的文生圖模型,具有“難以置信的細節水平”,能夠生成“照片般逼真的圖像”。
8、谷歌與唱片藝術家合作測試人工智能音樂工具Music AI Sandbox。這套人工智能音樂創作工具將與Suno等展開競爭。
9、夏季將擴展Gemini的多模態功能,包括增加用語音進行深入雙向對話的能力,該功能被稱爲 Live。通過Gemini Live,用戶可以與Gemini交談,並可以從各種自然的聲音中選擇它回應的聲音。
10、將推出被稱爲Gems的Gemini的定製版本,用戶可以獲得個性化體驗。
11、推出新的多模態AI項目Project Astra,可以爲用戶解釋智能手機拍到的東西。
12、谷歌表示,今年晚些時候,能夠在本地運行的多模態Gemini Nano模型將登陸Pixel手機,意味着手機將能通過文字、圖片、視頻、音頻,理解用戶的世界。
13、谷歌發佈第六代TPU芯片Trillium,比上一代TPU v5e芯片提高4.7倍,能效比v5e高出67%。這款芯片旨在爲從大模型中生成文本和其他內容的技術提供動力。年底可供其雲客戶使用。
14、將在今年6月發佈開源大模型Gemma 2,支持270億參數。谷歌稱其表現已經超過比它大兩倍的模型。
15、Android 15已融入谷歌Gemini大模型升級後能力,支持諸如AI語音助理防詐騙、畫圈圖片搜索、理解圖片給出更符合用戶需求的答案等功能,Android 15 Beta 2本週正式推出。
16、谷歌雲將在2025年初用上英偉達最新Blackwell架構GPU。