北京時間12月12日晚間消息,谷歌今日發佈了新一代AI大模型Gemini 2.0,標誌着向能夠獨立完成複雜任務的AI系統邁出了雄心勃勃的一步。同時,Gemini 2.0還引入了原生圖像生成和多語言音頻功能,使得谷歌在日益激烈的AI競爭中與OpenAI和Anthropic展開直接競爭。
新版本的發佈正值谷歌首次推出Gemini的一年後,也正處於AI開發的關鍵時刻。這些新的「代理」AI系統不僅可以響應查詢,還可以理解微妙的上下文,提前規劃多個步驟,並代表用戶採取受監督行動。
谷歌的新AI助手將如何重塑日常數字生活?
在最近的一次新聞發佈會上,Gemini產品管理總監Tulsee Doshi概述了該系統的增強功能,同時展示了實時圖像生成和多語言對話。Doshi解釋說:「Gemini 2.0帶來了增強的性能和新的功能,如原生圖像和多語言音頻生成。它還具有原生智能工具的使用,這意味着它可以直接訪問谷歌產品,如搜索,甚至執行代碼。」
最初的版本以Gemini 2.0 Flash爲中心,這是一個實驗版本,谷歌聲稱其運行速度是其前身的兩倍,同時超越了一些強大模型的功能。這代表着一項重大的技術成就,因爲之前的速度提升通常是以降低功能爲代價的。
走進新一代AI代理
也許最重要的是,谷歌推出了三個基於Gemini 2.0架構的原型AI代理,展示了該公司對AI未來的願景。Project Astra是一款升級後的通用AI助手,展示了它在訪問谷歌工具和維護先前交互的上下文記憶的同時,能夠跨多種語言保持複雜對話的能力。
谷歌DeepMind團隊產品經理Bibo Xu在現場演示中解釋說:「Project Astra現在有長達10分鐘的會話記憶,可以記住你過去與它的對話,這樣你就可以獲得更有用、更個性化的體驗。」
該系統可以在各語言之間平穩過渡,並通過谷歌搜索和地圖訪問實時信息,顯示出了以前在消費者AI產品中看不到的整合水平。
企業AI之戰愈演愈烈
對於開發人員和企業客戶,谷歌推出了Project Mariner和Jules,這兩款專門的AI代理旨在自動化複雜的技術任務。作爲Chrome擴展程序演示的Project Mariner,在WebVoyager基準測試中實現了令人印象深刻的83.5%的成功率,這比之前的自主Web導航嘗試有了顯著改進。該WebVoyager基準主要測試代理在端到端、真實世界的Web任務上的性能。
Google Labs產品管理總監Jaclyn Konzelmann表示:「 Project Mariner是一個早期的研究原型,它探索了瀏覽網頁和採取行動的代理能力。當使用WebVoyager基準進行評估時,Project Mariner取得了83.5%的令人印象深刻的成功率。」
定製硅:谷歌AI雄心背後的基礎設施
支持這些進步的是Trillium,谷歌的第六代Tensor Processing Unit (TPU),如今已普遍可供雲客戶使用。定製的AI加速器代表了對計算基礎設施的巨大投資,谷歌在單個網絡結構中部署了超過10萬個Trillium芯片。
谷歌AI工作室和Gemini API團隊的產品經理Logan Kilpatrick在新聞發佈會上強調了這項基礎設施投資的實際影響。Kilpatrick說:「閃存使用量的增長超過了900%,這令人難以置信。你知道,在過去的幾個月裏,我們已經推出了六個實驗模型,現在有數百萬開發人員在使用Gemini。」
未來之路:自主AI時代的安全問題和競爭
谷歌向自主代理的轉變,可能是自OpenAI發佈ChatGPT以來AI領域最重要的戰略轉折點。雖然競爭對手一直專注於增強大型語言模型的能力,但谷歌認爲,未來屬於能夠主動導航數字環境、並在最少的人爲干預下完成複雜任務的AI系統。
這種能夠思考、計劃和行動的AI代理的願景,代表着與當前響應式AI助理模式的背離。這是一個有風險的賭注,因爲自主系統可能帶來更大的安全問題和技術挑戰。但如果成功,它可能會重塑競爭格局。谷歌在定製硅和基礎設施方面的大規模投資表明,該公司準備在這個新方向上積極競爭。
然而,向更自主的AI系統的過渡引發了新的安全和倫理問題。谷歌強調了其對負責任開發的承諾,包括與值得信賴的用戶進行廣泛的測試和內置的安全措施。谷歌還逐步推出這些功能的方法,從開發人員訪問和值得信賴的測試人員開始,表明了對部署自主AI系統所涉及的潛在風險的認識。
此次Gemini 2.0的發佈正值谷歌面臨競爭對手日益增加的壓力和對AI安全的嚴格審查的關鍵時刻。微軟和OpenAI今年在AI開發方面取得了重大進展,而Anthropic等其他公司也在企業客戶中獲得了吸引力。
谷歌Gemini API集團產品經理Shrestha Basu Mallick在新聞發佈會上強調:「我們堅信,構建AI的唯一方法是從一開始就負責任。隨着我們推進模型和代理,我們將繼續優先考慮將安全和責任作爲模型開發過程的關鍵要素。」
隨着這些系統在現實世界中採取行動的能力越來越強,它們可以從根本上重塑人們與技術的互動方式。Gemini 2.0的成功不僅可以決定谷歌在AI市場的地位,還可以決定隨着行業向更自主的系統發展,AI發展的更廣泛軌跡。
一年前,當谷歌推出Gemini的第一個版本時,AI領域主要由聊天機器人主導,這些機器人可以進行聰明的對話,但在現實世界的任務中卻舉步維艱。現在,隨着AI代理開始朝着自主性邁出第一步,該行業正處於另一個轉折點。問題不再是AI是否能理解我們,而是我們是否準備好讓AI代表我們行事。谷歌正在押注,而且賭注很大。