① 谷歌發佈了新一代大模型Gemini 2.0,速度翻倍,能力更強,支持原生圖像生成和音頻輸出的多模態輸出。
② 谷歌推出新的多模態實時API,支持實時音頻、視頻流輸入和多個組合工具的使用。此外,還展示了三個智能體研究原型:Project Astra、Project Mariner和Jules。
③ 谷歌Gemini 2.0的發佈是對固有業務的防禦,以期在更低成本下實現更強大的能力所帶來的投資回報率提升。
$谷歌-C (GOOG.US)$ 用一次發佈,幹了比OpenAI 五天都多的事兒。
12月12日凌晨,就在OpenAI轟轟烈烈的「12天連續發佈」進行到第五天時,谷歌發佈了他們的重磅更新—— Gemini 2.0 Flash。
它的速度翻倍,能力更強,且支持原生圖像生成和音頻輸出的多模態輸出,以及原生使用 Google 搜索和地圖等工具。
這些更新,讓谷歌帶來的遠不止是一個升級版的語言模型,而是一個滿足了智能體基本需求的統一底層模型。
谷歌CEO桑達爾·皮查伊在公開信中表示:「如果說Gemini 1.0是關於整理和理解信息,那麼Gemini 2.0就是要讓這些信息真正變得有用。」
「過去一年,我們一直在投資開發更具主動性的模型,」皮查伊對此解釋說,「這意味着它們可以更好地理解周圍的世界,提前思考多個步驟,並在你的監督下采取行動。」
這意味着,AI不再只是被動地回答問題,而是能夠理解用戶的需求,提前思考,並在用戶監督下采取行動。想象一個既能幫你規劃旅行,又能實際幫你訂票的助手,這就是谷歌對未來AI的願景。
這一願景,OpenAI提過、微軟提過,他們也都推出了自己的理念和漸進性的產品。但真正的完整的系統級 Copilot 和智能體應用,還都在一步步落地之中。
但谷歌這回直接把一整鍋都端上桌來了。包括那些OpenAI和微軟沒展示出來的,它都帶來了。
從Gemini 2.0能力結構的提升,到谷歌對Project Astra、Project Mariner和Jules三個智能體研究原型的展示,都標誌着谷歌AI已經初步做到了向「主動代理」時代的轉變。它意味着AI將從被動的信息處理工具,轉變爲能夠主動思考和行動的智能助手。
就算不說超過競爭對手,隨着Gemini 2.0的推出,谷歌也重新回到了產品、模型、智能體、系統這所有領域的一線領先者位置。
谷歌,王者歸來。
01 Gemini 2.0 Flash:村裏的新霸主
Gemini Flash 2.0帶來了很多眼前一亮的提升,而這些提升最終都可以落地到對智能體的支持上。
技術上的進步首先體現在速度和性能的突破性提升。Gemini 2.0的Flash版本實現了速度翻倍的同時,性能還超越了參數量級更大的1.5 Pro模型。
雖然沒有提供和其他主流模型的數據直接對比。但前幾天刷屏的競技場新王Gemini-Exp-1121正是Gemini Flash 2.0。
在這個榜單中我們可以看到,它超越了ChatGPT-4o和o1 Preview,登上了第一。這足見其模型的實力。
而且Flash,是Gemini 模型序列中,除了專爲端側開發的Nano模型外,參數最小的模型。
正如谷歌DeepMind的CTO科雷·卡武克奧盧所說:「如果把我們一年前的位置和現在相比,今天發佈的Flash模型比我們一年前的任何模型都要強大得多,而且成本只是其一小部分。」
最小贏過了競爭對手最大、最先進的模型,這讓人甚至都很難想象 Gemini 2.0 Ultra 會強到什麼地步。
藉由模型性能的提升,Gemini能夠更好地理解複雜指令、進行長期規劃,並具備更強的組合函數調用能力。
這是Gemini強大規劃能力的基礎。
但更引人注目的是模型的多模態能力。Gemini 2.0不僅能理解文本、圖像、視頻、音頻和代碼,還能原生生成圖像和多語言音頻。
這意味着它可以像人類一樣自然地在不同形式的信息之間轉換。
在Gemini 1.0時,谷歌已經實現了多模態大系統模型的訓練,但生成這一側他們還是沒能突破。現在它做到了。
這是其它所有領先模型都做不到的事,ChatGPT的圖片生成還要依靠DALLE,語音生成也是單獨的模塊。
雖然Gemini 1.0剛推出的時候,大家都認爲大一統模型會是未來,但到今天,GPT-4o可能也還沒用這種方式訓練。
這是Gemini感知能力的基礎。
長上下文理解也一直是Gemini的長項,雖然在官方文檔中僅僅提及了「更長的上下文」,但鑑於Gemini 1.5 Pro 已經支持 200 萬token的海量上下文窗口, Gemini 2不會比這更低。
這是Gemini記憶能力的基礎。
此外,Gemini 2.0還能原生調用Google搜索、執行代碼以及使用第三方用戶定義的功能。
這是Gemini工具使用能力的基礎。
讓我們回顧前OpenAI研究副總裁翁荔分析的智能體的幾大基礎能力。記憶、工具使用和規劃能力,都在Gemini 2.0中得到了大幅的提升。
而感知,也是傳統智能體的核心需求之一,它決定了智能體的應用範圍。
谷歌產品經理圖爾西·多希在新聞發佈會上就表示:「這些新能力使得構建能夠思考、記憶、規劃,甚至代表你採取行動的代理成爲可能。」
從今天開始,全球Gemini用戶就可以在桌面和移動網頁版中選擇使用2.0 Flash實驗版,移動應用版本也將很快推出。
谷歌計劃在明年初將Gemini 2.0擴展到更多產品中。
對開發者而言,谷歌推出了新的多模態實時API,支持實時音頻、視頻流輸入和多個組合工具的使用。這些功能將從本週開始通過谷歌AI工作室和Vertex AI向開發者開放,而完整版本將於明年1月推出。
接着Gemini-Exp-1121的火熱,Gemini 2.0 Flash在正式發佈前就已經獲得了用戶用腳投的票了。
根據API團隊產品經理Logan Kilpatrick的數據,“Flash使用量的增長超過900%,這是令人難以置信的。
在過去幾個月裏,我們推出了六個實驗性模型,現在已有數百萬開發者在使用Gemini。”
因此,Gemini 2.0的發佈確如皮查伊所說,這標誌着谷歌AI發展進入了新階段。
但谷歌並沒有止步於此。
02 讓智能體滲入谷歌的每條血脈
如果說Gemini 2.0的技術突破令人印象深刻,那麼把它結合進具體的應用場景會誕生什麼呢?
答案是:谷歌版的智能體全家桶!
谷歌通過三個研究原型展示了這一技術的潛力:Project Astra、Project Mariner和Jules,每一個都展現了智能體會如何改變我們與數字世界的互動方式。
Project Astra:目前看起來最驚豔的系統級智能體
Project Astra是谷歌最早在今年5月 I/O大會上展示的AI助手,剛發佈時看起來並不太驚豔。但現在搭載Gemini 2.0後獲得了顯著提升。
在演示中,你可以把它當成谷歌版的Apple Intelligence或者Windows Copilot,它的定位是一個系統級的智能體助手。
Astra 利用 Gemini 2.0 內置的代理框架,通過文本、語音、圖像和視頻回答問題並執行任務,在需要時調用現有的 Google 應用,如搜索、地圖和 Lens。
Astra 產品經理 Bibo Xu 表示:「它正在整合當今一些最強大的信息檢索系統。」
這使其在日常生活中的實用性大大提高。
在記憶能力方面,Project Astra也有重要突破。系統現在擁有長達10分鐘的會話記憶,並能記住過去的對話歷史,甚至是多模態的歷史,比如在演示中,它甚至能記住你的門鎖密碼。這讓它能提供更加個性化的服務。
通過新的流式處理功能和原生音頻理解能力,Astra能以接近人類對話的延遲速度理解語言,也支持多語言。
根據《連線》雜誌和彭博社的報道,在谷歌倫敦總部的「家庭圖書館」場景中,這些能力得到了生動展示。Project Astra能夠自如地與參觀者交談,解讀挪威畫家愛德華·蒙克的《吶喊》所反映的焦慮情緒,並探討這幅作品如何捕捉了那個時代的普遍偏執感。
在佈置成酒吧的房間裏,它能快速分析視野中的葡萄酒瓶,提供地理信息、口感特徵,並從網上搜索價格信息。當有人快速翻閱書籍時,它能實時閱讀內容,甚至將西班牙詩歌即時翻譯成英語。
這和Greg Brockman給《60 Minutes》節目展示的能實時語音對話的ChatGPT-Vision水平相當,但功能似乎更豐富。
但它同時也是個完整的LLMOS系統,可以結合你在設備上的瀏覽和通過視頻看到的內容綜合給出你答案。在演示視頻裏,小哥先給Astra看了朋友喜歡的書單,又讓它通過即時視頻推薦書店裏有的書。
藉由對工具的支持,Astra可以隨時獲取你所在的地點信息,並了解到該地的具體情況和政策。因此在演示中,小哥想騎車進公園,Astra準確識別出了公園,還告訴他這個公園裏不許騎車。
這種多模態間絲滑切換和對工具的無礙結合,目前對Copilot還是OpenAI來講,都尚未實現。這都是Gemini 2.0原生能力帶來的強大加持。毫無疑問,這種體驗才是我們日常應用中期待看到的。
難怪MIT Technology review的報道不吝讚美的認爲Astra 或將成爲生成式 AI 的殺手級應用。
而且谷歌的野心並不止於手機。它已經開始擴大其可信測試者計劃,包括讓一小組用戶在原型XR眼鏡上測試Project Astra。它正在探索將這項技術擴展到更多形態,包括AR眼鏡等可穿戴設備。
Project Mariner:谷歌版的AutoGLM,但更貼心
Project Mariner則是一個插件版的智能體。畢竟谷歌沒有電腦系統,插件是它能找到的最大PC系統入口。作爲一個實驗性的Chrome擴展,它能夠理解和分析瀏覽器屏幕上的所有信息,包括像素、文本、代碼、圖像和表單。
當你通過Prompt讓它完成一系列工作時,比如在演示中的找到四家公司的郵箱。Mariner可以控制Chrome裏的一系列自主操作,包括輸入信息,打開網頁併網絡瀏覽、進一步點擊查詢等。
Project Mariner只能在活動標籤頁中輸入、滾動或點擊,並且在進行購物等敏感操作前需要用戶的最終確認。
它的整體能力和Anthropic10月發佈的「計算機使用」功能非常類似。國內的智譜近期發佈的AutoGLM也是類似的邏輯。
但Mariner的特別之處在於,它可以把每一步計劃像思維鏈一樣同步展示出來,你可以隨時叫停並修改它的錯誤步驟。讓用戶老闆感滿滿。
而且在WebVoyager基準測試中,Project Mariner作爲單一智能體設置取得了83.5%的最優成績,很能打。
雖然目前導航速度還不夠快,準確性也有待提高,但谷歌表示這些問題會隨着時間快速改善。
Jules:谷歌也有Devin了,應該賣不到500刀/月
針對開發者群體,谷歌推出了實驗性的AI智能體Jules。它和Devin、Cursor 0.43一樣,作爲編碼助手能夠制定詳盡的多步驟計劃來解決問題,高效地修改多個文件,甚至準備拉取請求,將修復直接提交回 GitHub。
另外比較特別的是,Jules 還可以以異步方式工作,並與你的 GitHub 工作流程集成,在你專注於實際想要構建的內容時,它負責處理 Bug 修復和其他耗時的任務。真助手,給你做好同步輔助。
這在Cursor和Devin上似乎還未做到,更別提OpenAI 剛發佈的Canva了。
除了這些主要應用,谷歌還在遊戲領域進行了有趣的嘗試。他們正在與Supercell等領先遊戲開發商合作,探索AI代理在不同類型遊戲中的應用,從《部落衝突》這樣的策略遊戲到《卡通農場》這樣的模擬經營遊戲。
這些遊戲AI助手不僅能理解遊戲規則和挑戰,還能通過實時對話提供建議,甚至調用Google搜索來連接網絡上豐富的遊戲知識。
在系統級AI助手戰爭打響:微軟用Vision劃出了一道分水嶺一文中,騰訊科技報道了微軟Vision,一個他們剛推出的智能語音助手,它能幫你給購物提意見。在宣傳視頻裏,微軟曾提到,也許很快,Vision就能陪你打遊戲了。
確實夠快,一個禮拜之後就實現了。但是是谷歌實現的。
更令人期待的是,谷歌正在探索將Gemini 2.0的空間推理能力應用到機器人領域。雖然還處於早期階段,但這預示着AI代理在物理環境中提供幫助的潛力。
這三個產品意味着谷歌通過一場發佈會,在主流智能體應用方向上全部追平業界頂尖水平,甚至還能做出點新花樣。
03 Gemini 2.0背後的功臣,英偉達的在喉之梗
支撐這些進步的是谷歌在硬件層面的重大投入。新一代TPU芯片Trillium不僅支持了Gemini 2.0的全部訓練和推理過程,現在還向客戶開放。
在Gemini 2.0背後,是谷歌最新一代AI芯片的強大支撐。第六代TPU(張量處理器)Trillium不僅全程支持了Gemini 2.0的訓練和推理,更代表了AI硬件領域的重大突破。
與上一代相比,Trillium在多個關鍵指標上都實現了顯著提升:訓練性能提升超過4倍,推理吞吐量提升達3倍,每芯片的峯值計算性能提升4.7倍,同時能耗效率提升67%。更重要的是,谷歌在單個Jupiter網絡架構中部署了超過10萬片Trillium芯片,創造了前所未有的規模。
這種性能提升直接體現在大型語言模型的訓練上。在訓練Llama-2-70B等密集型模型時,Trillium比上一代TPU v5e快4倍。對於越來越流行的混合專家模型(MoE),提升更是達到了3.8倍。
在擴展性方面,Trillium展現出驚人的效率。在使用3072個芯片(12個計算單元)進行訓練時,可以達到99%的擴展效率;即使擴展到6144個芯片(24個計算單元),仍能保持94%的效率。這種近乎線性的擴展能力,讓Gemini 2.0這樣的大規模模型訓練成爲可能。
不僅是性能,Trillium在成本效益上同樣表現出色。在訓練大型語言模型時,每美元性能比較上一代提升了2.5倍。在圖像生成任務中,生成1000張圖像的成本比TPU v5e低27%(離線推理)和22%(在線服務)。
這些進步背後是谷歌在基礎設施上的深度創新。AI Hypercomputer架構將優化的硬件、開源軟件和領先的機器學習框架整合在一起,通過13Pb/s的雙向帶寬連接超過10萬片Trillium芯片,使單個分佈式訓練任務能夠擴展到數十萬個加速器的規模。
對英偉達來講可能不太好的消息是,Trillium也已經面向Google Cloud客戶全面開放。
這意味着企業和初創公司都能夠使用與谷歌訓練Gemini相同的強大、高效且可持續的基礎設施。這可能對於很多模型公司來講都很有吸引力。
AI21 Labs的CTO Barak Lenz在新聞會上就表示:「作爲從v4版本就開始使用TPU的長期用戶,我們對谷歌雲的Trillium的能力印象深刻。在規模、速度和成本效率方面的進步都很顯著。」
04 多快好省,谷歌更新可能帶來商業版圖的漂移
谷歌Gemini 2.0的發佈帶來的商業意義在最顯見的層面是對固有業務的防禦。
正如彭博社報道指出,Alphabet的谷歌一直在努力確保OpenAI等初創公司推出的最新AI工具不會動搖其在搜索和廣告領域的主導地位。儘管谷歌目前仍保持着搜索市場的份額,但OpenAI正在將更多搜索功能整合到ChatGPT中,這給行業領導者帶來了壓力。
目前,谷歌的AI概覽功能已經觸及10億用戶,但上一代Gemini 1.0驅動的搜索曾犯下「每天吃石頭補鈣」這種令人瞠目結舌的錯誤,讓谷歌AI搜索在用戶層面上很難被信任。
通過將Gemini 2.0的高級推理能力引入搜索,谷歌希望在更復雜的話題、多步驟問題上保持領先優勢。
但這只是第一層。
更重要的一層是ROI上的改變。從今年開始,投資者一直都在對谷歌等公司在AI領域的巨額投入回報率表示擔憂。現在好了,Gemini 2.0 flash在更低成本下實現了更強大的能力,多快好省,ROI好看多了。而且如果谷歌保持這一優勢,在價格戰上都可以耗死對手。
然而,這場AI革命的最終目標似乎指向更遠大的願景。如谷歌DeepMind的CEO戴密斯·哈薩比斯所說,他長期以來一直夢想着一個通用數字助手,將其視爲通向通用人工智能的墊腳石。這種願景與OpenAI等競爭對手的目標不謀而合:都在追求能夠執行任務的AGI(通用人工智能),並認爲這才是真正的價值所在。
DevMind的CTO卡武克奧盧也強調了這一點:「我們想要構建這種技術——真正的價值就在於此。在通往這一目標的道路上,我們試圖選擇正確的應用,試圖選擇正確的問題來解決。」
通過這次更新,谷歌重新回到了智能體的牌桌上,甚至還比別人坐的近了一點。
就在2024年,谷歌就推出了筆記產品NotebookLM,教育AI產品Learn About 兩款大熱的應用,產品的底子可以說相當厚實。現在再搭配上更好的基礎模型,爆款應用還會遠嗎?
如果2025年是智能體和AI應用的爆發年,那這最大一塊蛋糕,現在的谷歌有的分。
編輯/Somer