share_log

同日发布!谷歌和OpenAI,“正面硬刚”

同日發佈!谷歌和OpenAI,「正面硬剛」

證券時報 ·  03/26 17:49

來源:證券時報

3月26日凌晨,谷歌正式推出了旗下新一代大語言模型Gemini 2.5。

$谷歌-C (GOOG.US)$ 將Gemini 2.5定義爲公司迄今爲止「最智能的AI模型」,Gemini 2.5 Pro實驗版本在多項基準測試中全面超越OpenAI o3-mini、Claude3.7 Sonnet、Grok-3和DeepSeek-R1。谷歌DeepMind首席技術官Koray Kavukcuoglu表示,Gemini 2.5代表了谷歌讓「人工智能更智能、推理能力更強」的目標的下一步。

值得注意的是,就在谷歌發佈Gemini 2.5大約一小時後,OpenAI就緊急發佈了迄今爲止最先進的圖像生成器GPT-4o圖像生成技術。據介紹,GPT-4o圖像生成功能可精準文本渲染、嚴格遵循指令提示、深度調用4o知識庫及對話上下文——包括對上傳圖像進行二次創作或將其轉化爲視覺靈感。OpenAI創始人兼CEO山姆·奧特曼在直播中還現場用GPT-4o自拍生成了一張漫畫圖片。

谷歌新推理模型,編碼推理能力優秀

據谷歌介紹,公司長期以來都在探索如何通過強化學習、思維鏈提示等技術,讓人工智能變得更聰明、推理能力更強。去年12月,谷歌推出了Gemini 2.0 Flash Thinking模型,這一多模態推理模型具備快速且透明的處理能力。今年1月22日,谷歌正式發佈了其Gemini 2.0 Flash Thinking推理模型的增強版。

此次最新發佈的Gemini 2.5系列模型,是谷歌挑戰OpenAI「o」系列推理模型的嘗試。作爲該系列模型中最先進的複雜任務模型,Gemini 2.5 Pro實驗版在多項基準測試中全面超越OpenAI o3-mini、Claude 3.7Sonnet、Grok-3和DeepSeek-R1,並且以顯著的優勢在LMArena(一個用於評估大型語言模型的開源平台)上排名第一。不過,谷歌並未放出Gemini 2.5 Pro與OpenAI o1、OpenAI o1-Pro和OpenAI o3等模型在基準測試中的對比。

在編碼性能上,Gemini 2.5比2.0有了很大的飛躍,擅長創建視覺上引人注目的網頁應用程序和代理代碼應用程序,以及代碼轉換和編輯。在代理代碼評估的行業標準SWE-BenchVerified上,Gemini 2.5Pro使用自定義代理設置得分爲63.8%。

據谷歌發佈的演示視頻,Gemini 2.5 Pro可以利用其推理能力通過從單行提示生成可執行代碼來創建視頻遊戲。例如,能夠在指定編程語言的情況下,設計出一款恐龍小遊戲,生成了像素化的恐龍圖像和有趣的遊戲背景。

在推理能力方面,Gemini 2.5 Pro在一系列需要高級推理的基準測試中都處於領先地位。在「人類的最後考試」中(注:「人類的最後考試」是一個由數百名學科專家設計的數據集,旨在捕捉人類知識和推理的前沿),它在未使用工具的模型中也獲得了18.8%的最高分數,這是目前最先進的成績。

此外,Gemini 2.5 Pro具備原生多模態處理能力和超長上下文窗口,支持文本、圖像、音頻、視頻及代碼的多模態輸入,上下文窗口達100萬token(約75萬單詞),可解析完整《指環王》系列文本,未來將升級至200萬token。

OpenAI緊急推出4o圖像生成功能

在谷歌深夜上線旗下最強推理模型Gemini 2.5的一個小時後,OpenAI也緊鑼密鼓地推出了GPT-4o全新的圖像生成功能。

在此之前,OpenAI旗下的文生圖模型主要是DALL-E系列。與DALL-E不同,此次OpenAI的全新圖像生成器基於其原生多模態GPT-4o模型,奧特曼在直播活動中宣佈,原生圖像生成功能基於GPT-4o模型,不再需要調用獨立的DALL-E文生圖模型。

據介紹,基於GPT-4o的多模態能力,ChatGPT在圖像生成時能更加精確地遵循指示、更精確地渲染圖像上的文字,輕鬆創作出虛實結合的場景。目前,該功能已經作爲ChatGPT中的默認圖像生成器向Plus、Pro、Team和免費用戶陸續推出,企業和教育用戶將很快允許訪問。

據OpenAI官方發佈的案例,GPT-4o圖像生成功能可以生成手寫字,精準理解提示詞中的每一個細節,而且圖像清晰度可與高清照片媲美。

例如,當輸入提示詞「這是用手機拍攝的玻璃白板的廣角圖像,拍攝地點是一間俯瞰海灣大橋的房間。視野中可以看到一位女士正在寫字,她身穿一件印有大型OpenAI標誌的T恤。筆跡看起來很自然,但有點凌亂,我們可以看到攝影師的倒影」後,最終生成的圖片將「海灣大橋」「印有大型OpenAI標誌的T恤」「攝影師的倒影」等細節均有體現。

GPT-4o圖像生成功能還能成爲實用的生產力工具。比如,要爲餐廳設計一份菜單圖片,用戶在提示詞中寫明不同菜品的名字、價格、主要特點,GPT-4o即可生成一張符合要求、可以商用的菜單圖片。

不過,OpenAI也承認模型並不完美,依然在裁剪、幻覺、精確繪圖等方面存在多個限制,例如在上下文信息較少的提示情況下,圖像生成功能可能會編造信息,在複雜度高的情況下難以渲染菲拉丁語言,併產生錯誤的字符等。OpenAI表示,將在首次發佈後通過模型改進來解決這些問題。

一方面是谷歌發佈迄今最智能的推理模型,向OpenAI的「o」系列推理模型發出挑戰;另一方面是OpenAI推出GPT-4o圖像生成功能,應對來自谷歌「全家桶」多模態能力帶來的壓力,兩大硅谷科技巨頭競相發佈AI新產品的背後,是全球AI競爭的持續升級。隨着AI競爭日趨激烈,各廠商都在加快研發速度,無論是推理模型、多模態大模型還是AI智能體,接下來或都將不斷迎來新的技術進展與突破。

編輯/Rocky

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論