兩小時“吼出”121次AI，谷歌背後埋伏着Open AI的幽靈

TechWeb · 05/16 09:25

谷歌和Open AI的又一次对阵，刚刚落幕了。

北京时间5月14日凌晨，OpenAI发布端到端多模态AI大模型GPT-4o，酷似科幻电影《Her》的AI语音对话迅速成为关注焦点。

24小时后，携新版Gemini AI大模型等产品，谷歌在北京时间5月15日凌晨1点的I/O 2024大会上重振旗鼓，试图在AI赛道上重新夺回主动权。

在过往一年中，多次被Open AI抢走风头的谷歌，能否打一个翻身仗？

不到两小时，提到121次AI

将近两个小时的发布会上，关键词“AI”贯穿了谷歌全场的演讲展示。

“我猜想现场一定有人想数一数今天的发布会上有多少次提到AI。”在I/O发布会现场，谷歌CEO桑德拉·皮查伊打趣道，观众席内响起一片笑声。

这个答案由谷歌AI现场完成统计，“一共提到了120次。”皮查伊说。话音刚落，屏幕上的数字跳到了121次。

不到两小时的发布会，谷歌讲了121次AI

图源：谷歌发布会

由皮查伊开场，谷歌在发布会上先后介绍了他们在软件、硬件等方面的AI布局。可以说，关注前沿发展的谷歌，在人们今年所能见到的AI应用方向上均有涉猎。

作为基础架构的大模型Gemini发布1.5 Pro型号，再次打破100万tokens（文本中最小语义单元）的纪录，原版相当于一次可以处理长达1500页文本、30000行代码或是长达1小时的视频，现在新模型将上下文窗口扩大一倍，达到200万tokens。

聚焦于自有模型的能力突破之外，谷歌还面向开发者推出了轻量级模型Gemini 1.5 Flash，相较于旧有模型，Gemini Flash实现了低延迟响应并降低使用成本，其100万tokens只要0.35美元。比前一天发布的GPT-4o更加便宜。

谷歌披露大模型API的最新定价

图源：谷歌发布会

在多模态模型布局上，谷歌一口气发布了图片生成模型imagen和视频生成模型Veo。其中，Veo支持生成60秒以上的1080P视频，它被人们视为对标Open AI的视频生成模型Sora。

“生成视频的难点在于解决物品在空间中的移动，并且随着时间的推移需要保持一致性。”谷歌DeepMind负责人道格说。“AI发展15年，我们就知道它会改变一切，现在已经到了实现它的时刻。”

现场展示中，Veo发布了多个演示视频：在草地上奔跑的猎豹、穿梭在星际之间的宇宙飞船等。在演示片中，谷歌展示了他们和影视从业者的合作实践。初步看起来，它拥有不输于Sora的流畅体验，但同样不对外开放使用。

由Voe生成的视频，汽车在公路上飞驰

图源：谷歌发布会

发布会现场，皮查伊多次提及“Making AI more helpful for everyone ”，借助大模型Gemini的能力，谷歌开发了一系列AI功能。比如支持用搜索方式查找手机图片的Ask Photo、AI助理Project Astra。

让人眼前一亮的是Project Astra，在演示视频中，通过手机和AR眼镜的联合使用，AI能够在目之所及的范围内完成和用户的实时交互。它不仅成功识别并向用户解释了圈出来的硬件，还能帮助用户在桌子上找眼镜、解答白板上的题目。Project Astra也被视为GPT-4o的对手。

Gemini准确识别出电脑上的代码用于加密和解密

图源：谷歌发布会

谷歌还将Gemini集成在包括搜索引擎、Gmail、Maps等在内的AI全家桶产品中。

备受关注的是，在这次发布会上，谷歌正式宣布推出AI搜索功能，目前仅支持向美国地区开放。在演示中，谷歌的AI搜索在解决复杂问题上应用“多步推理”，以往需要搜索十次才能获得的答案，合并到一个问题解决。比如一次性纳入用户的通勤和时间安排，通过AI搜索为用户推荐适合的瑜伽馆。

应用“AI Overview”推荐店铺

图源：谷歌发布会

谷歌秀的肌肉，连自家员工也瞧不上

在谷歌这场秀肌肉的发布会上，Open AI依然是那个站在巨头背后的幽灵。

从ChatGPT开启新一轮人工智能浪潮的时候，它就给了谷歌重重一击。自GPT-4发布之后，人们关注的目光更是开始向Open AI倾斜。

野心勃勃的Open AI CEO萨姆·阿尔特曼也将谷歌视为头号竞争对手。从宣传时间的选择到产品发布战略，Open AI的枪口多次瞄向谷歌。

一年以来，谷歌已经在与Open AI的对阵中多次尝到苦果：

2月15日，Gemini 1.5 Pro 发布。同一天，Open AI发布Sora，虽然目前仍然处于无法测试使用的状态，但Sora实现文生视频的流畅性和画面表现震惊科技圈。对比之下，Gemini的重大更新几乎无人问津。

本次，Open AI刚刚举办的春季发布会同样是一次有备而来的伏击。Open AI将发布会时间由5月9日挪到了5月13日，刚好是谷歌举办I/O发布会的前一天。

在昨日的发布会上，Open AI只用了半个小时，就押到了谷歌今天的两个重点。

一是轻量级模型的发布，Open AI推出的GPT-4o同样以低成本、快速响应的方式实现，官网介绍，GPT-4o达到了媲美GPT-4 Turbo的各项能力，但成本仅为后者的一半。

另一个是AI助手，Open AI CTO米拉·穆拉蒂现场演示了如何和手机上运行的模型GPT-4o完成交谈。“它对人类的情绪、语气理解得十分自然精准，如同与一个真正的人类朋友或助理在聊天。”

在这段实时演示中，GPT-4o准确识别了人类的情绪，它会开玩笑，调侃人类的呼吸声音太大；它能依照用户要求，更改说话的语气，比如用更夸张的戏剧腔代替冰冷的电子音；它还能实现同声传译，准确地把意大利语翻译成英文。

正如阿尔特曼在X中提前预告的那样，科幻电影《Her》中的剧情走入现实，人类和AI实时对话的设想已经具备实现的雏形。

为了防御对手，谷歌曾经一个月发布5次大模型。今年2月，谷歌曾先后发布Gemini功能更新、推出Ultra版本、发布Gemini 1.5 Pro，并发布开源模型Gemma和世界模型Genie。

但这些不痛不痒的更新不仅没有起到防御作用，甚至还引发了负面反馈。谷歌内部流传出的图片曾毫不留情地吐槽，“连内部员工都记不住这些大模型的名字”。

保守败于疯狂，只剩一张“生态牌”

回顾过往，人工智能曾在2014年、2017年多次引起科技界的关注，而在几次浪潮中，谷歌都扮演着先驱者的角色。

追溯至2011年，谷歌就已经在公司内部成立了“谷歌大脑”(Google Brain)，专注于深度学习和神经网络研究，目标是“让机器也能拥有理解和学习的能力”。

2014年，谷歌斥资4亿美元收购英国AI公司DeepMind，进一步夯实了在深度学习领域的实力，孕育出了具有里程碑意义的AlphaGo（阿尔法围棋）。次年，谷歌将机器学习系统TensorFlow开源，并启动研发AI芯片TPU，在算力层面为后续训练大模型打下硬件基础。

2016年，皮查伊在当年的I/O开发者大会上宣布，将AI置于公司首要发展战略，正式向AI First转型。在提出Transformer架构，并发布LaMda大模型后，从搜索、助理到Pixel手机、Nest家居等，谷歌开始全面把AI能力植入产品线。

谷歌更倾向于让AI扮演一个辅助角色，对AI的态度偏保守。随着时间轴滑向2023年，谷歌的风头慢慢被Open AI压过一筹。谷歌的前瞻性布局和先发优势，被Open AI的疯狂打败了。

在技术成熟的情况下，后起创业公司Open AI使用的核心技术正是由谷歌发明的。GPT的“T”就来源于2017年谷歌发布论文中研究的Transformer架构。Open AI烧了大把的钱，砸出了训练大模型的可行方向。

ChatGPT在2022年底发布之时，谷歌可能也注意到了这家初创公司，但未能引起足够的重视和警惕。2023年1月，谷歌AI负责人Jeff Dean在一个内部会议中表示，虽然谷歌拥有做AI产品的技术和能力，但和小型初创公司相比，谷歌做出决策必须更加保守。

直到2023年2月，ChatGPT引起巨大反响，被视为冲击搜索引擎的新出口。谷歌匆忙应战，推出大模型Bard，却因常识性失误引发口碑崩盘——在发布会现场，Bard将智利超大望远镜首次拍摄系外行星的功劳记在了詹姆斯·韦伯太空望远镜上，间接引发谷歌母公司市值暴跌1000亿美元。

在之后的表现中，谷歌逐渐消磨掉了人们的信任。Gemini Ultra版本发布一天后被质疑造假，有内部员工表示“这（视频）是不切实际的”，谷歌最后也承认演示视频是经剪辑制作的效果。

多次犯下致命失误后，谷歌AI产品的信服力越降越低。谷歌正在尽力追赶并弥补过失。从这次发布会的动作来看，谷歌的策略调整为：以大而全的方式布局所有AI细分赛道的机会。

对于算力、算法和人才储备充足，技术功底深厚的谷歌而言，借助于自家生态的优势，谷歌将Gemini集成在方方面面，凭借数据积累，谷歌自有生态构建的护城河壁垒，是Open AI所无法取代的。

“谷歌最坚固的护城河是分销，Gemini 不必成为最好的模型，也能成为世界上最常用的模型。”英伟达高级研究科学家范麟熙（Jim Fan）在X上评价。

不再领先的谷歌，只好握紧生态的优势牌。（魏琳华）

谷歌和Open AI的又一次對陣，剛剛落幕了。

北京時間5月14日凌晨，OpenAI發佈端到端多模態AI大模型GPT-4o，酷似科幻電影《Her》的AI語音對話迅速成爲關注焦點。

24小時後，攜新版Gemini AI大模型等產品，谷歌在北京時間5月15日凌晨1點的I/O 2024大會上重振旗鼓，試圖在AI賽道上重新奪回主動權。

在過往一年中，多次被Open AI搶走風頭的谷歌，能否打一個翻身仗？

不到兩小時，提到121次AI

將近兩個小時的發佈會上，關鍵詞“AI”貫穿了谷歌全場的演講展示。

“我猜想現場一定有人想數一數今天的發佈會上有多少次提到AI。”在I/O發佈會現場，谷歌CEO桑德拉·皮查伊打趣道，觀衆席內響起一片笑聲。

這個答案由谷歌AI現場完成統計，“一共提到了120次。”皮查伊說。話音剛落，屏幕上的數字跳到了121次。

不到兩小時的發佈會，谷歌講了121次AI

圖源：谷歌發佈會

由皮查伊開場，谷歌在發佈會上先後介紹了他們在軟件、硬件等方面的AI佈局。可以說，關注前沿發展的谷歌，在人們今年所能見到的AI應用方向上均有涉獵。

作爲基礎架構的大模型Gemini發佈1.5 Pro型號，再次打破100萬tokens（文本中最小語義單元）的紀錄，原版相當於一次可以處理長達1500頁文本、30000行代碼或是長達1小時的視頻，現在新模型將上下文窗口擴大一倍，達到200萬tokens。

聚焦於自有模型的能力突破之外，谷歌還面向開發者推出了輕量級模型Gemini 1.5 Flash，相較於舊有模型，Gemini Flash實現了低延遲響應並降低使用成本，其100萬tokens只要0.35美元。比前一天發佈的GPT-4o更加便宜。

谷歌披露大模型API的最新定價

圖源：谷歌發佈會

在多模態模型佈局上，谷歌一口氣發佈了圖片生成模型imagen和視頻生成模型Veo。其中，Veo支持生成60秒以上的1080P視頻，它被人們視爲對標Open AI的視頻生成模型Sora。

“生成視頻的難點在於解決物品在空間中的移動，並且隨着時間的推移需要保持一致性。”谷歌DeepMind負責人道格說。“AI發展15年，我們就知道它會改變一切，現在已經到了實現它的時刻。”

現場展示中，Veo發佈了多個演示視頻：在草地上奔跑的獵豹、穿梭在星際之間的宇宙飛船等。在演示片中，谷歌展示了他們和影視從業者的合作實踐。初步看起來，它擁有不輸於Sora的流暢體驗，但同樣不對外開放使用。

由Voe生成的視頻，汽車在公路上飛馳

圖源：谷歌發佈會

發佈會現場，皮查伊多次提及“Making AI more helpful for everyone ”，藉助大模型Gemini的能力，谷歌開發了一系列AI功能。比如支持用搜索方式查找手機圖片的Ask Photo、AI助理Project Astra。

讓人眼前一亮的是Project Astra，在演示視頻中，通過手機和AR眼鏡的聯合使用，AI能夠在目之所及的範圍內完成和用戶的實時交互。它不僅成功識別並向用戶解釋了圈出來的硬件，還能幫助用戶在桌子上找眼鏡、解答白板上的題目。Project Astra也被視爲GPT-4o的對手。

Gemini準確識別出電腦上的代碼用於加密和解密

圖源：谷歌發佈會

谷歌還將Gemini集成在包括搜索引擎、Gmail、Maps等在內的AI全家桶產品中。

備受關注的是，在這次發佈會上，谷歌正式宣佈推出AI搜索功能，目前僅支持向美國地區開放。在演示中，谷歌的AI搜索在解決複雜問題上應用“多步推理”，以往需要搜索十次才能獲得的答案，合併到一個問題解決。比如一次性納入用戶的通勤和時間安排，通過AI搜索爲用戶推薦適合的瑜伽館。

應用“AI Overview”推薦店鋪

圖源：谷歌發佈會

谷歌秀的肌肉，連自家員工也瞧不上

在谷歌這場秀肌肉的發佈會上，Open AI依然是那個站在巨頭背後的幽靈。

從ChatGPT開啓新一輪人工智能浪潮的時候，它就給了谷歌重重一擊。自GPT-4發佈之後，人們關注的目光更是開始向Open AI傾斜。

野心勃勃的Open AI CEO薩姆·阿爾特曼也將谷歌視爲頭號競爭對手。從宣傳時間的選擇到產品發佈戰略，Open AI的槍口多次瞄向谷歌。

一年以來，谷歌已經在與Open AI的對陣中多次嚐到苦果：

2月15日，Gemini 1.5 Pro 發佈。同一天，Open AI發佈Sora，雖然目前仍然處於無法測試使用的狀態，但Sora實現文生視頻的流暢性和畫面表現震驚科技圈。對比之下，Gemini的重大更新幾乎無人問津。

本次，Open AI剛剛舉辦的春季發佈會同樣是一次有備而來的伏擊。Open AI將發佈會時間由5月9日挪到了5月13日，剛好是谷歌舉辦I/O發佈會的前一天。

在昨日的發佈會上，Open AI只用了半個小時，就押到了谷歌今天的兩個重點。

一是輕量級模型的發佈，Open AI推出的GPT-4o同樣以低成本、快速響應的方式實現，官網介紹，GPT-4o達到了媲美GPT-4 Turbo的各項能力，但成本僅爲後者的一半。

另一個是AI助手，Open AI CTO米拉·穆拉蒂現場演示瞭如何和手機上運行的模型GPT-4o完成交談。“它對人類的情緒、語氣理解得十分自然精準，如同與一個真正的人類朋友或助理在聊天。”

在這段實時演示中，GPT-4o準確識別了人類的情緒，它會開玩笑，調侃人類的呼吸聲音太大；它能依照用戶要求，更改說話的語氣，比如用更誇張的戲劇腔代替冰冷的電子音；它還能實現同聲傳譯，準確地把意大利語翻譯成英文。

正如阿爾特曼在X中提前預告的那樣，科幻電影《Her》中的劇情走入現實，人類和AI實時對話的設想已經具備實現的雛形。

爲了防禦對手，谷歌曾經一個月發佈5次大模型。今年2月，谷歌曾先後發佈Gemini功能更新、推出Ultra版本、發佈Gemini 1.5 Pro，併發布開源模型Gemma和世界模型Genie。

但這些不痛不癢的更新不僅沒有起到防禦作用，甚至還引發了負面反饋。谷歌內部流傳出的圖片曾毫不留情地吐槽，“連內部員工都記不住這些大模型的名字”。

保守敗於瘋狂，只剩一張“生態牌”

回顧過往，人工智能曾在2014年、2017年多次引起科技界的關注，而在幾次浪潮中，谷歌都扮演着先驅者的角色。

追溯至2011年，谷歌就已經在公司內部成立了“谷歌大腦”(Google Brain)，專注於深度學習和神經網絡研究，目標是“讓機器也能擁有理解和學習的能力”。

2014年，谷歌斥資4億美元收購英國AI公司DeepMind，進一步夯實了在深度學習領域的實力，孕育出了具有里程碑意義的AlphaGo（阿爾法圍棋）。次年，谷歌將機器學習系統TensorFlow開源，並啓動研發AI芯片TPU，在算力層面爲後續訓練大模型打下硬件基礎。

2016年，皮查伊在當年的I/O開發者大會上宣佈，將AI置於公司首要發展戰略，正式向AI First轉型。在提出Transformer架構，併發布LaMda大模型後，從搜索、助理到Pixel手機、Nest家居等，谷歌開始全面把AI能力植入產品線。

谷歌更傾向於讓AI扮演一個輔助角色，對AI的態度偏保守。隨着時間軸滑向2023年，谷歌的風頭慢慢被Open AI壓過一籌。谷歌的前瞻性佈局和先發優勢，被Open AI的瘋狂打敗了。

在技術成熟的情況下，後起創業公司Open AI使用的核心技術正是由谷歌發明的。GPT的“T”就來源於2017年穀歌發佈論文中研究的Transformer架構。Open AI燒了大把的錢，砸出了訓練大模型的可行方向。

ChatGPT在2022年底發佈之時，谷歌可能也注意到了這家初創公司，但未能引起足夠的重視和警惕。2023年1月，谷歌AI負責人Jeff Dean在一個內部會議中表示，雖然谷歌擁有做AI產品的技術和能力，但和小型初創公司相比，谷歌做出決策必須更加保守。

直到2023年2月，ChatGPT引起巨大反響，被視爲衝擊搜索引擎的新出口。谷歌匆忙應戰，推出大模型Bard，卻因常識性失誤引發口碑崩盤——在發佈會現場，Bard將智利超大望遠鏡首次拍攝系外行星的功勞記在了詹姆斯·韋伯太空望遠鏡上，間接引發谷歌母公司市值暴跌1000億美元。

在之後的表現中，谷歌逐漸消磨掉了人們的信任。Gemini Ultra版本發佈一天後被質疑造假，有內部員工表示“這（視頻）是不切實際的”，谷歌最後也承認演示視頻是經剪輯製作的效果。

多次犯下致命失誤後，谷歌AI產品的信服力越降越低。谷歌正在盡力追趕並彌補過失。從這次發佈會的動作來看，谷歌的策略調整爲：以大而全的方式佈局所有AI細分賽道的機會。

對於算力、算法和人才儲備充足，技術功底深厚的谷歌而言，藉助於自家生態的優勢，谷歌將Gemini集成在方方面面，憑藉數據積累，谷歌自有生態構建的護城河壁壘，是Open AI所無法取代的。

“谷歌最堅固的護城河是分銷，Gemini 不必成爲最好的模型，也能成爲世界上最常用的模型。”英偉達高級研究科學家範麟熙（Jim Fan）在X上評價。

不再領先的谷歌，只好握緊生態的優勢牌。（魏琳華）

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

两小时“吼出”121次AI，谷歌背后埋伏着Open AI的幽灵

兩小時“吼出”121次AI，谷歌背後埋伏着Open AI的幽靈

風險及免責聲明

聲明