追蹤AI最新趨勢

語音AI助手大戰開啓！OpenAI VS 谷歌——AI手機屆的“iOS VS 安卓”

作者：李笑寅

来源：硬AI

本周，AI圈“王炸”不断：谷歌宣布进入Gemini时代，“狂甩”一堆更新，直接对线提前一天“截胡”推出新品的OpenAI。

OpenAI的GPT-4o卓越的实时交互能力令人印象深刻，而谷歌的Project Astra同样以相媲美的能力作为反击，引发行业对AI助手的讨论度飙升。

根据已公开的信息，同样作为AI语音助手，GPT-4o和Project Astra都基于多模态模型打造，支持文本、图片和音视频内容的接收/生成，并能做到超短延迟、实时交互。

另外，根据此前的媒体报道，苹果已经与OpenAI达成协议，将在全新操作系统iOS 18中引入ChatGPT技术，而谷歌掌控着安卓系统的“命脉”。这不禁令人联想：GPT-4o和Gemini之间的这场对决会不会是下一个AI手机届的“iOS VS 安卓”？

正面“硬刚”，谁更胜一筹？

逐一对比GPT-4o和Project Astra（在Gemini中提供Gemini Live功能），会发现这两款AI助手的确存在细节差异。

1）使用场景

GPT-4o的响应延迟平均为320毫秒，最快在232毫秒内回应音频输入，接近人类对话的反应时间。在发布会演示中，GPT-4o的日常使用场景包括：口译、读写编码、数学教学、汇总并解读信息、视频识别情绪等。

Gemini Live的视觉识别和语音交互效果和GPT-4o不相上下，同样提供了对话式自然语言语音界面和通过手机摄像头进行实时视频分析的能力，反应速度也够快，能进行自然日常对话。DeepMind CEO Demis Hassabis形容其为“一直希望打造一款在日常生活中有用的通用智能体”。

从易用性来看，二者之间差别不大。

不过，一个可能导致市场反响不同的点在于，GPT-4o的演示是现场完成的，而谷歌的演示是发布会前录制的。

2）多模态能力

多模态能力是两款AI助手主打的宣传点，目前看来，GPT-4o可能在音频方面略微领先，而Project Astra展示的视觉功能则更胜一筹。

演示中，GPT-4o展示了逼真的声音、丝滑的对话流程、唱歌，甚至能够根据用户的预期猜测情绪；而Project Astra展示了更“高级”的视觉功能，比如能够“记住”你把眼镜放在哪里。

在多模态模型方面，Gemini依赖其他模型进行输出，包括使用Imagen 3处理图像和Veo处理视频；而GPT-4o采用的是原生的多模态，自发生成图像和声音。

3）产品定位

GPT-4o的推出引发了市场对于现实版“Her”的讨论，因其AI助手拥有情感表达充沛的女声，甚至具有闲聊和开玩笑的能力，而Project Astra虽然也是女声，但语气更加沉着冷静，更实事求是。

这体现出二者对于“AI助手”产品定位的不同，OpenAI希望其更“拟人化”，而谷歌则希望其更“代理化”。

谷歌曾表示，有意避免生产“Her”类型的人工智能。

在DeepMind上个月发表的论文中，该公司详细介绍了拟人化AI的潜在缺点，认为这种AI助手将模糊“人机界限”，可能会导致敏感信息泄露、人类情感依赖、代理能力削弱等问题。

4）访问路径

OpenAI表示，即日起在Web界面和GPT应用程序上推出GPT-4o的文本和视觉功能。该公司还表示，将在未来几周内增加语音功能，开发人员现可以访问API中的文本和视觉功能。

谷歌表示，Gemini Live将在“未来几个月”通过Google的高级AI计划Gemini Advanced推出。

有观点认为，OpenAI推出新功能的时点更早，可能意味着其产品在获取新用户方面更具优势。

5）费用

GPT-4o面向ChatGPT的所有用户免费开放，API价格降价50%。

不过，目前官方给出的免费限制在一定的消息数量上，超过这个消息量后，免费用户的模型将被切换回ChatGPT，也就是GPT3.5，而付费用户（每月20美元起）则将拥有五倍的GPT-4o消息量上限。

Gemini Advanced提供两个月的免费试用期，此后每月收费20美元。

AI眼镜会是下个战场吗？

伴随端侧AI应用的推进，AI助手将真正落地并应用于日常生活，届时其实际效用才会逐一显现。

不过，AI语音助手似乎暗示了一种新的电子科技趋势：从文本转向音频。

而接下来，视觉能力的深度融合似乎也正在路上。

发布会上，谷歌表示，Project Astra的另一重潜力在于，可以与谷歌眼镜一起配合使用——盲人戴上后，可以在日常生活中获得实时语音讲解。

Meta也推出了语音机器人MetaAI，用于其VR耳机和Ray-Ban智能眼镜。

有观点认为，现阶段，AI语音助手的加入可能推升AI手机成为赢家，但往后看，这些语音AI模型的终极形态将是智能眼镜。

编辑/new

作者：李笑寅

來源：硬AI

本週，AI圈“王炸”不斷：谷歌宣佈進入Gemini時代，“狂甩”一堆更新，直接對線提前一天“截胡”推出新品的OpenAI。

OpenAI的GPT-4o卓越的實時交互能力令人印象深刻，而谷歌的Project Astra同樣以相媲美的能力作爲反擊，引發行業對AI助手的討論度飆升。

根據已公開的信息，同樣作爲AI語音助手，GPT-4o和Project Astra都基於多模態模型打造，支持文本、圖片和音視頻內容的接收/生成，並能做到超短延遲、實時交互。

另外，根據此前的媒體報道，蘋果已經與OpenAI達成協議，將在全新操作系統iOS 18中引入ChatGPT技術，而谷歌掌控着安卓系統的“命脈”。這不禁令人聯想：GPT-4o和Gemini之間的這場對決會不會是下一個AI手機屆的“iOS VS 安卓”？

正面“硬剛”，誰更勝一籌？

逐一對比GPT-4o和Project Astra（在Gemini中提供Gemini Live功能），會發現這兩款AI助手的確存在細節差異。

1）使用場景

GPT-4o的響應延遲平均爲320毫秒，最快在232毫秒內回應音頻輸入，接近人類對話的反應時間。在發佈會演示中，GPT-4o的日常使用場景包括：口譯、讀寫編碼、數學教學、彙總並解讀信息、視頻識別情緒等。

Gemini Live的視覺識別和語音交互效果和GPT-4o不相上下，同樣提供了對話式自然語言語音界面和通過手機攝像頭進行實時視頻分析的能力，反應速度也夠快，能進行自然日常對話。DeepMind CEO Demis Hassabis形容其爲“一直希望打造一款在日常生活中有用的通用智能體”。

從易用性來看，二者之間差別不大。

不過，一個可能導致市場反響不同的點在於，GPT-4o的演示是現場完成的，而谷歌的演示是發佈會前錄製的。

2）多模態能力

多模態能力是兩款AI助手主打的宣傳點，目前看來，GPT-4o可能在音頻方面略微領先，而Project Astra展示的視覺功能則更勝一籌。

演示中，GPT-4o展示了逼真的聲音、絲滑的對話流程、唱歌，甚至能夠根據用戶的預期猜測情緒；而Project Astra展示了更“高級”的視覺功能，比如能夠“記住”你把眼鏡放在哪裏。

在多模態模型方面，Gemini依賴其他模型進行輸出，包括使用Imagen 3處理圖像和Veo處理視頻；而GPT-4o採用的是原生的多模態，自發生成圖像和聲音。

3）產品定位

GPT-4o的推出引發了市場對於現實版“Her”的討論，因其AI助手擁有情感表達充沛的女聲，甚至具有閒聊和開玩笑的能力，而Project Astra雖然也是女聲，但語氣更加沉着冷靜，更實事求是。

這體現出二者對於“AI助手”產品定位的不同，OpenAI希望其更“擬人化”，而谷歌則希望其更“代理化”。

谷歌曾表示，有意避免生產“Her”類型的人工智能。

在DeepMind上個月發表的論文中，該公司詳細介紹了擬人化AI的潛在缺點，認爲這種AI助手將模糊“人機界限”，可能會導致敏感信息泄露、人類情感依賴、代理能力削弱等問題。

4）訪問路徑

OpenAI表示，即日起在Web界面和GPT應用程序上推出GPT-4o的文本和視覺功能。該公司還表示，將在未來幾周內增加語音功能，開發人員現可以訪問API中的文本和視覺功能。

谷歌表示，Gemini Live將在“未來幾個月”通過Google的高級AI計劃Gemini Advanced推出。

有觀點認爲，OpenAI推出新功能的時點更早，可能意味着其產品在獲取新用戶方面更具優勢。

5）費用

GPT-4o面向ChatGPT的所有用戶免費開放，API價格降價50%。

不過，目前官方給出的免費限制在一定的消息數量上，超過這個消息量後，免費用戶的模型將被切換回ChatGPT，也就是GPT3.5，而付費用戶（每月20美元起）則將擁有五倍的GPT-4o消息量上限。

Gemini Advanced提供兩個月的免費試用期，此後每月收費20美元。

AI眼鏡會是下個戰場嗎？

伴隨端側AI應用的推進，AI助手將真正落地並應用於日常生活，屆時其實際效用才會逐一顯現。

不過，AI語音助手似乎暗示了一種新的電子科技趨勢：從文本轉向音頻。

而接下來，視覺能力的深度融合似乎也正在路上。

發佈會上，谷歌表示，Project Astra的另一重潛力在於，可以與谷歌眼鏡一起配合使用——盲人戴上後，可以在日常生活中獲得實時語音講解。

Meta也推出了語音機器人MetaAI，用於其VR耳機和Ray-Ban智能眼鏡。

有觀點認爲，現階段，AI語音助手的加入可能推升AI手機成爲贏家，但往後看，這些語音AI模型的終極形態將是智能眼鏡。

編輯/new

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。