作者:李笑寅
來源:硬AI
本週,AI圈“王炸”不斷:谷歌宣佈進入Gemini時代,“狂甩”一堆更新,直接對線提前一天“截胡”推出新品的OpenAI。
OpenAI的GPT-4o卓越的實時交互能力令人印象深刻,而谷歌的Project Astra同樣以相媲美的能力作爲反擊,引發行業對AI助手的討論度飆升。
根據已公開的信息,同樣作爲AI語音助手,GPT-4o和Project Astra都基於多模態模型打造,支持文本、圖片和音視頻內容的接收/生成,並能做到超短延遲、實時交互。
另外,根據此前的媒體報道,蘋果已經與OpenAI達成協議,將在全新操作系統iOS 18中引入ChatGPT技術,而谷歌掌控着安卓系統的“命脈”。這不禁令人聯想:GPT-4o和Gemini之間的這場對決會不會是下一個AI手機屆的“iOS VS 安卓”?
正面“硬剛”,誰更勝一籌?
逐一對比GPT-4o和Project Astra(在Gemini中提供Gemini Live功能),會發現這兩款AI助手的確存在細節差異。
1)使用場景
GPT-4o的響應延遲平均爲320毫秒,最快在232毫秒內回應音頻輸入,接近人類對話的反應時間。在發佈會演示中,GPT-4o的日常使用場景包括:口譯、讀寫編碼、數學教學、彙總並解讀信息、視頻識別情緒等。
Gemini Live的視覺識別和語音交互效果和GPT-4o不相上下,同樣提供了對話式自然語言語音界面和通過手機攝像頭進行實時視頻分析的能力,反應速度也夠快,能進行自然日常對話。DeepMind CEO Demis Hassabis形容其爲“一直希望打造一款在日常生活中有用的通用智能體”。
從易用性來看,二者之間差別不大。
不過,一個可能導致市場反響不同的點在於,GPT-4o的演示是現場完成的,而谷歌的演示是發佈會前錄製的。
2)多模態能力
多模態能力是兩款AI助手主打的宣傳點,目前看來,GPT-4o可能在音頻方面略微領先,而Project Astra展示的視覺功能則更勝一籌。
演示中,GPT-4o展示了逼真的聲音、絲滑的對話流程、唱歌,甚至能夠根據用戶的預期猜測情緒;而Project Astra展示了更“高級”的視覺功能,比如能夠“記住”你把眼鏡放在哪裏。
在多模態模型方面,Gemini依賴其他模型進行輸出,包括使用Imagen 3處理圖像和Veo處理視頻;而GPT-4o採用的是原生的多模態,自發生成圖像和聲音。
3)產品定位
GPT-4o的推出引發了市場對於現實版“Her”的討論,因其AI助手擁有情感表達充沛的女聲,甚至具有閒聊和開玩笑的能力,而Project Astra雖然也是女聲,但語氣更加沉着冷靜,更實事求是。
這體現出二者對於“AI助手”產品定位的不同,OpenAI希望其更“擬人化”,而谷歌則希望其更“代理化”。
谷歌曾表示,有意避免生產“Her”類型的人工智能。
在DeepMind上個月發表的論文中,該公司詳細介紹了擬人化AI的潛在缺點,認爲這種AI助手將模糊“人機界限”,可能會導致敏感信息泄露、人類情感依賴、代理能力削弱等問題。
4)訪問路徑
OpenAI表示,即日起在Web界面和GPT應用程序上推出GPT-4o的文本和視覺功能。該公司還表示,將在未來幾周內增加語音功能,開發人員現可以訪問API中的文本和視覺功能。
谷歌表示,Gemini Live將在“未來幾個月”通過Google的高級AI計劃Gemini Advanced推出。
有觀點認爲,OpenAI推出新功能的時點更早,可能意味着其產品在獲取新用戶方面更具優勢。
5)費用
GPT-4o面向ChatGPT的所有用戶免費開放,API價格降價50%。
不過,目前官方給出的免費限制在一定的消息數量上,超過這個消息量後,免費用戶的模型將被切換回ChatGPT,也就是GPT3.5,而付費用戶(每月20美元起)則將擁有五倍的GPT-4o消息量上限。
Gemini Advanced提供兩個月的免費試用期,此後每月收費20美元。
AI眼鏡會是下個戰場嗎?
伴隨端側AI應用的推進,AI助手將真正落地並應用於日常生活,屆時其實際效用才會逐一顯現。
不過,AI語音助手似乎暗示了一種新的電子科技趨勢:從文本轉向音頻。
而接下來,視覺能力的深度融合似乎也正在路上。
發佈會上,谷歌表示,Project Astra的另一重潛力在於,可以與谷歌眼鏡一起配合使用——盲人戴上後,可以在日常生活中獲得實時語音講解。
Meta也推出了語音機器人MetaAI,用於其VR耳機和Ray-Ban智能眼鏡。
有觀點認爲,現階段,AI語音助手的加入可能推升AI手機成爲贏家,但往後看,這些語音AI模型的終極形態將是智能眼鏡。
編輯/new