通往AI下一個“iPhone時刻”的門票？科技巨頭聚首語音交互

財聯社 · 05/14 21:13

①OpenAI发布GPT-4o，苹果、Meta探索带摄像头耳机，Siri也有望引入ChatGPT，这些主要交互形式都离不开语音互动。 ②在OpenAI的Sam Alteman看来，语音交互是通向未来交互的重要途径，“多模态交互能力非常强大。”

《科创板日报》5月14日讯音频输入反应时间短至232毫秒、能感知人类情绪、能和用户像真人一样聊天——昨夜OpenAI一场发布会，最新多模态大模型GPT-4o的出色表现引发外界瞩目。各家科技巨头们也没有放慢追逐的脚步，AI人机交互，尤其是语音交互，或许将成为新一轮竞争焦点。

据The Information援引知情人士消息称，$Meta Platforms (META.US)$已建立一个名为“Camerabuds”（摄像头耳机）的项目，探索制造由AI驱动的带摄像头耳机，希望其能识别物体、翻译外语。

此前，Meta已发布了新一代雷朋智能眼镜，内置多模态AI功能。用户戴上眼镜后，说一声“嘿，Meta”，就能召唤出一个虚拟助手，后者能看到并听到周围发生的一切，能描述物品，能翻译，还会搭配衣服。

与此同时，$苹果 (AAPL.US)$也在进行类似的探索。

苹果即将与 OpenAI 达成协议，或将在iOS 18中引入由ChatGPT提供支持的“聊天机器人”，有望对苹果的个人语音助理Siri带来颠覆性影响。之前公司已被曝正在探索开发带摄像头的AirPods，AI可以使用摄像头拍摄的画面，并通过多模态语音、图像人工智能系统，帮助用户跟踪自己的日常活动，协助人们的日常工作，优化日常作息。

不论是GPT-4o、带摄像头耳机，还是计划ChatGPT的“升级版Siri”，其主要交互形式都离不开语音互动。

而在语音交互这场赛跑中，OpenAI已暂时凭借着GPT-4o领先，这也是OpenAI迈向更自然人机交互的更近一步。华福证券今日报告指出，GPT-4o奠定了AI语音助手基础：低延迟、情绪感知、视觉感知。其中，情绪感知是对语音一维输出模态的丰富，视觉感知能力则可以适配AI手机、AI电脑和AI智能硬件。

在几天前的一场访谈中，Sam Altman曾被问及，iPhone之后会出现什么样的（革命性）设备。“我认为你必须找到一些真正不同的交互范式，才能实现这种设备技术。”Altman说道，“我们会进一步提升（语音功能）。”

在他看来，语音交互是通向未来交互的重要途径，“多模态交互能力非常强大。比如你可以向ChatGPT提问，‘嘿ChatGPT，我正在看什么’或是‘这是什么植物’。”

站在科技的时光隧道回望，从最初不会说话的AlphaGo，到之后“竖耳倾听、张口说话”的苹果Siri与ChatGPT语音版，再到如今的GPT-4o，AI的人机交互正越来越接近人类之间的交流。

对于普罗大众而言，科技巨头们所宣传的庞大训练数据规模、算力需求、参数堆叠，都是难以直观感受到的要素。更低的价格、降低的应用门槛、更自然的交流模式，才是维系着用户最真实的感受与体验的“秘诀”，未来或许也将成为AI之战的决胜因素。

编辑/jayden

①OpenAI發佈GPT-4o，蘋果、Meta探索帶攝像頭耳機，Siri也有望引入ChatGPT，這些主要交互形式都離不開語音互動。 ②在OpenAI的Sam Alteman看來，語音交互是通向未來交互的重要途徑，“多模態交互能力非常強大。”

《科創板日報》5月14日訊音頻輸入反應時間短至232毫秒、能感知人類情緒、能和用戶像真人一樣聊天——昨夜OpenAI一場發佈會，最新多模態大模型GPT-4o的出色表現引發外界矚目。各家科技巨頭們也沒有放慢追逐的腳步，AI人機交互，尤其是語音交互，或許將成爲新一輪競爭焦點。

據The Information援引知情人士消息稱，$Meta Platforms (META.US)$已建立一個名爲“Camerabuds”（攝像頭耳機）的項目，探索製造由AI驅動的帶攝像頭耳機，希望其能識別物體、翻譯外語。

此前，Meta已發佈了新一代雷朋智能眼鏡，內置多模態AI功能。用戶戴上眼鏡後，說一聲“嘿，Meta”，就能召喚出一個虛擬助手，後者能看到並聽到周圍發生的一切，能描述物品，能翻譯，還會搭配衣服。

與此同時，$蘋果 (AAPL.US)$也在進行類似的探索。

蘋果即將與 OpenAI 達成協議，或將在iOS 18中引入由ChatGPT提供支持的“聊天機器人”，有望對蘋果的個人語音助理Siri帶來顛覆性影響。之前公司已被曝正在探索開發帶攝像頭的AirPods，AI可以使用攝像頭拍攝的畫面，並通過多模態語音、圖像人工智能系統，幫助用戶跟蹤自己的日常活動，協助人們的日常工作，優化日常作息。

不論是GPT-4o、帶攝像頭耳機，還是計劃ChatGPT的“升級版Siri”，其主要交互形式都離不開語音互動。

而在語音交互這場賽跑中，OpenAI已暫時憑藉着GPT-4o領先，這也是OpenAI邁向更自然人機交互的更近一步。華福證券今日報告指出，GPT-4o奠定了AI語音助手基礎：低延遲、情緒感知、視覺感知。其中，情緒感知是對語音一維輸出模態的豐富，視覺感知能力則可以適配AI手機、AI電腦和AI智能硬件。

在幾天前的一場訪談中，Sam Altman曾被問及，iPhone之後會出現什麼樣的（革命性）設備。“我認爲你必須找到一些真正不同的交互範式，才能實現這種設備技術。”Altman說道，“我們會進一步提升（語音功能）。”

在他看來，語音交互是通向未來交互的重要途徑，“多模態交互能力非常強大。比如你可以向ChatGPT提問，‘嘿ChatGPT，我正在看什麼’或是‘這是什麼植物’。”

站在科技的時光隧道回望，從最初不會說話的AlphaGo，到之後“豎耳傾聽、張口說話”的蘋果Siri與ChatGPT語音版，再到如今的GPT-4o，AI的人機交互正越來越接近人類之間的交流。

對於普羅大衆而言，科技巨頭們所宣傳的龐大訓練數據規模、算力需求、參數堆疊，都是難以直觀感受到的要素。更低的價格、降低的應用門檻、更自然的交流模式，才是維繫着用戶最真實的感受與體驗的“秘訣”，未來或許也將成爲AI之戰的決勝因素。

編輯/jayden

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

通往AI下一个“iPhone时刻”的门票？科技巨头聚首语音交互

通往AI下一個“iPhone時刻”的門票？科技巨頭聚首語音交互

風險及免責聲明

聲明