出門問問CEO李志飛點評GPT-4o：人機交互有望開啓下一波科技和商業模式革命

騰訊科技 · 05/14 06:35

腾讯科技讯 5月14日消息，北京时间今天凌晨，OpenAI举行春季更新活动，重点推出了新旗舰模型“GPT-4o”，以及在ChatGPT中免费提供更多功能。

出门问问CEO李志飞发文点评称：“GPT-4o的出现，将开启下一波的科技、应用、和商业模式的革命，期待下一个十年。”

以下为李志飞点评全文：

飞哥激动的睡不着，来发个短评。

GPT-4o: 万能的虚拟个人助理（VPA）

自从2011年苹果发布Siri，无数公司尝试着做一个万能的VPA，包括Google，也包括出门问问，但基本都是demo炫酷，用户用起来却觉得很蠢。这次，OAI的demo无疑是把VPA推到了前所未有的高度。主要是几点：

1. 模型上端到端：以前的语音助手分下面多个步骤，唤醒、语音识别、自然语言理解、信息查询、对话、TTS。每一个步骤是一个单独的模型、由不同的专业团队开发。GPT-4o是端到端模型，一个模型解决所有问题。

2. 实时交互：因为是一个端到端模型，所以做到了平均300多毫秒的类似于人类的实时交互，如果用大模型串联可能需要几秒延迟。虽然以前的语音助手也可以实时交互，但大多是完成一些基本信息查询（比如说附近的川菜馆）和基本命令（比如说拨打电话号码），但这个GPT-4o是一个真正意义上通用的VPA。

3. 多模态交互：以前的语音助手只是语音交互，而现在的GPT-4o是真正的多模态，跟人类一样，模态之间自由切换。牛X的是，GPT没有因为加入别的模态而降低语言的理解和生成能力，大写的服。

4. 丝滑的交互体验：从视频来看，跟以前的语音助手不一样，没有反人类的唤醒、没有答非所问的对话、没有pipeline系统的错误传递，AI基本上可以作为一个聪明的人类参与人类的集体对话（AI参与多人视频会议那个例子很好的证明了这个）。

5. 未来的期望：这次demo从体验上很炸裂，让我对大模型真正渗透到生活的方方面面重新产生了信心。除了打磨基本体验外，未来可做的事情很多，比如说落地到各种智能硬件；跟智能家居、车载等各种场景结合实现跨场景联动，感觉未来五年很多东西值得期待。

6. 前沿科技的timing: 这次的演示本身没有新的idea，无论是现在的语音助手和多模态交互，还是未来要落地的智能硬件和多场景联动，都没有啥新的概念，过去十年很多人做过demo。但是过去的体验都是半吊子，demo很酷、用起来反人类。本人做了十年，都已经绝望了，直到大模型的出现，才看到了一个全能的VPA的可能性。所以，前沿科技很多时候不在于vision，而在于实现vision的路径和节奏。

总之，人机交互这个渣男，因为GPT-4o的出现，有望真的重新做人，开启下一波的科技、应用、和商业模式的革命，期待下一个十年。

騰訊科技訊 5月14日消息，北京時間今天凌晨，OpenAI舉行春季更新活動，重點推出了新旗艦模型“GPT-4o”，以及在ChatGPT中免費提供更多功能。

出門問問CEO李志飛發文點評稱：“GPT-4o的出現，將開啓下一波的科技、應用、和商業模式的革命，期待下一個十年。”

以下爲李志飛點評全文：

飛哥激動的睡不着，來發個短評。

GPT-4o: 萬能的虛擬個人助理（VPA）

自從2011年蘋果發佈Siri，無數公司嘗試着做一個萬能的VPA，包括Google，也包括出門問問，但基本都是demo炫酷，用戶用起來卻覺得很蠢。這次，OAI的demo無疑是把VPA推到了前所未有的高度。主要是幾點：

1. 模型上端到端：以前的語音助手分下面多個步驟，喚醒、語音識別、自然語言理解、信息查詢、對話、TTS。每一個步驟是一個單獨的模型、由不同的專業團隊開發。GPT-4o是端到端模型，一個模型解決所有問題。

2. 實時交互：因爲是一個端到端模型，所以做到了平均300多毫秒的類似於人類的實時交互，如果用大模型串聯可能需要幾秒延遲。雖然以前的語音助手也可以實時交互，但大多是完成一些基本信息查詢（比如說附近的川菜館）和基本命令（比如說撥打電話號碼），但這個GPT-4o是一個真正意義上通用的VPA。

3. 多模態交互：以前的語音助手只是語音交互，而現在的GPT-4o是真正的多模態，跟人類一樣，模態之間自由切換。牛X的是，GPT沒有因爲加入別的模態而降低語言的理解和生成能力，大寫的服。

4. 絲滑的交互體驗：從視頻來看，跟以前的語音助手不一樣，沒有反人類的喚醒、沒有答非所問的對話、沒有pipeline系統的錯誤傳遞，AI基本上可以作爲一個聰明的人類參與人類的集體對話（AI參與多人視頻會議那個例子很好的證明了這個）。

5. 未來的期望：這次demo從體驗上很炸裂，讓我對大模型真正滲透到生活的方方面面重新產生了信心。除了打磨基本體驗外，未來可做的事情很多，比如說落地到各種智能硬件；跟智能家居、車載等各種場景結合實現跨場景聯動，感覺未來五年很多東西值得期待。

6. 前沿科技的timing: 這次的演示本身沒有新的idea，無論是現在的語音助手和多模態交互，還是未來要落地的智能硬件和多場景聯動，都沒有啥新的概念，過去十年很多人做過demo。但是過去的體驗都是半吊子，demo很酷、用起來反人類。本人做了十年，都已經絕望了，直到大模型的出現，才看到了一個全能的VPA的可能性。所以，前沿科技很多時候不在於vision，而在於實現vision的路徑和節奏。

總之，人機交互這個渣男，因爲GPT-4o的出現，有望真的重新做人，開啓下一波的科技、應用、和商業模式的革命，期待下一個十年。

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

出门问问CEO李志飞点评GPT-4o：人机交互有望开启下一波科技和商业模式革命

出門問問CEO李志飛點評GPT-4o：人機交互有望開啓下一波科技和商業模式革命

風險及免責聲明

聲明