share_log

出门问问CEO李志飞点评GPT-4o:人机交互有望开启下一波科技和商业模式革命

出門問問CEO李志飛點評GPT-4o:人機交互有望開啓下一波科技和商業模式革命

騰訊科技 ·  05/14 06:35

騰訊科技訊 5月14日消息,北京時間今天凌晨,OpenAI舉行春季更新活動,重點推出了新旗艦模型“GPT-4o”,以及在ChatGPT中免費提供更多功能。

出門問問CEO李志飛發文點評稱:“GPT-4o的出現,將開啓下一波的科技、應用、和商業模式的革命,期待下一個十年。”

以下爲李志飛點評全文:

飛哥激動的睡不着,來發個短評。

GPT-4o: 萬能的虛擬個人助理(VPA)

自從2011年蘋果發佈Siri,無數公司嘗試着做一個萬能的VPA,包括Google,也包括出門問問,但基本都是demo炫酷,用戶用起來卻覺得很蠢。這次,OAI的demo無疑是把VPA推到了前所未有的高度。主要是幾點:

1. 模型上端到端:以前的語音助手分下面多個步驟,喚醒、語音識別、自然語言理解、信息查詢、對話、TTS。每一個步驟是一個單獨的模型、由不同的專業團隊開發。GPT-4o是端到端模型,一個模型解決所有問題。

2. 實時交互:因爲是一個端到端模型,所以做到了平均300多毫秒的類似於人類的實時交互,如果用大模型串聯可能需要幾秒延遲。雖然以前的語音助手也可以實時交互,但大多是完成一些基本信息查詢(比如說附近的川菜館)和基本命令(比如說撥打電話號碼),但這個GPT-4o是一個真正意義上通用的VPA。

3. 多模態交互:以前的語音助手只是語音交互,而現在的GPT-4o是真正的多模態,跟人類一樣,模態之間自由切換。牛X的是,GPT沒有因爲加入別的模態而降低語言的理解和生成能力,大寫的服。

4. 絲滑的交互體驗:從視頻來看,跟以前的語音助手不一樣,沒有反人類的喚醒、沒有答非所問的對話、沒有pipeline系統的錯誤傳遞,AI基本上可以作爲一個聰明的人類參與人類的集體對話(AI參與多人視頻會議那個例子很好的證明了這個)。

5. 未來的期望:這次demo從體驗上很炸裂,讓我對大模型真正滲透到生活的方方面面重新產生了信心。除了打磨基本體驗外,未來可做的事情很多,比如說落地到各種智能硬件;跟智能家居、車載等各種場景結合實現跨場景聯動,感覺未來五年很多東西值得期待。

6. 前沿科技的timing: 這次的演示本身沒有新的idea,無論是現在的語音助手和多模態交互,還是未來要落地的智能硬件和多場景聯動,都沒有啥新的概念,過去十年很多人做過demo。但是過去的體驗都是半吊子,demo很酷、用起來反人類。本人做了十年,都已經絕望了,直到大模型的出現,才看到了一個全能的VPA的可能性。所以,前沿科技很多時候不在於vision,而在於實現vision的路徑和節奏。

總之,人機交互這個渣男,因爲GPT-4o的出現,有望真的重新做人,開啓下一波的科技、應用、和商業模式的革命,期待下一個十年。

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論