share_log

3分钟速览OpenAI春季发布会:GPT-4o炸裂登场!听说读写丝滑如真人

3分鐘速覽OpenAI春季發佈會:GPT-4o炸裂登場!聽說讀寫絲滑如真人

財聯社 ·  05/14 06:57

①OpenAI在活動中發佈了新旗艦模型“GPT-4o”,“可以實時對音頻、視覺和文本進行推理”; ②“我們跨文本、視覺和音頻端到端地訓練了一個新模型,這意味着所有輸入和輸出都由同一神經網絡處理。”

財聯社5月14日訊(編輯 趙昊)北京時間週二(5月14日)凌晨,美國人工智能研究公司OpenAI在線上舉辦了“春季更新”活動。

整體來看,活動主要分爲兩大部分:推出新旗艦模型“GPT-4o”,以及在ChatGPT中免費提供更多功能。

GPT-4o登場

OpenAI在活動中發佈了新旗艦模型“GPT-4o”,“可以實時對音頻、視覺和文本進行推理。”據介紹,新模型使ChatGPT能夠處理50種不同的語言,同時提高了速度和質量。

GPT-4o的“o”代表“omni”。該詞意爲“全能”,源自拉丁語“omnis”。在英語中“omni”常被用作詞根,用來表示“全部”或“所有”的概念。

新聞稿稱,GPT-4o是邁向更自然人機交互的一步,它可以接受文本、音頻和圖像三者組合作爲輸入,並生成文本、音頻和圖像的任意組合輸出,“與現有模型相比,GPT-4o在圖像和音頻理解方面尤其出色。”

在GPT-4o之前,用戶使用語音模式與ChatGPT對話時,GPT-3.5的平均延遲爲2.8秒,GPT-4爲5.4秒,音頻在輸入時還會由於處理方式丟失大量信息,讓GPT-4無法直接觀察音調、說話的人和背景噪音,也無法輸出笑聲、歌唱聲和表達情感。

與之相比,GPT-4o可以在232毫秒內對音頻輸入做出反應,與人類在對話中的反應時間相近。在錄播視頻中,兩位高管做出了演示:機器人能夠從急促的喘氣聲中理解“緊張”的含義,並且指導他進行深呼吸,還可以根據用戶要求變換語調。

圖像輸入方面,演示視頻顯示,OpenAI高管啓動攝像頭要求實時完成一個一元方程題,ChatGPT輕鬆完成了任務;另外,高管還展示了ChatGPT桌面版對代碼和電腦桌面(一張氣溫圖表)進行實時解讀的能力。

OpenAI新聞稿稱,“我們跨文本、視覺和音頻端到端地訓練了一個新模型,這意味着所有輸入和輸出都由同一神經網絡處理。由於GPT-4o是我們第一個結合所有這些模式的模型,因此我們仍然只是淺嘗輒止地探索該模型的功能及其侷限性。”

性能方面,根據傳統基準測試,GPT-4o在文本、推理和編碼等方面實現了與GPT-4 Turbo級別相當的性能,同時在多語言、音頻和視覺功能方面的表現分數也創下了新高。

更多工具免費解鎖

OpenAI表示,“我們開始向ChatGPT Plus和Team用戶推出GPT-4o,並且很快就會向企業用戶推出。我們今天還開始推出ChatGPT Free,但有使用限額。 Plus用戶的消息限額將比免費用戶高出5倍,團隊和企業用戶的限額會再高一些。”

新聞稿稱,即使是ChatGPT Free(免費)用戶也可以有機會體驗GPT-4o,但當達到限額時,ChatGPT將自動切換到GPT-3.5。

另外,OpenAI還推出適用於macOS的ChatGPT桌面應用程序,通過簡單的鍵盤快捷鍵(Option + Space)可以立即向ChatGPT提問,還可以直接在應用程序中截取屏幕截圖與機器人進行討論。

在直播活動尾聲時,OpenAI首席技術官Mira Murati說道,“感謝傑出的OpenAI團隊,也感謝Jensen(黃仁勳)和英偉達團隊爲我們帶來了最先進的GPU,使今天的演示成爲可能。”

編輯/Somer

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論