OpenAI又放大招！ChatGPT現在能聽能說又能看了！

金十數據 · 2024/12/13 03:35

ChatGPT最新的高级语音模式现在可以实时对视频和屏幕共享内容作出响应。圣诞将至，语音功能还新增了圣诞老人模式。

ChatGPT的高级语音模式（AVM）现在有视频和屏幕共享功能了！该功能将于周四开始向付费的ChatGPT Plus和Pro订阅者推出，企业和教育客户则将于一月份获得该功能。

在“12 Days of OpenAI”活动的第六天，这家人工智能初创公司宣布，ChatGPT可以识别摄像头拍摄到的或设备屏幕上显示的物体，并通过其高级语音模式功能进行响应。用户可以使用手机摄像头与ChatGPT聊天，模型将“看到”您所看到的内容。

此前，OpenAI在5月份推出GPT-4o模型时就预告了该功能。该初创公司表示，AVM由OpenAI的原生多模式4o模型提供支持，这意味着它可以处理音频输入，并以自然的对话方式做出响应。

OpenAI的视频模式感觉就像视频通话，因为ChatGPT会实时响应用户在视频中显示的内容。它可以看到用户周围的事物，识别物体，甚至记住自我介绍的人。在直播中，该公司首席产品官（CPO）Kevin Weil和其他团队成员演示了ChatGPT协助如何制作手冲咖啡。他们通过将摄像机对准冲咖啡的动作，AVM引导团队完成了冲泡过程，证明它了解咖啡机的原理。

图片来自视频截图

另外，ChatGPT还可以识别屏幕上的内容。在演示中，OpenAI研究人员触发了屏幕共享，然后打开消息应用程序，请求ChatGPT帮助回复通过短信收到的照片。

这一期待已久的消息是在谷歌推出下一代旗舰模型Gemini 2.0的一天后发布的。新的Gemini 2.0还可以处理视觉和音频输入，并具有更多代理功能，这意味着它可以代表用户执行多步骤任务。 Gemini 2.0的代理功能目前有三个不同名称的研究原型：用于通用AI助手的Project Astra、用于特定AI任务的Project Mariner ，以及用于开发人员的Project Jules。

另外，上周，微软也发布了Copilot Vision的预览版，它可以让Pro订阅者在浏览网页时打开Copilot聊天。 Copilot Vision可以查看屏幕上的照片，甚至可以帮忙玩地图猜谜游戏。谷歌的Project Astra也可以用同样的方式读取浏览器。

OpenAI也不甘示弱，其演示展示了ChatGPT的视觉模式如何准确识别物体，甚至是可中断的，其中还包括语音模式下的圣诞老人语音选项，声音低沉、欢快，还有很多“ho-ho-hos（呵呵呵）”。用户可以通过点击ChatGPT中的雪花图标与OpenAI版本的圣诞老人聊天。媒体开玩笑说道，目前尚不清楚到底是真正的圣诞老人为AI训练贡献了自己的声音，还是OpenAI在未经事先同意的情况下使用了他的声音。

此前，具有视觉功能的高级语音模式已被多次推迟。据报道，部分原因是OpenAI在准备好之前就早早宣布了该功能。今年4月，OpenAI承诺将在“几周内”向用户推出高级语音模式。几个月后，该公司仍表示需要更多时间。

ChatGPT最新的高級語音模式現在可以實時對視頻和屏幕共享內容作出響應。聖誕將至，語音功能還新增了聖誕老人模式。

ChatGPT的高級語音模式（AVM）現在有視頻和屏幕共享功能了！該功能將於週四開始向付費的ChatGPT Plus和Pro訂閱者推出，企業和教育客戶則將於一月份獲得該功能。

在「12 Days of OpenAI」活動的第六天，這家人工智能初創公司宣佈，ChatGPT可以識別攝像頭拍攝到的或設備屏幕上顯示的物體，並通過其高級語音模式功能進行響應。用戶可以使用手機攝像頭與ChatGPT聊天，模型將「看到」您所看到的內容。

此前，OpenAI在5月份推出GPT-4o模型時就預告了該功能。該初創公司表示，AVM由OpenAI的原生多模式4o模型提供支持，這意味着它可以處理音頻輸入，並以自然的對話方式做出響應。

OpenAI的視頻模式感覺就像視頻通話，因爲ChatGPT會實時響應用戶在視頻中顯示的內容。它可以看到用戶周圍的事物，識別物體，甚至記住自我介紹的人。在直播中，該公司首席產品官（CPO）Kevin Weil和其他團隊成員演示了ChatGPT協助如何製作手衝咖啡。他們通過將攝像機對準衝咖啡的動作，AVM引導團隊完成了沖泡過程，證明它了解咖啡機的原理。

圖片來自視頻截圖

另外，ChatGPT還可以識別屏幕上的內容。在演示中，OpenAI研究人員觸發了屏幕共享，然後打開消息應用程序，請求ChatGPT幫助回覆通過短信收到的照片。

這一期待已久的消息是在谷歌推出下一代旗艦模型Gemini 2.0的一天後發佈的。新的Gemini 2.0還可以處理視覺和音頻輸入，並具有更多代理功能，這意味着它可以代表用戶執行多步驟任務。 Gemini 2.0的代理功能目前有三個不同名稱的研究原型：用於通用AI助手的Project Astra、用於特定AI任務的Project Mariner ，以及用於開發人員的Project Jules。

另外，上週，微軟也發佈了Copilot Vision的預覽版，它可以讓Pro訂閱者在瀏覽網頁時打開Copilot聊天。 Copilot Vision可以查看屏幕上的照片，甚至可以幫忙玩地圖猜謎遊戲。谷歌的Project Astra也可以用同樣的方式讀取瀏覽器。

OpenAI也不甘示弱，其演示展示了ChatGPT的視覺模式如何準確識別物體，甚至是可中斷的，其中還包括語音模式下的聖誕老人語音選項，聲音低沉、歡快，還有很多「ho-ho-hos（呵呵呵）」。用戶可以通過點擊ChatGPT中的雪花圖標與OpenAI版本的聖誕老人聊天。媒體開玩笑說道，目前尚不清楚到底是真正的聖誕老人爲AI訓練貢獻了自己的聲音，還是OpenAI在未經事先同意的情況下使用了他的聲音。

此前，具有視覺功能的高級語音模式已被多次推遲。據報道，部分原因是OpenAI在準備好之前就早早宣佈了該功能。今年4月，OpenAI承諾將在「幾周內」向用戶推出高級語音模式。幾個月後，該公司仍表示需要更多時間。

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

讚好

瀏覽 2萬

熱點推薦

搶先評論

熱門討論

北水爆買！中國資產能否延續漲勢？

3月17日早盤，地產代理、物業服務及管理等板塊漲幅明顯，貝殼-W早盤漲逾4%，碧桂園服務漲逾9%。政策消息面上，兩部門發文落實專項債支持收地，中房協組織民營房企座談會。中國資產本輪火爆行情還能持續多久？你會如何投資？展开

北水狂掃港股！近期如何操作？

71%

29%

看好！繼續加倉

我恐高，逢高減倉

1.6萬人參與

年頭旺到年尾

02/27 16:09

2月27日覆盤..

$恒生指數 (800000.HK)$ $恒指當月期貨 (HSIcurrent.HK)$ 前天覆盤提到估計前頂23700不是頂，昨日就即時升破了，而且升幅有最高接近1千點有點意外，因為短線炒即市低估了升幅，所以也多手曾入了熊，最后收盤時熊仔止蝕離場

，而今天在早盤衝高至24000附近入了熊仔后，指數大幅下跌最多接近6百多點，即時把昨日虧損賺回有突多

，而今天再破新高，最高 24076 ，其後收市時轉跌約70點，出了陰燭，暫時走勢仍未有破壞，不過由前底至今已經上漲接近至6千點，本人覺得有貨者可以繼續持貨直到明顯有走勢轉壞才止賺離場，沒貨者可以等待回調后再上車，其實本人也希望能夠快點有回調，一來可以上車，二來回一回氣也健康

，暫時看法都是跟之前一樣，覺得即使有所回調應該都不會跌得太深，但假若期貨失守22350企不穩收，便可能還有下跌空間，期貨短期要跌破21400的機會應該也不大，所以本人覺得如果有大幅的回調也是一個機會分注做多。近日都堅持不過夜持倉，暫只做即市，因為不高追，也不隨便做空。
支持阻力以現貨作參考
支持位 23150，23250，2...

OpenAI又放大招！ChatGPT现在能听能说又能看了！

OpenAI又放大招！ChatGPT現在能聽能說又能看了！

風險及免責聲明

聲明