①該產品據稱可自動執行各種複雜操作,包括編寫代碼、預訂旅行、自動電商購物等;②阿爾特曼認爲AI的下一個重大突破將是AI助手;③AI助理或將掌握移動互聯新入口。
據媒體報道,OpenAI正準備推出一款代號爲「Operator」的全新AI助理產品,可以自動執行各種複雜操作,包括編寫代碼、預訂旅行、自動電商購物等。根據內部員工爆料,OpenAI領導層預計將在2025年1月發佈該產品,首先作爲研究預覽版和開發工具推出,屆時將爲開發人員開放API接口。
報道稱,OpenAI一直在進行幾個與智能體相關的研究項目。其中一位人士表示,最接近完成的將是一個在網絡瀏覽器中執行任務的通用工具。
AI助理(AI Agent)是一種能夠感知環境、進行決策和執行動作的智能實體,具備通過獨立思考、調用工具去逐步完成給定目標的能力,既能爲C端提供個性化應用,也能爲B端提供降本增效方案。對於普通用戶而言,AI助理最核心的功能是AI自主操作手機,輔助完成複雜推理任務。
OpenAI首席執行官阿爾特曼早已透露下場意願。幾周前,他在Reddit的「問我任何問題」(Ask Me Anything)論壇上表示,“我們將擁有越來越好的模型,但我認爲下一個重大突破將是AI助手。”在上個月公司年度開發日之前的OpenAI新聞發佈會上,該公司首席產品官Kevin Weil稱:「我認爲2025年將是Agent系統最終進入主流的一年。」
站在OpenAI的角度,其在商業化進程中面臨着越來越大的壓力, ChatGPT漸進式的改進可能無法吸引用戶支付更高的價格。高管急切需要一款突破性產品,以證明對AI開發的巨額投資是值得的。
目前,OpenAI已開源了多功能協同AI Agent——Swarm,可創建多個智能體協同工作,以更高效地完成任務。其GPT o1模型增強了推理能力,使其在複雜問題的解決和用戶交互的自然性方面均有顯著進步,亦使其更加適用於AI Agent場景。
AI助理被視作通往AGI的核心基礎,在硬件廠商言必稱AI的時代,AI助理或成爲終端智能化的突破口。甬興證券表示,AI Agent或將掌握移動互聯新入口,流量分發格局有望重塑AI Agent智能體因具備較強交互性以及便利性,或可打通原先同個終端不同App之間的天然壁壘。
據《科創板日報》不完全梳理,國內外頭部廠商正爭先推出AI助理產品——
$微軟 (MSFT.US)$近期低調開源了AI工具OmniParser,其可幫助用戶創建個性化智能體,以操作個人計算機;10月22日,微軟宣佈在Dynamics 365中集成10個自主AI Agent,支持OpenAI最新模型o1,具備自主學習能力,可自動執行跨平台複雜業務;9月,微軟推出了一款名爲Windows Agent Arena的基準框架,同樣屬於AI助理開發範疇。
據The Information報道,谷歌計劃在12月預覽其大型動作模型「Project Jarvis」,該項目將幫助用戶執行諸如「收集研究、購買產品或預訂航班」等任務。
10月22日,Anthropic爲大模型Claude迭代了新功能——Computer Use,讓AI可以像人一樣操控電腦。Claude3.5 Sonnet是首個支持計算機控制的模型,能夠模擬人類操作計算機,包括移動光標、點擊按鈕和輸入文本。
蘋果選擇將Siri與ChatGPT集成,實現更智能的人機交互,另有網友發現蘋果已經默默發佈了Ferret-UI的兩個實現版本(分別基於Gemma 2B和Llama 8B),這是蘋果今年5月發佈的一個可讓AI理解手機屏幕的技術。
華爲則公佈了一項可讓AI像人類一樣操作手機的新研究成果,相關團隊提出了一個手機控制架構:Lightweight Multi-modal App Control(輕量級多模態應用控制,簡稱LiMAC)。
中國獨角獸企業智譜AI已上線AI助理工具AutoGLM,無需手動操作,用戶對着手機說話(發出指令),便可讓其自動打開手機上的各類App,進行網購、點外賣、訂高鐵票,甚至發微信、搶紅包、評論朋友圈、整理筆記並生成攻略、總結論文。
中信證券表示,AutoGLM等終端AI助理技術將帶來更短路徑的交互形式,接受語音指令並自動完成複雜操作的能力將爲消費者帶來極大便利,其有望成爲AI終端的亮點功能並吸引消費者升級換代。
編輯/Rocky