来源:极客公园
作者:Jesse
苹果,终于曝光了在 AI 方面的进展。
与上个月谷歌在I/O的发布会上,一共提起了AI这个词121次不同,当地时间6月10日,苹果在WWDC24的前一个小时里,几乎一次AI都没有提到。尽管这场WWDC发布会,早已注定要聚焦于AI。
直到发布会进度过半,苹果才终于端出了这道主菜,Apple Intelligence。虽然同样可以简写为 AI,但苹果最终选择将自己的 AI 命名为「苹果智能」。介绍时,库克特别强调他们想要打造的,是超越「人工智能」(Artificial Intelligence)的「个人智能」(Personal Intelligence)。
与其他大模型「大力出奇迹」的发展理念不同,苹果在打造自己的 AI 时,采用了相对谨慎,颗粒度也更细的开发模式,各项功能定义得更加明确清晰,但也显得不那么「神奇」。
发布会上,苹果官宣了与 OpenAI 的合作。用户将可以通过 Siri,直接调用 GPT-4o 的接口来进行对话,但并没有将 GPT 与手机功能做更深的结合。
无论如何,苹果代表的,是十亿级的移动设备用户,最高频的使用场景。这可能是 AI 真正变得「有用」的开端。
01 苹果智能是什么?
将 AI 与智能手机结合,早已不是新鲜事,苹果所采取的思路,与一众 Android 厂商,依然是类似的。
简单来说,手机厂商要把 AI 的输入端,从用户输入 prompt,改造成模型主动感知手机上「正在发生的一切」作为 prompt。同时也把 AI 的输出端,从单纯的输出信息,变成调用 App,实现各种行为功能。
苹果用了 5 个词来总结 AI 的特性:性能强劲,直觉易用,功能整合,个性定制,隐私安全。
功能上,苹果主要围绕文字、图像和交互三个模块,打造了苹果智能的功能。
文字功能主要围绕短信和邮件两个场景展开,用户可以选中一段文字,然后进行各种 AI 优化,包括语法检查、重写,生成总结、要点、列表……用户也可以用自然语言描述自己的改写需求,比如改得更简略一点,将语气变得友善随意或专业一点。
基于这套语言模型,苹果也做了电话录音、转文字、生成总结,以及自动识别短信、邮件内容,将优先级高的内容放到前面显示。苹果会将这类内容标记为「可能重要」。
图像功能则主要是「生成图片」。苹果智能可以自动提取各种场景下的文字作为 prompt,生成图片。比如发短信时根据输入的文字内容生成图片、emoji(苹果将其命名为 genmoji);在 iPad 上根据用户画的草图或写下的文字,提取关键信息生成图片。以及苹果也加入了不少手机厂商已经做了的「照片智能消除」功能,可以将照片里无关的路人抠掉,并自动生成一部分图像填充空白。
最后,也是相对比较关键的,则是对交互的改进。苹果表示 AI 将开启 Siri 的全新时代。Siri 将可以理解更复杂的语言文本,进行更自然的交互,而且 Siri 会自动利用设备上的各种信息来「理解语境」,更好地解读用户的需要。
这部分功能描述起来比较复杂。比如用户不记得自己的身份证号了,问 Siri,Siri 就可以从相册里,找出护照的照片,提取号码,让用户填入。只不过 Siri 能感知的信息将包括日历、备忘录、短信、邮件等等……
除此之外,用户有不知道怎么操作的功能,也可以直接用自然语言描述给 Siri 听,Siri 会帮忙找到对应的操作方法,这也将极大改变用户使用手机的方式。
最后,苹果也将 ChatGPT 整合进了智能系统。在处理文字和使用 Siri 的过程中,如果用户想要调用性能更强的云端模型,可以切换使用 GPT-4o 来生成信息,也可以绑定自己的 GPT Plus 账户,利用其他模型。
02 把 AI 做细
因为 AI 要利用用户最敏感的隐私信息来作为输入,苹果自然会把隐私保护视为重中之重。
苹果智能的模型是跑在设备本地的,苹果没有公布关于这个端侧模型的任何信息,但只有搭载了 A17 Pro 芯片的 iPhone 15 Pro 系列,以及 M1 以上芯片的 Mac 和 iPad 才支持苹果 AI,可见它对芯片 NPU 的性能要求很高。
但苹果 AI 依然无法做到 100% 的本地运行,在需要的时候,它也会利用云端算力来进行处理。苹果表示,这部分处理的过程中,不会留存任何用户数据,只会在处理用户主动请求时上传信息,并且通过可验证的隐私机制来保证安全,苹果将这套系统称为「私密云计算」(Private Cloud Compute)。
至于调用 GPT 的部分,苹果会在用户选择调用 GPT 之前进行询问确认,并会提示 GPT 返回的结果不一定事实正确。
所以,苹果 AI 可以分为苹果自研的端侧模型、云端模型加上 GPT 三套系统,这套架构本身并不复杂,但依然有很多细节问题悬而未决。
比如其中最重要的,就是 AI 要如何利用第三方 App 的问题。目前苹果已经公布了第一批 AI 配套的开发工具,开发者可以利用接口,将自己 App 的功能接入到 AI 系统里。这种开发模式有点类似于过去的「快捷指令」,实际上开发者,特别是那些大公司,最终可能并不会很积极地进行适配。
举一个例子,想要通过苹果的 AI 搜索 iMessage 里的某一条聊天记录、图片可能很方便,从 AI 上线第一天就能有很好的支持。但如果用户在记日历的时候,问 Siri 昨天某某同事在飞书、微信上跟他约好的时间是几点,AI 系统很可能就无法顺利获取这部分信息。
类似的问题还体现在,这些「私人信息」要如何跨设备流转?比如用户在 Mac 上想要问 Siri 过去几天的运动状况,而运动健康信息是储存在 iPhone 上的。目前苹果没有公布任何跨设备的信息流转机制,所以很可能就无法获取这部分信息。
大模型最大的革命之处,就在于它拥有一个「完整的知识库」。
因为这个知识库几乎无所不包,所以才体现为大模型能力的涌现,让人感觉无论你问它什么,怎么问,它总能给出答案。而要把这套系统搬到手机上,将用户的全部个人信息整合成一个「知识库」,供用户随时获取,但同时又要保证隐私安全,这在产品设计和逻辑上将会是巨大挑战。
任何产品想要突破使用率的瓶颈走向普及,就一定要保证交互的成功率,用户在得到自己想要的东西。就像语音助手过去从未真正普及的主要原因还是交互的失败率太高,而到了 AI 的时代,它依然要面临同样的问题。
苹果在 AI 上,才刚刚打了一个地基。
03 国内用户能期待什么?
根据苹果公布的信息,Apple Intelligence 第一批将仅支持英语,且也要等到秋季才会推送测试版本。目前已经推送的第一波开发者版本的新系统,尚未搭载苹果的 AI。
苹果表示明年会加入更多功能、语言和平台。大概率是在苹果 AI 的这套系统里,GPT 最终像 Safari 搜索引擎一样,可以被替换。此前有消息曝出苹果与百度正在就大模型接口的合作进行沟通,应该替换的就是这一部分。
而苹果 AI 真正核心的端侧模型和云端模型,既然都是苹果自研,只要能通过国内的合规流程,国内用户依然有较大希望能顺利用上。
利用模型能力,颠覆计算设备的交互界面,并重构个人的数据组织结构,这是自大模型诞生之初就存在的想象。但大多数做模型和应用的公司,都很难染指计算设备的核心系统,包括过程中的隐私安全问题也让苹果这样的厂商不得不保持万分谨慎。
但现在,无论如何,这艘大船已经起航。
编辑/Somer
來源:極客公園
作者:Jesse
蘋果,終於曝光了在 AI 方面的進展。
與上個月谷歌在I/O的發佈會上,一共提起了AI這個詞121次不同,當地時間6月10日,蘋果在WWDC24的前一個小時裏,幾乎一次AI都沒有提到。儘管這場WWDC發佈會,早已註定要聚焦於AI。
直到發佈會進度過半,蘋果才終於端出了這道主菜,Apple Intelligence。雖然同樣可以簡寫爲 AI,但蘋果最終選擇將自己的 AI 命名爲「蘋果智能」。介紹時,庫克特別強調他們想要打造的,是超越「人工智能」(Artificial Intelligence)的「個人智能」(Personal Intelligence)。
與其他大模型「大力出奇跡」的發展理念不同,蘋果在打造自己的 AI 時,採用了相對謹慎,顆粒度也更細的開發模式,各項功能定義得更加明確清晰,但也顯得不那麼「神奇」。
發佈會上,蘋果官宣了與 OpenAI 的合作。用戶將可以通過 Siri,直接調用 GPT-4o 的接口來進行對話,但並沒有將 GPT 與手機功能做更深的結合。
無論如何,蘋果代表的,是十億級的移動設備用戶,最高頻的使用場景。這可能是 AI 真正變得「有用」的開端。
01 蘋果智能是什麼?
將 AI 與智能手機結合,早已不是新鮮事,蘋果所採取的思路,與一衆 Android 廠商,依然是類似的。
簡單來說,手機廠商要把 AI 的輸入端,從用戶輸入 prompt,改造成模型主動感知手機上「正在發生的一切」作爲 prompt。同時也把 AI 的輸出端,從單純的輸出信息,變成調用 App,實現各種行爲功能。
蘋果用了 5 個詞來總結 AI 的特性:性能強勁,直覺易用,功能整合,個性定製,隱私安全。
功能上,蘋果主要圍繞文字、圖像和交互三個模塊,打造了蘋果智能的功能。
文字功能主要圍繞短信和郵件兩個場景展開,用戶可以選中一段文字,然後進行各種 AI 優化,包括語法檢查、重寫,生成總結、要點、列表……用戶也可以用自然語言描述自己的改寫需求,比如改得更簡略一點,將語氣變得友善隨意或專業一點。
基於這套語言模型,蘋果也做了電話錄音、轉文字、生成總結,以及自動識別短信、郵件內容,將優先級高的內容放到前面顯示。蘋果會將這類內容標記爲「可能重要」。
圖像功能則主要是「生成圖片」。蘋果智能可以自動提取各種場景下的文字作爲 prompt,生成圖片。比如發短信時根據輸入的文字內容生成圖片、emoji(蘋果將其命名爲 genmoji);在 iPad 上根據用戶畫的草圖或寫下的文字,提取關鍵信息生成圖片。以及蘋果也加入了不少手機廠商已經做了的「照片智能消除」功能,可以將照片裏無關的路人摳掉,並自動生成一部分圖像填充空白。
最後,也是相對比較關鍵的,則是對交互的改進。蘋果表示 AI 將開啓 Siri 的全新時代。Siri 將可以理解更復雜的語言文本,進行更自然的交互,而且 Siri 會自動利用設備上的各種信息來「理解語境」,更好地解讀用戶的需要。
這部分功能描述起來比較複雜。比如用戶不記得自己的身份證號了,問 Siri,Siri 就可以從相冊裏,找出護照的照片,提取號碼,讓用戶填入。只不過 Siri 能感知的信息將包括日曆、備忘錄、短信、郵件等等……
除此之外,用戶有不知道怎麼操作的功能,也可以直接用自然語言描述給 Siri 聽,Siri 會幫忙找到對應的操作方法,這也將極大改變用戶使用手機的方式。
最後,蘋果也將 ChatGPT 整合進了智能系統。在處理文字和使用 Siri 的過程中,如果用戶想要調用性能更強的雲端模型,可以切換使用 GPT-4o 來生成信息,也可以綁定自己的 GPT Plus 帳户,利用其他模型。
02 把 AI 做細
因爲 AI 要利用用戶最敏感的隱私信息來作爲輸入,蘋果自然會把隱私保護視爲重中之重。
蘋果智能的模型是跑在設備本地的,蘋果沒有公佈關於這個端側模型的任何信息,但只有搭載了 A17 Pro 芯片的 iPhone 15 Pro 系列,以及 M1 以上芯片的 Mac 和 iPad 才支持蘋果 AI,可見它對芯片 NPU 的性能要求很高。
但蘋果 AI 依然無法做到 100% 的本地運行,在需要的時候,它也會利用雲端算力來進行處理。蘋果表示,這部分處理的過程中,不會留存任何用戶數據,只會在處理用戶主動請求時上傳信息,並且通過可驗證的隱私機制來保證安全,蘋果將這套系統稱爲「私密雲計算」(Private Cloud Compute)。
至於調用 GPT 的部分,蘋果會在用戶選擇調用 GPT 之前進行詢問確認,並會提示 GPT 返回的結果不一定事實正確。
所以,蘋果 AI 可以分爲蘋果自研的端側模型、雲端模型加上 GPT 三套系統,這套架構本身並不複雜,但依然有很多細節問題懸而未決。
比如其中最重要的,就是 AI 要如何利用第三方 App 的問題。目前蘋果已經公佈了第一批 AI 配套的開發工具,開發者可以利用接口,將自己 App 的功能接入到 AI 系統裏。這種開發模式有點類似於過去的「快捷指令」,實際上開發者,特別是那些大公司,最終可能並不會很積極地進行適配。
舉一個例子,想要通過蘋果的 AI 搜索 iMessage 裏的某一條聊天記錄、圖片可能很方便,從 AI 上線第一天就能有很好的支持。但如果用戶在記日曆的時候,問 Siri 昨天某某同事在飛書、微信上跟他約好的時間是幾點,AI 系統很可能就無法順利獲取這部分信息。
類似的問題還體現在,這些「私人信息」要如何跨設備流轉?比如用戶在 Mac 上想要問 Siri 過去幾天的運動狀況,而運動健康信息是儲存在 iPhone 上的。目前蘋果沒有公佈任何跨設備的信息流轉機制,所以很可能就無法獲取這部分信息。
大模型最大的革命之處,就在於它擁有一個「完整的知識庫」。
因爲這個知識庫幾乎無所不包,所以才體現爲大模型能力的湧現,讓人感覺無論你問它什麼,怎麼問,它總能給出答案。而要把這套系統搬到手機上,將用戶的全部個人信息整合成一個「知識庫」,供用戶隨時獲取,但同時又要保證隱私安全,這在產品設計和邏輯上將會是巨大挑戰。
任何產品想要突破使用率的瓶頸走向普及,就一定要保證交互的成功率,用戶在得到自己想要的東西。就像語音助手過去從未真正普及的主要原因還是交互的失敗率太高,而到了 AI 的時代,它依然要面臨同樣的問題。
蘋果在 AI 上,才剛剛打了一個地基。
03 國內用戶能期待什麼?
根據蘋果公佈的信息,Apple Intelligence 第一批將僅支持英語,且也要等到秋季才會推送測試版本。目前已經推送的第一波開發者版本的新系統,尚未搭載蘋果的 AI。
蘋果表示明年會加入更多功能、語言和平台。大概率是在蘋果 AI 的這套系統裏,GPT 最終像 Safari 搜索引擎一樣,可以被替換。此前有消息曝出蘋果與百度正在就大模型接口的合作進行溝通,應該替換的就是這一部分。
而蘋果 AI 真正核心的端側模型和雲端模型,既然都是蘋果自研,只要能通過國內的合規流程,國內用戶依然有較大希望能順利用上。
利用模型能力,顛覆計算設備的交互界面,並重構個人的數據組織結構,這是自大模型誕生之初就存在的想象。但大多數做模型和應用的公司,都很難染指計算設備的核心繫統,包括過程中的隱私安全問題也讓蘋果這樣的廠商不得不保持萬分謹慎。
但現在,無論如何,這艘大船已經起航。
編輯/Somer