蘋果AI終於來了！從2.7到30億四款大模型代碼全開源，AI技術持續“狂飆”｜鈦媒體AGI

鈦媒體 · 04/25 09:18

（图片来源：Apple官网）

苹果公司突然公布了一则大新闻。

北京时间4月25日凌晨，苹果在 Hugging Face 平台上发布一个“具有开源训练和推理框架的高效语言模型”，名为 OpenELM。

据了解，OpenELM有四种尺寸：2.7亿、4.5亿、11亿和30亿个参数版本，定位于超小规模模型，而微软Phi-3模型为38亿。这种小模型运行成本更低，可在手机和笔记本电脑等设备上运行。

同时，在WWDC24开发者大会之前，苹果彻底开源了OpenELM模型权重和推理代码，数据集和训练日志等。而且，苹果还开源了神经网络库CoreNet。

早在今年2月，苹果公司CEO蒂姆·库克（TimCook）就表示，苹果生成式 AI 功能将于“今年晚些时候”推出，有消息称即将在6月发布iOS 18可能是苹果iOS史上“最大”的更新，而9月也将推出首款AI iPhone设备。

如今，苹果似乎在新一轮AI浪潮快到尾声的时刻追赶上了行业脚步。

预训练tokens数量减一半，11亿参数苹果模型效果却比竞品更精准

随着ChatGPT风靡全球，近几个月来，三星、谷歌、小米等手机厂商全面推进大语言模型在手机、平板等端侧上的使用，包括照片处理、文字处理增强等，并形成一大卖点。而苹果很少透露并极少有类似的自带功能，主要是用第三方工具做到类似效果。

今年2月财报会议上，库克首次公布生成式 AI 计划，并将在今年晚些时候将 AI 技术集成到其软件平台（iOS、iPadOS 和 macOS）中。

库克表示，“我只想说，我认为苹果在生成式 AI 和 AI 方面存在着巨大的机会，无需透露更多细节，也无需超出自己的预期。展望未来，我们将继续投资于这些和其他将塑造未来的技术。其中包括 AI，我们继续在 AI 领域花费大量时间和精力，我们很高兴能在今年晚些时候分享我们在该领域正在进行的工作的细节。我们对此非常兴奋。”

实际上，自年初至今，苹果在生成式 AI 领域动作不断。今年3月，苹果技术团队发表论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》，首次披露苹果大模型MM1，涵盖300亿参数、支持多模态、支持MoE架构，超半数作者属于华人。

如今，针对手机、平板等端侧领域，苹果真正的开源模型终于来了。

据论文显示，苹果开源了大语言模型OpenELM，有指令微调和预训练两种模型版本，共有2.7亿、4.5亿、11亿和30亿4种参数，提供生成文本、代码、翻译、总结摘要等功能。

虽然最小的参数只有2.7亿，但苹果使用了包括RefinedWeb、去重的PILE、RedPajama的子集和Dolma v1.6的子集在内的公共数据集，一共约1.8万亿tokens数据进行了预训练，这也是其能以小参数表现出超强性能的主要原因之一。

例如，11亿参数的OpenELM，比12亿参数的OLMo模型的准确率高出2.36%，而使用的预训练数据却只有OLMo的一半。

在训练流程中，苹果采用了CoreNet作为训练框架，并使用了Adam优化算法进行了35万次迭代训练。而苹果的MobileOne、CVNets、MobileViT、FastVit等知名研究都是基于CoreNet完成的。

苹果在论文中还表示，与以往只提供模型权重和推理代码并在私有数据集上进行预训练的做法不同，苹果发布的版本包含了在公开数据集上训练和评估语言模型的完整框架，包括训练日志、多个检查点和预训练配置。同时，苹果还发布将模型转换为 MLX 库的代码，以便在苹果设备上进行推理和微调。

“此次全面发布旨在增强和巩固开放研究社区，为未来的开放研究工作铺平道路。”苹果研究团队表示。

此外，OpenELM不使用任何全连接层中的可学习偏置参数，采用RMSNorm进行预归一化，并使用旋转位置嵌入编码位置信息。OpenELM还通过分组查询注意力代替多头注意力，用SwiGLU FFN替换了传统的前馈网络，并使用了Flash注意力来计算缩放点积注意力，能以更少的资源来进行训练和推理。同，苹果使用了动态分词和数据过滤的方法，实现了实时过滤和分词，从而简化了实验流程并提高了灵活性。还使用了与Meta的Llama相同的分词器，以确保实验的一致性。

这次，苹果很有诚意将代码开源，一开到底，把所有内容都贡献出来了。仅1天多的时间，该模型GitHub平台上就获得超过1100颗星。

而目前，大模型领域主要分为开源和闭源两大阵营，国内外知名闭源的代表企业有OpenAI、Anthropic、谷歌、Midjourney、百度、出门问问等；开源阵营有Meta、微软、谷歌、商汤、百川智能、零一万物等。

苹果作为手机闭源领域的领导者，此次却罕见地加入开源大模型阵营。有分析认为，这可能在效仿谷歌的方式先通过开源拉拢用户，再用闭源产品去实现商业化营利。

同时，这也表明苹果进军 AI 大模型领域的坚定决心。

作为同为端侧模型、开源模型企业，商汤科技联合创始人、首席科学家王晓刚近期对钛媒体App表示，开源还是对于整个社区的发展还是非常重要的，是一个重要驱动力。最终大模型的发展包括各种应用，还是要整个社区共同去推动的。对于大模型的应用也分为不同的层次，这么多行业对应用的需求也是不一样的，丰富的开源社区非常重要。

AI 技术持续“狂飙”，OpenAI获得了全球第一块DGX H200

不止是苹果，今天凌晨，国内外 AI 技术依然“狂飙”，相关消息满天飞。

今晨，OpenAI联合创始人、COO Greg Brockman发推文表示，英伟达向该公司移交全球范围内第一块DGX H200，此举旨在“推进人工智能、计算技术与人类的发展”。

同时，他也发布了一张合影，还包括英伟达CEO黄仁勋、OpenAI CEO奥尔特曼（Sam Altman），看起来三人非常开心。

早在2016年，OpenAI刚成立不久，黄仁勋便亲自将全球首台装备了8块英伟达P100芯片的超级计算机DGX-1送到了OpenAI的办公室。

这台价值逾百万美元的DGX-1，是黄仁勋带领英伟达3000名员工，历时三年精心打造的成果。它极大地提升了OpenAI的计算能力，将原本需要一年的训练时间缩短至仅一个月。

当时，OpenAI还处于一个初创阶段的非营利机构，这台超级计算机无疑是一份极具分量的礼物。马斯克、Sam Altman以及其他早期员工对此感到无比激动，纷纷在这台DGX-1上留下了自己的签名。

2023年11月13日，英伟达发布了新一代AI GPU——NVIDIA Grace Hopper H200超级芯片，其内存容量和带宽分别是H100的两倍和1.4倍，最高支持19.5TB，AI 性能达128 petaFLOPS FP8，预计2024年第二季度开始供货。

黄仁勋称，这是拥有万亿规模的新型 AI 超级计算机，为巨型 AI 模型提供具有线性可扩展性的海量共享内存空间，能够在生成式 AI 时代发挥巨大潜力。

如今，黄仁勋亲手将全球第一块DGX H200送给了OpenAI。

同时，据CTech报道，英伟达以约7亿美元收购了以色列AI基础设施编排和管理服务Run:ai，据悉，Run:ai成立于2018 年，迄今已筹集1.18亿美元，同时英伟达还收购了Deci公司。

另外，今天凌晨，拥有全球首个 AI 代码工程师的背后企业Cognition被曝完成了一轮1.75亿美元的融资，由Founders Fund 领投，仅仅一个月内，公司估值从3.5亿美元增长到20亿美元，引发关注。

Gartner分析师John-David Lovelock表示，随着Anthropic、OpenAI 等第一梯队的玩家占据主导地位，AI投资范围正在“向外延展”（spreading out）。

“数十亿美元的投资数量已经放缓，而且几乎已经结束；热钱涌向了新方向——AI 应用。”上述分析师表示，“大模型需要大量投资，但市场现在更多地受到科技公司的影响，这些公司将利用现有的 AI 产品、服务和产品来构建新产品。”

Greylock合伙人Seth Rosenberg认为，人们对于资助AI领域的“大批新玩家”的兴趣本来就较很小。在这个周期的早期阶段，投资基础模型资本非常密集，相比之下，AI 应用和智能体所需的资本较低，这可能是绝对美元融资额下降的原因。

Thomvest Ventures 董事总经理 Umesh Padval 将 AI整体投资的缩减，归因于增长低于预期。他表示，最初的热情已经让位于现实—— AI 面临一部分技术挑战，一部分上市挑战，可能需要数年时间才能解决并完全克服。

”AI 投资放缓反映出人们认识到，我们仍在探索 AI 技术发展及其在各行业应用的早期阶段。虽然长期市场潜力仍然巨大，但最初的热情已被在实际应用中推广 AI 技术的复杂性和挑战所削弱……这表明投资环境更加成熟和敏锐。“Umesh Padval表示。

如今，AI 持续“狂飙”，但整个市场方向已快速转变，端侧模型、AI 应用、行业大模型等都将成为今年整个 AI 领域新趋势。

（本文首发于钛媒体App，作者｜林志佳，编辑｜胡润峰）

（圖片來源：Apple官網）

蘋果公司突然公佈了一則大新聞。

北京時間4月25日凌晨，蘋果在 Hugging Face 平台上發佈一個“具有開源訓練和推理框架的高效語言模型”，名爲 OpenELM。

據了解，OpenELM有四種尺寸：2.7億、4.5億、11億和30億個參數版本，定位於超小規模模型，而微軟Phi-3模型爲38億。這種小模型運行成本更低，可在手機和筆記本電腦等設備上運行。

同時，在WWDC24開發者大會之前，蘋果徹底開源了OpenELM模型權重和推理代碼，數據集和訓練日誌等。而且，蘋果還開源了神經網絡庫CoreNet。

早在今年2月，蘋果公司CEO蒂姆·庫克（TimCook）就表示，蘋果生成式 AI 功能將於“今年晚些時候”推出，有消息稱即將在6月發佈iOS 18可能是蘋果iOS史上“最大”的更新，而9月也將推出首款AI iPhone設備。

如今，蘋果似乎在新一輪AI浪潮快到尾聲的時刻追趕上了行業腳步。

預訓練tokens數量減一半，11億參數蘋果模型效果卻比競品更精準

隨着ChatGPT風靡全球，近幾個月來，三星、谷歌、小米等手機廠商全面推進大語言模型在手機、平板等端側上的使用，包括照片處理、文字處理增強等，並形成一大賣點。而蘋果很少透露並極少有類似的自帶功能，主要是用第三方工具做到類似效果。

今年2月業績會議上，庫克首次公佈生成式 AI 計劃，並將在今年晚些時候將 AI 技術集成到其軟件平台（iOS、iPadOS 和 macOS）中。

庫克表示，“我只想說，我認爲蘋果在生成式 AI 和 AI 方面存在着巨大的機會，無需透露更多細節，也無需超出自己的預期。展望未來，我們將繼續投資於這些和其他將塑造未來的技術。其中包括 AI，我們繼續在 AI 領域花費大量時間和精力，我們很高興能在今年晚些時候分享我們在該領域正在進行的工作的細節。我們對此非常興奮。”

實際上，自年初至今，蘋果在生成式 AI 領域動作不斷。今年3月，蘋果技術團隊發表論文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》，首次披露蘋果大模型MM1，涵蓋300億參數、支持多模態、支持MoE架構，超半數作者屬於華人。

如今，針對手機、平板等端側領域，蘋果真正的開源模型終於來了。

據論文顯示，蘋果開源了大語言模型OpenELM，有指令微調和預訓練兩種模型版本，共有2.7億、4.5億、11億和30億4種參數，提供生成文本、代碼、翻譯、總結摘要等功能。

雖然最小的參數只有2.7億，但蘋果使用了包括RefinedWeb、去重的PILE、RedPajama的子集和Dolma v1.6的子集在內的公共數據集，一共約1.8萬億tokens數據進行了預訓練，這也是其能以小參數表現出超強性能的主要原因之一。

例如，11億參數的OpenELM，比12億參數的OLMo模型的準確率高出2.36%，而使用的預訓練數據卻只有OLMo的一半。

在訓練流程中，蘋果採用了CoreNet作爲訓練框架，並使用了Adam優化算法進行了35萬次迭代訓練。而蘋果的MobileOne、CVNets、MobileViT、FastVit等知名研究都是基於CoreNet完成的。

蘋果在論文中還表示，與以往只提供模型權重和推理代碼並在私有數據集上進行預訓練的做法不同，蘋果發佈的版本包含了在公開數據集上訓練和評估語言模型的完整框架，包括訓練日誌、多個檢查點和預訓練配置。同時，蘋果還發布將模型轉換爲 MLX 庫的代碼，以便在蘋果設備上進行推理和微調。

“此次全面發佈旨在增強和鞏固開放研究社區，爲未來的開放研究工作鋪平道路。”蘋果研究團隊表示。

此外，OpenELM不使用任何全連接層中的可學習偏置參數，採用RMSNorm進行預歸一化，並使用旋轉位置嵌入編碼位置信息。OpenELM還通過分組查詢注意力代替多頭注意力，用SwiGLU FFN替換了傳統的前饋網絡，並使用了Flash注意力來計算縮放點積注意力，能以更少的資源來進行訓練和推理。同，蘋果使用了動態分詞和數據過濾的方法，實現了實時過濾和分詞，從而簡化了實驗流程並提高了靈活性。還使用了與Meta的Llama相同的分詞器，以確保實驗的一致性。

這次，蘋果很有誠意將代碼開源，一開到底，把所有內容都貢獻出來了。僅1天多的時間，該模型GitHub平台上就獲得超過1100顆星。

而目前，大模型領域主要分爲開源和閉源兩大陣營，國內外知名閉源的代表企業有OpenAI、Anthropic、谷歌、Midjourney、百度、出門問問等；開源陣營有Meta、微軟、谷歌、商湯、百川智能、零一萬物等。

蘋果作爲手機閉源領域的領導者，此次卻罕見地加入開源大模型陣營。有分析認爲，這可能在效仿谷歌的方式先通過開源拉攏用戶，再用閉源產品去實現商業化營利。

同時，這也表明蘋果進軍 AI 大模型領域的堅定決心。

作爲同爲端側模型、開源模型企業，商湯科技聯合創始人、首席科學家王曉剛近期對鈦媒體App表示，開源還是對於整個社區的發展還是非常重要的，是一個重要驅動力。最終大模型的發展包括各種應用，還是要整個社區共同去推動的。對於大模型的應用也分爲不同的層次，這麼多行業對應用的需求也是不一樣的，豐富的開源社區非常重要。

AI 技術持續“狂飆”，OpenAI獲得了全球第一塊DGX H200

不止是蘋果，今天凌晨，國內外 AI 技術依然“狂飆”，相關消息滿天飛。

今晨，OpenAI聯合創始人、COO Greg Brockman發推文表示，英偉達向該公司移交全球範圍內第一塊DGX H200，此舉旨在“推進人工智能、計算技術與人類的發展”。

同時，他也發佈了一張合影，還包括英偉達CEO黃仁勳、OpenAI CEO奧爾特曼（Sam Altman），看起來三人非常開心。

早在2016年，OpenAI剛成立不久，黃仁勳便親自將全球首臺裝備了8塊英偉達P100芯片的超級計算機DGX-1送到了OpenAI的辦公室。

這臺價值逾百萬美元的DGX-1，是黃仁勳帶領英偉達3000名員工，歷時三年精心打造的成果。它極大地提升了OpenAI的計算能力，將原本需要一年的訓練時間縮短至僅一個月。

當時，OpenAI還處於一個初創階段的非營利機構，這臺超級計算機無疑是一份極具分量的禮物。馬斯克、Sam Altman以及其他早期員工對此感到無比激動，紛紛在這臺DGX-1上留下了自己的簽名。

2023年11月13日，英偉達發佈了新一代AI GPU——NVIDIA Grace Hopper H200超級芯片，其內存容量和帶寬分別是H100的兩倍和1.4倍，最高支持19.5TB，AI 性能達128 petaFLOPS FP8，預計2024年第二季度開始供貨。

黃仁勳稱，這是擁有萬億規模的新型 AI 超級計算機，爲巨型 AI 模型提供具有線性可擴展性的海量共享內存空間，能夠在生成式 AI 時代發揮巨大潛力。

如今，黃仁勳親手將全球第一塊DGX H200送給了OpenAI。

同時，據CTech報道，英偉達以約7億美元收購了以色列AI基礎設施編排和管理服務Run:ai，據悉，Run:ai成立於2018 年，迄今已籌集1.18億美元，同時英偉達還收購了Deci公司。

另外，今天凌晨，擁有全球首個 AI 代碼工程師的背後企業Cognition被曝完成了一輪1.75億美元的融資，由Founders Fund 領投，僅僅一個月內，公司估值從3.5億美元增長到20億美元，引發關注。

Gartner分析師John-David Lovelock表示，隨着Anthropic、OpenAI 等第一梯隊的玩家佔據主導地位，AI投資範圍正在“向外延展”（spreading out）。

“數十億美元的投資數量已經放緩，而且幾乎已經結束；熱錢湧向了新方向——AI 應用。”上述分析師表示，“大模型需要大量投資，但市場現在更多地受到科技公司的影響，這些公司將利用現有的 AI 產品、服務和產品來構建新產品。”

Greylock合夥人Seth Rosenberg認爲，人們對於資助AI領域的“大批新玩家”的興趣本來就較很小。在這個週期的早期階段，投資基礎模型資本非常密集，相比之下，AI 應用和智能體所需的資本較低，這可能是絕對美元融資額下降的原因。

Thomvest Ventures 董事總經理 Umesh Padval 將 AI整體投資的縮減，歸因於增長低於預期。他表示，最初的熱情已經讓位於現實—— AI 面臨一部分技術挑戰，一部分上市挑戰，可能需要數年時間才能解決並完全克服。

”AI 投資放緩反映出人們認識到，我們仍在探索 AI 技術發展及其在各行業應用的早期階段。雖然長期市場潛力仍然巨大，但最初的熱情已被在實際應用中推廣 AI 技術的複雜性和挑戰所削弱……這表明投資環境更加成熟和敏銳。“Umesh Padval表示。

如今，AI 持續“狂飆”，但整個市場方向已快速轉變，端側模型、AI 應用、行業大模型等都將成爲今年整個 AI 領域新趨勢。

（本文首發於鈦媒體App，作者｜林志佳，編輯｜胡潤峯）

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

苹果AI终于来了！从2.7到30亿四款大模型代码全开源，AI技术持续“狂飙”｜钛媒体AGI

蘋果AI終於來了！從2.7到30億四款大模型代碼全開源，AI技術持續“狂飆”｜鈦媒體AGI

预训练tokens数量减一半，11亿参数苹果模型效果却比竞品更精准

AI 技术持续“狂飙”，OpenAI获得了全球第一块DGX H200

預訓練tokens數量減一半，11億參數蘋果模型效果卻比競品更精準

AI 技術持續“狂飆”，OpenAI獲得了全球第一塊DGX H200

風險及免責聲明

聲明