DeepSeek驚豔全球，美國大模型兩巨頭齊發聲：並不比我們先進

来源：华尔街见闻

Anthropic CEO阿莫迪认为DeepSeek的训练成本降低符合行业趋势，并不代表突破性的技术成就：假设AI训练成本的下降趋势是每年4 倍，如果DeepSeek-V3的训练成本比一年前开发的美国当前模型低约8倍，那其实完全符合正常趋势......即使接受 DeepSeek 的训练成本数据，他们也只是处于趋势线上，甚至可能还未完全达到。

DeepSeek R1的横空出世给全球AI行业带来了新的变数。面对冲击，美国两大AI巨头Anthropic与OpenAI迅速做出回应，试图淡化市场对其技术领先地位的担忧。

周三，Anthropic 首席执行官达里奥·阿莫迪 (Dario Amodei) 发布了一篇长文讨论了DeepSeek的进展，他指出DeepSeek 并没有“用 600 万美元做到美国 AI 公司花费数十亿美元才能实现的事情”。以 Anthropic 为例，Claude 3.5 Sonnet 是一个中等规模的模型，训练成本达数千万美元，远不是数十亿美元级别。

他认为DeepSeek的训练成本降低符合行业趋势，并不代表突破性的技术成就：

如果 AI 训练成本的下降趋势是每年 4 倍，如果 DeepSeek-V3 的训练成本比一年前开发的美国当前模型低约 8 倍，那其实完全符合正常趋势......即使接受 DeepSeek 的训练成本数据，他们也只是处于趋势线上，甚至可能还未完全达到。

此前一天，OpenAI首席研究员Mark Chen也对DeepSeek R1做出回应，其态度既肯定又带有一丝微妙。

Chen承认DeepSeek"独立发现了OpenAI在o1模型研发过程中的一些核心理念"，然而，Chen随即将焦点转移到成本问题上，认为"外界对成本优势的解读有些过头"。

但纽约大学教授、AI专家Gary Marcus认为，DeepSeek对OpenAI的影响可能比想象中更大。

Anthropic CEO：DeepSeek并未打破行业趋势

阿莫迪先系统拆解了AI发展的三大定律：

规模法则

AI 的一个核心特性是规模驱动性能提升。我和我的联合创始人在 OpenAI 工作时，曾是最早记录这一特性的人之一。在其他条件相同的情况下，训练规模越大，AI 在一系列认知任务上的表现越稳定、越出色。例如，100 万美元训练的模型可能能解决 20% 的关键编码任务，而 1000 万美元的模型可能达到 40%，1 亿美元的模型则可能提高到 60%。这种差距往往极具实际影响——再增加 10 倍的计算量，可能意味着从本科生的水平跃升至博士生的能力。因此，各公司正投入巨额资金训练更大规模的模型。

计算成本的下降

AI 领域不断涌现新的优化思路，使模型训练更高效。这可能是架构上的改进（例如对 Transformer 的优化），也可能是底层硬件的效率提升。这些创新会降低训练成本：如果某项技术创新带来 2 倍的计算效率提升，那么本需要 1000 万美元的训练任务，如今只需 500 万美元即可完成。

每家前沿 AI 公司都在不断发现这样的优化方案，通常提升幅度为 1.2 倍，有时是 2 倍，偶尔甚至能达到 10 倍。由于更智能的 AI 价值极高，成本效率的提升几乎总是被用于训练更强的模型，而不是降低总支出——换句话说，公司只会在更大的规模上投入更多资源。

从历史趋势来看，由于算法和硬件的改进，AI 训练的计算成本每年下降约 4 倍。这意味着，仅靠行业的正常发展，2024 年训练一个模型的成本，理应比 2023 年低 3 到 4 倍。

同时，训练成本的下降也带动了推理成本的下降。比如，Claude 3.5 Sonnet 相较 GPT-4 晚了 15 个月发布，但几乎在所有基准测试中都胜出，同时 API 价格也下降了约 10 倍。

训练范式的变化

AI 训练方法也在不断演变。从 2020 年到 2023 年，行业的主要扩展方式是增加预训练规模，即在海量互联网文本上训练模型，然后辅以少量额外训练。而 2024 年，强化学习（RL）训练成为了新的关键突破口。这一方法显著提升了 AI 在数学、编程竞赛等推理任务上的表现。例如，OpenAI 在 9 月发布的 o1-preview 模型，就采用了这一技术。

我们仍处于 RL 训练扩展的早期阶段。现阶段，即便只额外投入 100 万美元进行 RL 训练，也能带来巨大收益。公司们正加速扩大 RL 训练规模，但目前 AI 仍处于一个独特的拐点——这意味着只要起点足够强，短期内多个公司都能推出性能相近的模型。

阿莫迪指出以上三点有助于理解 DeepSeek 最近的发布。大约一个月前，DeepSeek 推出了 DeepSeek-V3，一个仅进行预训练的模型。随后，上周他们发布了 R1，加入了第二阶段的强化学习训练。

阿莫迪表示，DeepSeek-V3 其实是一个值得关注的创新。作为预训练模型，它在某些任务上接近了美国最先进模型的性能，同时训练成本显著降低，尽管在现实世界任务，如编码能力等方面，Claude 3.5 Sonnet 仍遥遥领先。DeepSeek 团队在键值缓存管理和专家混合架构等方面做出了一些真正出色的工程优化。

但阿莫迪认为，有几点需要澄清：

DeepSeek 并没有“用 600 万美元做到美国 AI 公司花费数十亿美元才能实现的事情”。以 Anthropic 为例，Claude 3.5 Sonnet 是一个中等规模的模型，训练成本达数千万美元，远不是数十亿美元级别。并且，Claude 3.5 Sonnet 训练于 9-12 个月前，而 DeepSeek 的模型训练于 2023 年 11 月至 12 月，即便如此，Claude 3.5 Sonnet 在多个关键评估中仍明显领先。
DeepSeek 的训练成本并未突破行业趋势。如果成本曲线下降的历史趋势是每年约 4 倍，那么按照正常业务发展——即 2023 年和 2024 年的成本下降趋势——我们现在应该会看到一个比 3.5 Sonnet/GPT-4 便宜 3 到 4 倍的模型。然而，DeepSeek-V3 的性能比这些美国前沿模型差一些——假设在扩展曲线上差约 2 倍，这已经是对 DeepSeek-V3 相当慷慨的估计了——这意味着，如果 DeepSeek-V3 的训练成本比一年前开发的美国当前模型低约 8 倍，那其实完全符合正常趋势。我虽不便给出确切数字，但从前面的分析可以看出，即使接受 DeepSeek 的训练成本数据，他们也只是处于趋势线上，甚至可能还未完全达到。比如，这比原始 GPT-4 到 Claude 3.5 Sonnet 的推理价格差异（10 倍）要小，而且 3.5 Sonnet 本身也是一个比 GPT-4 更好的模型。这些都表明，DeepSeek-V3 并非独特的突破，也没有从根本上改变 LLM 的经济性，它只是持续成本降低曲线上一个预期的点。不同的是，这次第一个展示预期成本降低的公司是中国的，这在以往从未有过，具有重大的地缘政治意义。不过，美国公司很快也会跟上这一趋势——他们不会通过抄袭 DeepSeek 来实现成本降低，而是因为他们自身也在沿着常规的成本降低趋势发展。
DeepSeek 不是第一个实现成本优化的公司，但它是第一个来自中国的公司。这一点在地缘政治上意义重大。但同样，美国 AI 公司也会很快跟进——并不是通过抄袭 DeepSeek，而是因为它们本就沿着同样的技术路线前进。

此外，阿莫迪指出，DeepSeek 拥有50000 颗 Hopper 代 GPU，估值约 10 亿美元，与主要美国 AI 公司持有的芯片规模相差 2-3 倍。这意味着 DeepSeek 的整体投入并不比美国 AI 实验室少太多。

阿莫迪表示，上周发布的 R1 之所以引发关注（甚至导致英伟达股价下跌 17%），并不是因为它在技术上比 V3 更具创新性。它的强化学习训练本质上只是复制了 OpenAI 在 o1-preview 模型中的做法。由于 AI 训练仍处于 RL 扩展的早期，几家公司目前能产出相似水平的模型，但这一状况不会持续太久，随着扩展规模的扩大，领先者很快会拉开差距

OpenAI高管：外界对成本优势的解读有些过头

OpenAI首席研究员Mark Chen在社交媒体上对DeepSeek的成就表示祝贺：

“祝贺DeepSeek成功研发出o1级推理模型！他们的研究论文表明，他们独立发现了我们在实现o1过程中所采用的一些核心思想”

但Chen随即将焦点转移到成本问题上，认为"外界对成本优势的解读有些过头"。他提出了"双轴优化"（pre-training and reasoning）的概念，暗示OpenAI在成本控制方面同样有能力。

Chen还提到了"蒸馏技术"的成熟和"成本与能力解耦"的趋势，强调OpenAI在模型压缩和优化技术方面的探索。他特别指出，"低成本服务模型（尤其是在较高延迟下）并不意味着拥有更强的模型能力"。

最后，Chen表示OpenAI将继续在"降低成本"和"提升能力"两个方向上"双管齐下"，并承诺"今年会发布更优秀的模型"。

AI专家：DeepSeek对OpenAI构成威胁

纽约大学教授、AI专家Gary Marcus则认为，DeepSeek的出现对OpenAI构成了实质性威胁。

他指出，"DeepSeek基本上免费提供了OpenAI想要收费的东西。"Marcus认为，这可能会严重影响OpenAI的商业模式。

Marcus还强调，DeepSeek比OpenAI更开放，这将吸引更多人才。他质疑OpenAI 1570亿美元的估值，认为在每年损失约50亿美元的情况下，这一估值难以证明合理性。

编辑/jayden

來源：華爾街見聞

Anthropic CEO阿莫迪認爲DeepSeek的訓練成本降低符合行業趨勢，並不代表突破性的技術成就：假設AI訓練成本的下降趨勢是每年4 倍，如果DeepSeek-V3的訓練成本比一年前開發的美國當前模型低約8倍，那其實完全符合正常趨勢......即使接受 DeepSeek 的訓練成本數據，他們也只是處於趨勢線上，甚至可能還未完全達到。

DeepSeek R1的橫空出世給全球AI行業帶來了新的變數。面對衝擊，美國兩大AI巨頭Anthropic與OpenAI迅速做出回應，試圖淡化市場對其技術領先地位的擔憂。

週三，Anthropic 首席執行官達里奧·阿莫迪 (Dario Amodei) 發佈了一篇長文討論了DeepSeek的進展，他指出DeepSeek 並沒有「用 600 萬美元做到美國 AI 公司花費數十億美元才能實現的事情」。以 Anthropic 爲例，Claude 3.5 Sonnet 是一箇中等規模的模型，訓練成本達數千萬美元，遠不是數十億美元級別。

他認爲DeepSeek的訓練成本降低符合行業趨勢，並不代表突破性的技術成就：

如果 AI 訓練成本的下降趨勢是每年 4 倍，如果 DeepSeek-V3 的訓練成本比一年前開發的美國當前模型低約 8 倍，那其實完全符合正常趨勢......即使接受 DeepSeek 的訓練成本數據，他們也只是處於趨勢線上，甚至可能還未完全達到。

此前一天，OpenAI首席研究員Mark Chen也對DeepSeek R1做出回應，其態度既肯定又帶有一絲微妙。

Chen承認DeepSeek"獨立發現了OpenAI在o1模型研發過程中的一些核心理念"，然而，Chen隨即將焦點轉移到成本問題上，認爲"外界對成本優勢的解讀有些過頭"。

但紐約大學教授、AI專家Gary Marcus認爲，DeepSeek對OpenAI的影響可能比想象中更大。

Anthropic CEO：DeepSeek並未打破行業趨勢

阿莫迪先系統拆解了AI發展的三大定律：

規模法則

AI 的一個核心特性是規模驅動性能提升。我和我的聯合創始人在 OpenAI 工作時，曾是最早記錄這一特性的人之一。在其他條件相同的情況下，訓練規模越大，AI 在一系列認知任務上的表現越穩定、越出色。例如，100 萬美元訓練的模型可能能解決 20% 的關鍵編碼任務，而 1000 萬美元的模型可能達到 40%，1 億美元的模型則可能提高到 60%。這種差距往往極具實際影響——再增加 10 倍的計算量，可能意味着從本科生的水平躍升至博士生的能力。因此，各公司正投入巨額資金訓練更大規模的模型。

計算成本的下降

AI 領域不斷湧現新的優化思路，使模型訓練更高效。這可能是架構上的改進（例如對 Transformer 的優化），也可能是底層硬件的效率提升。這些創新會降低訓練成本：如果某項技術創新帶來 2 倍的計算效率提升，那麼本需要 1000 萬美元的訓練任務，如今只需 500 萬美元即可完成。

每家前沿 AI 公司都在不斷髮現這樣的優化方案，通常提升幅度爲 1.2 倍，有時是 2 倍，偶爾甚至能達到 10 倍。由於更智能的 AI 價值極高，成本效率的提升幾乎總是被用於訓練更強的模型，而不是降低總支出——換句話說，公司只會在更大的規模上投入更多資源。

從歷史趨勢來看，由於算法和硬件的改進，AI 訓練的計算成本每年下降約 4 倍。這意味着，僅靠行業的正常發展，2024 年訓練一個模型的成本，理應比 2023 年低 3 到 4 倍。

同時，訓練成本的下降也帶動了推理成本的下降。比如，Claude 3.5 Sonnet 相較 GPT-4 晚了 15 個月發佈，但幾乎在所有基準測試中都勝出，同時 API 價格也下降了約 10 倍。

訓練範式的變化

AI 訓練方法也在不斷演變。從 2020 年到 2023 年，行業的主要擴展方式是增加預訓練規模，即在海量Internet Plus-related文本上訓練模型，然後輔以少量額外訓練。而 2024 年，強化學習（RL）訓練成爲了新的關鍵突破口。這一方法顯著提升了 AI 在數學、編程競賽等推理任務上的表現。例如，OpenAI 在 9 月發佈的 o1-preview 模型，就採用了這一技術。

我們仍處於 RL 訓練擴展的早期階段。現階段，即便只額外投入 100 萬美元進行 RL 訓練，也能帶來巨大收益。公司們正加速擴大 RL 訓練規模，但目前 AI 仍處於一個獨特的拐點——這意味着只要起點足夠強，短期內多個公司都能推出性能相近的模型。

阿莫迪指出以上三點有助於理解 DeepSeek 最近的發佈。大約一個月前，DeepSeek 推出了 DeepSeek-V3，一個僅進行預訓練的模型。隨後，上週他們發佈了 R1，加入了第二階段的強化學習訓練。

阿莫迪表示，DeepSeek-V3 其實是一個值得關注的創新。作爲預訓練模型，它在某些任務上接近了美國最先進模型的性能，同時訓練成本顯著降低，儘管在現實世界任務，如編碼能力等方面，Claude 3.5 Sonnet 仍遙遙領先。DeepSeek 團隊在鍵值緩存管理和專家混合架構等方面做出了一些真正出色的工程優化。

但阿莫迪認爲，有幾點需要澄清：

DeepSeek 並沒有「用 600 萬美元做到美國 AI 公司花費數十億美元才能實現的事情」。以 Anthropic 爲例，Claude 3.5 Sonnet 是一箇中等規模的模型，訓練成本達數千萬美元，遠不是數十億美元級別。並且，Claude 3.5 Sonnet 訓練於 9-12 個月前，而 DeepSeek 的模型訓練於 2023 年 11 月至 12 月，即便如此，Claude 3.5 Sonnet 在多個關鍵評估中仍明顯領先。
DeepSeek 的訓練成本並未突破行業趨勢。如果成本曲線下降的歷史趨勢是每年約 4 倍，那麼按照正常業務發展——即 2023 年和 2024 年的成本下降趨勢——我們現在應該會看到一個比 3.5 Sonnet/GPT-4 便宜 3 到 4 倍的模型。然而，DeepSeek-V3 的性能比這些美國前沿模型差一些——假設在擴展曲線上差約 2 倍，這已經是對 DeepSeek-V3 相當慷慨的估計了——這意味着，如果 DeepSeek-V3 的訓練成本比一年前開發的美國當前模型低約 8 倍，那其實完全符合正常趨勢。我雖不便給出確切數字，但從前面的分析可以看出，即使接受 DeepSeek 的訓練成本數據，他們也只是處於趨勢線上，甚至可能還未完全達到。比如，這比原始 GPT-4 到 Claude 3.5 Sonnet 的推理價格差異（10 倍）要小，而且 3.5 Sonnet 本身也是一個比 GPT-4 更好的模型。這些都表明，DeepSeek-V3 並非獨特的突破，也沒有從根本上改變 LLM 的經濟性，它只是持續成本降低曲線上一個預期的點。不同的是，這次第一個展示預期成本降低的公司是中國的，這在以往從未有過，具有重大的地緣政治意義。不過，美國公司很快也會跟上這一趨勢——他們不會通過抄襲 DeepSeek 來實現成本降低，而是因爲他們自身也在沿着常規的成本降低趨勢發展。
DeepSeek 不是第一個實現成本優化的公司，但它是第一個來自中國的公司。這一點在地緣政治上意義重大。但同樣，美國 AI 公司也會很快跟進——並不是通過抄襲 DeepSeek，而是因爲它們本就沿着同樣的技術路線前進。

此外，阿莫迪指出，DeepSeek 擁有50000 顆 Hopper 代 GPU，估值約 10 億美元，與主要美國 AI 公司持有的芯片規模相差 2-3 倍。這意味着 DeepSeek 的整體投入並不比美國 AI 實驗室少太多。

阿莫迪表示，上週發佈的 R1 之所以引發關注（甚至導致英偉達股價下跌 17%），並不是因爲它在技術上比 V3 更具創新性。它的強化學習訓練本質上只是複製了 OpenAI 在 o1-preview 模型中的做法。由於 AI 訓練仍處於 RL 擴展的早期，幾家公司目前能產出相似水平的模型，但這一狀況不會持續太久，隨着擴展規模的擴大，領先者很快會拉開差距

OpenAI高管：外界對成本優勢的解讀有些過頭

OpenAI首席研究員Mark Chen在社交媒體上對DeepSeek的成就表示祝賀：

「祝賀DeepSeek成功研發出o1級推理模型！他們的研究論文表明，他們獨立發現了我們在實現o1過程中所採用的一些核心思想」

但Chen隨即將焦點轉移到成本問題上，認爲"外界對成本優勢的解讀有些過頭"。他提出了"雙軸優化"（pre-training and reasoning）的概念，暗示OpenAI在成本控制方面同樣有能力。

Chen還提到了"蒸餾技術"的成熟和"成本與能力解耦"的趨勢，強調OpenAI在模型壓縮和優化技術方面的探索。他特別指出，"低成本服務模型（尤其是在較高延遲下）並不意味着擁有更強的模型能力"。

最後，Chen表示OpenAI將繼續在"降低成本"和"提升能力"兩個方向上"雙管齊下"，並承諾"今年會發佈更優秀的模型"。

AI專家：DeepSeek對OpenAI構成威脅

紐約大學教授、AI專家Gary Marcus則認爲，DeepSeek的出現對OpenAI構成了實質性威脅。

他指出，"DeepSeek基本上免費提供了OpenAI想要收費的東西。"Marcus認爲，這可能會嚴重影響OpenAI的商業模式。

Marcus還強調，DeepSeek比OpenAI更開放，這將吸引更多人才。他質疑OpenAI 1570億美元的估值，認爲在每年損失約50億美元的情況下，這一估值難以證明合理性。

編輯/jayden

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

讚好

評論 18 · 瀏覽 11.9萬

評論(18)

熱點推薦

寫評論

18 21

DeepSeek惊艳全球，美国大模型两巨头齐发声：并不比我们先进