DeepSeek消息動態追蹤

DeepSeek-V3低調發佈後，業內震驚之餘再次懷疑硅谷模式

財聯社 · 03/25 05:44

①DeepSeek周一晚发布了V3-0324模型，初步测试显示其可在消费级硬件上运行，打破大模型需要数据中心的传统思路；②DeepSeek的模型一方面继续降低大模型能耗及计算成本，另一方面保持开源以不断推动技术创新，引领国内AI行业迅速发展，也让人质疑硅谷的封闭付费模式。

中国人工智能初创公司DeepSeek周一悄然发布了新的模型，这款参数达6850亿个的模型被称为DeepSeek-V3-0324，在没有任何公告的情况下在AI存储库Hugging Face上线，但仍引起了业内的轰动。

这款模型已经取得了MIT许可证，也就意味着其可以被自由用于商业用途，且业内的早期测试证实，该模型可以直接在消费级硬件上运行，比如高端市场的苹果Mac Studio。

AI 研究员Awni Hannun表示，新的DeepSeek-V3模型可以在配备M3 Ultra芯片的苹果电脑上，以每秒20个token的速度运行。这打破了业界关于人工智能模型能力与本地化运行或冲突的早前共识，也意味着数据中心并不是大模型的必要搭配。

另一名人工智能研究员Xeophon则在X上宣称，在内部工作台上测试了新版DeepSeek-V3后，发现它在测试的所有指标上都有了巨大飞跃。它现在是最好的非推理模型，超越了甲骨文的Claude Sonnet 3.5。

低调但轰动

DeepSeek-V3-0324面世时没有附带白皮书，也没有任何宣传，只有一个空的ReadMe文件。这一近乎朴素的发布形式，与硅谷精心策划的产品宣传模型形成鲜明对比。

与此同时，DeepSeek的模型都是开源模型，可供任何人免费下载和使用，与最好商业模型之一的Claude Sonnet截然相反，后者按月收取20美元的费用。

此外，DeepSeek还从根本上重新构想了大型语言模型的运作方式，在特定任务期间仅激活约370亿个参数而非全部，也就是所谓的“专家”模块，这大大降低了计算需求。

该模型还有另外两项突破性技术：多头潜在注意力(MLA) 和多标记预测(MTP)。MLA增强了模型在长篇文本中保持上下文的能力，而MTP每一步生成多个标记，而不是通常的一次生成一个标记的方法。这些创新共同将输出速度提高了近 80%。

某种程度上，DeepSeek体现了中国企业对效率和资源极致追求的精神，即如何以有限的计算资源实现相等或者更加优化的性能。而这种由需求驱动的创新已经使中国的人工智能在几个月时间内震惊了全球。

DeepSeek新模型的改变对于业内来说也具有重大意义，一方面其大大降低了大模型的能耗及计算成本，进一步动摇了华尔街对于顶级模型基础设施的投资规模假设；另一方面，中国人工智能行业对开源的广泛共识又迅速推动国内AI行业的发展，不断缩短其与世界顶尖对手的距离。

还有人认为，在DeepSeek的快速追赶下，其计划在4月发布的R2模型有可能直接挑战OpenAI宣传已久的GPT-5模型。如果这一前景真的发生，那么中美两国发展人工智能的不同思路可能将迎来直接的交锋。

编辑/lambor

①DeepSeek週一晚發佈了V3-0324模型，初步測試顯示其可在消費級硬件上運行，打破大模型需要數據中心的傳統思路；②DeepSeek的模型一方面繼續降低大模型能耗及計算成本，另一方面保持開源以不斷推動技術創新，引領國內AI行業迅速發展，也讓人質疑硅谷的封閉付費模式。

中國人工智能初創公司DeepSeek週一悄然發佈了新的模型，這款參數達6850億個的模型被稱爲DeepSeek-V3-0324，在沒有任何公告的情況下在AI存儲庫Hugging Face上線，但仍引起了業內的轟動。

這款模型已經取得了MIT許可證，也就意味着其可以被自由用於商業用途，且業內的早期測試證實，該模型可以直接在消費級硬件上運行，比如高端市場的蘋果Mac Studio。

AI 研究員Awni Hannun表示，新的DeepSeek-V3模型可以在配備M3 Ultra芯片的蘋果電腦上，以每秒20個token的速度運行。這打破了業界關於人工智能模型能力與本地化運行或衝突的早前共識，也意味着數據中心並不是大模型的必要搭配。

另一名人工智能研究員Xeophon則在X上宣稱，在內部工作臺上測試了新版DeepSeek-V3後，發現它在測試的所有指標上都有了巨大飛躍。它現在是最好的非推理模型，超越了甲骨文的Claude Sonnet 3.5。

低調但轟動

DeepSeek-V3-0324面世時沒有附帶白皮書，也沒有任何宣傳，只有一個空的ReadMe文件。這一近乎樸素的發佈形式，與硅谷精心策劃的產品宣傳模型形成鮮明對比。

與此同時，DeepSeek的模型都是開源模型，可供任何人免費下載和使用，與最好商業模型之一的Claude Sonnet截然相反，後者按月收取20美元的費用。

此外，DeepSeek還從根本上重新構想了大型語言模型的運作方式，在特定任務期間僅激活約370億個參數而非全部，也就是所謂的「專家」模塊，這大大降低了計算需求。

該模型還有另外兩項突破性技術：多頭潛在注意力(MLA) 和多標記預測(MTP)。MLA增強了模型在長篇文本中保持上下文的能力，而MTP每一步生成多個標記，而不是通常的一次生成一個標記的方法。這些創新共同將輸出速度提高了近 80%。

某種程度上，DeepSeek體現了中國企業對效率和資源極致追求的精神，即如何以有限的計算資源實現相等或者更加優化的性能。而這種由需求驅動的創新已經使中國的人工智能在幾個月時間內震驚了全球。

DeepSeek新模型的改變對於業內來說也具有重大意義，一方面其大大降低了大模型的能耗及計算成本，進一步動搖了華爾街對於頂級模型基礎設施的投資規模假設；另一方面，中國人工智能行業對開源的廣泛共識又迅速推動國內AI行業的發展，不斷縮短其與世界頂尖對手的距離。

還有人認爲，在DeepSeek的快速追趕下，其計劃在4月發佈的R2模型有可能直接挑戰OpenAI宣傳已久的GPT-5模型。如果這一前景真的發生，那麼中美兩國發展人工智能的不同思路可能將迎來直接的交鋒。

編輯/lambor

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

讚好

評論 10 · 瀏覽 5.5萬

評論(10)

熱點推薦

寫評論

10 25

熱門討論

北水爆買！中國資產能否延續漲勢？

3月17日早盤，地產代理、物業服務及管理等板塊漲幅明顯，貝殼-W早盤漲逾4%，碧桂園服務漲逾9%。政策消息面上，兩部門發文落實專項債支持收地，中房協組織民營房企座談會。中國資產本輪火爆行情還能持續多久？你會如何投資？展开

北水狂掃港股！近期如何操作？

71%

29%

看好！繼續加倉

我恐高，逢高減倉

1.6萬人參與

年頭旺到年尾

02/27 16:09

2月27日覆盤..

$恒生指數 (800000.HK)$ $恒指當月期貨 (HSIcurrent.HK)$ 前天覆盤提到估計前頂23700不是頂，昨日就即時升破了，而且升幅有最高接近1千點有點意外，因為短線炒即市低估了升幅，所以也多手曾入了熊，最后收盤時熊仔止蝕離場

，而今天在早盤衝高至24000附近入了熊仔后，指數大幅下跌最多接近6百多點，即時把昨日虧損賺回有突多

，而今天再破新高，最高 24076 ，其後收市時轉跌約70點，出了陰燭，暫時走勢仍未有破壞，不過由前底至今已經上漲接近至6千點，本人覺得有貨者可以繼續持貨直到明顯有走勢轉壞才止賺離場，沒貨者可以等待回調后再上車，其實本人也希望能夠快點有回調，一來可以上車，二來回一回氣也健康

，暫時看法都是跟之前一樣，覺得即使有所回調應該都不會跌得太深，但假若期貨失守22350企不穩收，便可能還有下跌空間，期貨短期要跌破21400的機會應該也不大，所以本人覺得如果有大幅的回調也是一個機會分注做多。近日都堅持不過夜持倉，暫只做即市，因為不高追，也不隨便做空。
支持阻力以現貨作參考
支持位 23150，23250，2...

DeepSeek消息動態追蹤

DeepSeek-V3低调发布后，业内震惊之余再次怀疑硅谷模式

DeepSeek-V3低調發佈後，業內震驚之餘再次懷疑硅谷模式

低调但轰动

低調但轟動

風險及免責聲明

聲明