①DeepSeek週一晚發佈了V3-0324模型,初步測試顯示其可在消費級硬件上運行,打破大模型需要數據中心的傳統思路;②DeepSeek的模型一方面繼續降低大模型能耗及計算成本,另一方面保持開源以不斷推動技術創新,引領國內AI行業迅速發展,也讓人質疑硅谷的封閉付費模式。
中國人工智能初創公司DeepSeek週一悄然發佈了新的模型,這款參數達6850億個的模型被稱爲DeepSeek-V3-0324,在沒有任何公告的情況下在AI存儲庫Hugging Face上線,但仍引起了業內的轟動。
這款模型已經取得了MIT許可證,也就意味着其可以被自由用於商業用途,且業內的早期測試證實,該模型可以直接在消費級硬件上運行,比如高端市場的蘋果Mac Studio。
AI 研究員Awni Hannun表示,新的DeepSeek-V3模型可以在配備M3 Ultra芯片的蘋果電腦上,以每秒20個token的速度運行。這打破了業界關於人工智能模型能力與本地化運行或衝突的早前共識,也意味着數據中心並不是大模型的必要搭配。
另一名人工智能研究員Xeophon則在X上宣稱,在內部工作臺上測試了新版DeepSeek-V3後,發現它在測試的所有指標上都有了巨大飛躍。它現在是最好的非推理模型,超越了甲骨文的Claude Sonnet 3.5。
低調但轟動
DeepSeek-V3-0324面世時沒有附帶白皮書,也沒有任何宣傳,只有一個空的ReadMe文件。這一近乎樸素的發佈形式,與硅谷精心策劃的產品宣傳模型形成鮮明對比。
與此同時,DeepSeek的模型都是開源模型,可供任何人免費下載和使用,與最好商業模型之一的Claude Sonnet截然相反,後者按月收取20美元的費用。
此外,DeepSeek還從根本上重新構想了大型語言模型的運作方式,在特定任務期間僅激活約370億個參數而非全部,也就是所謂的「專家」模塊,這大大降低了計算需求。
該模型還有另外兩項突破性技術:多頭潛在注意力(MLA) 和多標記預測(MTP)。MLA增強了模型在長篇文本中保持上下文的能力,而MTP每一步生成多個標記,而不是通常的一次生成一個標記的方法。這些創新共同將輸出速度提高了近 80%。
某種程度上,DeepSeek體現了中國企業對效率和資源極致追求的精神,即如何以有限的計算資源實現相等或者更加優化的性能。而這種由需求驅動的創新已經使中國的人工智能在幾個月時間內震驚了全球。
DeepSeek新模型的改變對於業內來說也具有重大意義,一方面其大大降低了大模型的能耗及計算成本,進一步動搖了華爾街對於頂級模型基礎設施的投資規模假設;另一方面,中國人工智能行業對開源的廣泛共識又迅速推動國內AI行業的發展,不斷縮短其與世界頂尖對手的距離。
還有人認爲,在DeepSeek的快速追趕下,其計劃在4月發佈的R2模型有可能直接挑戰OpenAI宣傳已久的GPT-5模型。如果這一前景真的發生,那麼中美兩國發展人工智能的不同思路可能將迎來直接的交鋒。
編輯/lambor
評論(10)
請選擇舉報原因