share_log

DeepSeek火出圈,英伟达完了吗?

DeepSeek火出圈,英偉達完了嗎?

全天候科技 ·  12/28 12:12

首先訓練同一代模型所需算力每隔N個月就是指數級降低,這裏面有算法進步、算力本身通縮、數據蒸餾等等因素,這也是爲什麼說「模型後發更省力」。援引下星球內一則評論:「就好像看過幾遍答案,水平很一般的學生也能在1小時內把高考數學卷整出滿分」。 DeepSeek v3因爲是後發,完全可以避開前人走的坑,用更高效方式避坑,也就是「站在巨人的肩膀上」。因此幻方在GPT4o發佈7個月後,用1/10算力實現幾乎同等水平,是合理的,甚至可以作爲未來對同代模型訓練成本下降速度的預測但這裏面依然有幾個概念上的誤解。

首先是「訓練」範圍上的混淆。幻方的論文明確說明了:“上述成本僅包括DeepSeek-V3 的正式訓練,不包括與架構、算法、數據相關的前期研究、消融實驗的成本。” 也就是星球內一位算法工程師說的“有點斷章取義,幻方在訓這個模型之前,用了他們自己的r1模型(對標openai o1)來生成數據,這個部分的反覆嘗試要不要算在成本里呢?單就在訓練上做降本增效這件事,這不代表需求會下降,只代表大廠可以用性價比更高的方式去做模型極限能力的探索。應用端只要有增長的邏輯,推理的需求依然是值得期待的。”

隨着Ilya說的「公開Internet Plus-related數據窮盡」,未來合成數據是突破數據天花板的重要來源,且天花板理論上足夠高。相當於過去的預訓練範式從卷參數、卷數據總量,到了卷數據質量,卷新的Scaling因數(RL、測試時間計算等),而算力只不過換了個地方,繼續被其他訓練環節榨乾。

從目前各大實驗室的實際情況看也是,OpenAI、Anthropic至今仍處於缺卡狀態,相信幻方也是。看訓練算力是否下降,不應該只看某代模型某次訓練這種切面,而應該從「總量」以及“自上而下”去看,這些實驗室的訓練算力總需求是下降了嗎?反而一直在上升。預訓練的經濟效益下降,那就把卡挪給RL post train,發現模型實現同等提升所需卡減少了,那就減少投入了嗎?不會,真實邏輯應該是:榨乾同等算力去攫取10倍收益。就比如o1的訓練成本遠超GPT-4,而o3的訓練成本大概率遠超o1。從前沿探索角度看,訓練所需算力只會越來越多。應用生態越繁榮,只會讓訓練投入的支付能力更強;而算力通縮,只會讓同等投入買到更多訓練Flops。

就好比幻方這次發佈的模型,依然是LLM路線下,將MoE壓榨到了極致。但相信幻方自己的推理模型r1(對標o1)也在探索r2/r3,這顯然需要更多算力而r2/r3訓完,又被用來消耗大量算力爲deepseek v4合成數據。發現沒,pre-train scaling、RL scaling、test-time compute scaling三條線甚至還有正反饋。因此,只會在可獲得最大資源的前提下,用最高效的算法/工程手段,壓榨出最大的模型能力提升而不會因爲效率提升而減少投入,個人認爲這是個僞邏輯。

對於推理,不必多說了,一定是上升。引用下星球內洪博的評論:DeepSeek-V3的出現(可能還包括輕量版V3-Lite),將支持私有部署和自主微調,爲下游應用提供遠大於閉源模型時代的發展空間。未來一兩年,大概率將見證更豐富的推理芯片產品、更繁榮的LLM應用生態。

文章來源:信息平權,原文標題:《訓練算力真的下降了嗎?》風險提示及免責條款市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論