馬斯克：AI訓練數據去年就已耗盡，合成數據是唯一補充方法

来源：华尔街见闻

包括微软、Meta、OpenAI、Anthropic等在内的科技巨头已经开始使用合成数据来训练AI模型了。据信息技术研究和顾问公司Gartner估计，2024年用于AI训练和分析项目的数据中，有60%是合成的。

人工智能训练数据耗尽了怎么办？

近日，马斯克在社交平台X上的一场直播对话中表示，人工智能训练数据已经耗尽：

“我们基本上已经用尽了人类知识的累积总和来进行AI训练，这种情况大约在去年就已经发生了。”

马斯克的观点与前OpenAI首席科学家Ilya Sutskever不谋而合。去年12月，Sutskever在机器学习会议NeurIPS上表示，AI行业已经达到了他所谓的“数据峰值”，训练数据的缺乏将迫使AI模型的开发方式发生转变。

不过，面对数据耗尽的困境，马斯克提出了一个可能的解决方案：

“唯一的补充方法是使用合成数据，即由AI模型自己生成的数据。通过合成数据，AI将对自身进行评分，并经历一个自学习的过程。”

事实上，包括微软、Meta、OpenAI、Anthropic等在内的科技巨头已经开始使用合成数据来训练AI模型了。据信息技术研究和顾问公司Gartner估计，2024年用于AI训练和分析项目的数据中，有60%是合成的。

微软最近开源的Phi-4模型就是使用合成数据和真实世界数据共同训练的。谷歌的Gemma模型、Anthropic的Claude 3.5 Sonnet系统以及Meta最新的Llama系列模型也都采用了类似的方法。

分析师表示，使用合成数据进行训练还能够节约成本。AI初创公司Writer声称，其几乎完全使用合成数据源开发的Palmyra X 004模型仅花费了70万美元，而相比之下，OpenAI同等规模模型的开发成本估计为460万美元。

不过需要注意的是，使用合成数据也存在一些潜在风险。一些研究表明，合成数据可能导致模型崩溃，即模型的输出变得不够“创新”，反而更加偏颇，最终严重影响模型的功能。由于合成数据是由模型生成的，如果用于训练这些模型的数据本身存在偏见和局限性，那么它们的输出也会受到同样的影响。

编辑/jayden

來源：華爾街見聞

包括微軟、Meta、OpenAI、Anthropic等在內的科技巨頭已經開始使用合成數據來訓練AI模型了。據信息技術研究和顧問公司Gartner估計，2024年用於AI訓練和分析項目的數據中，有60%是合成的。

人工智能訓練數據耗盡了怎麼辦？

近日，馬斯克在社交平台X上的一場直播對話中表示，人工智能訓練數據已經耗盡：

「我們基本上已經用盡了人類知識的累積總和來進行AI訓練，這種情況大約在去年就已經發生了。」

馬斯克的觀點與前OpenAI首席科學家Ilya Sutskever不謀而合。去年12月，Sutskever在機器學習會議NeurIPS上表示，AI行業已經達到了他所謂的「數據峯值」，訓練數據的缺乏將迫使AI模型的開發方式發生轉變。

不過，面對數據耗盡的困境，馬斯克提出了一個可能的解決方案：

“唯一的補充方法是使用合成數據，即由AI模型自己生成的數據。通過合成數據，AI將對自身進行評分，並經歷一個自學習的過程。”

事實上，包括微軟、Meta、OpenAI、Anthropic等在內的科技巨頭已經開始使用合成數據來訓練AI模型了。據信息技術研究和顧問公司Gartner估計，2024年用於AI訓練和分析項目的數據中，有60%是合成的。

微軟最近開源的Phi-4模型就是使用合成數據和真實世界數據共同訓練的。谷歌的Gemma模型、Anthropic的Claude 3.5 Sonnet系統以及Meta最新的Llama系列模型也都採用了類似的方法。

分析師表示，使用合成數據進行訓練還能夠節約成本。AI初創公司Writer聲稱，其幾乎完全使用合成數據源開發的Palmyra X 004模型僅花費了70萬美元，而相比之下，OpenAI同等規模模型的開發成本估計爲460萬美元。

不過需要注意的是，使用合成數據也存在一些潛在風險。一些研究表明，合成數據可能導致模型崩潰，即模型的輸出變得不夠「創新」，反而更加偏頗，最終嚴重影響模型的功能。由於合成數據是由模型生成的，如果用於訓練這些模型的數據本身存在偏見和侷限性，那麼它們的輸出也會受到同樣的影響。

編輯/jayden

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

马斯克：AI训练数据去年就已耗尽，合成数据是唯一补充方法