AI“數據荒”怎麼辦？微軟、谷歌等公司正使用“合成數據”訓練AI

財聯社 · 05/12 10:39

①数据在互联网上的可用性是有限的，这对需要大量数据来训练模型的科技公司而言，是个头疼的问题； ②人工智能公司正寻求一种替代解决方案——合成数据； ③合成数据就是由人工智能系统生成的数据，一些大型公司已经开始启用，不过这一方法面临巨大分歧。

财联社5月12日讯人工智能聊天机器人的背后需要海量高质量数据作为支撑。传统上，人工智能系统依赖于从各种网络来源（如文章、书籍和在线评论）中提取的大量数据来理解用户的查询并生成响应。

长期以来，如何获取更多的高质量数据成为人工智能公司的一大挑战。由于数据在互联网上的可用性是有限的，这促使人工智能公司正寻求一种替代解决方案——合成数据（Synthetic data）。

合成数据，即人工智能系统生成的人工数据。科技公司通过利用自己的人工智能模型，生成合成数据（这也被认为是虚假数据），然后将这些数据用以训练其系统的未来迭代。

谈及合成数据是如何生成的，其过程包括为人工智能模型设置特定参数和提示以创建内容，这种方法可以更精确地控制用于训练人工智能系统的数据。

例如，微软的研究人员向人工智能模型列出了四岁孩子能够理解的3000个词汇，然后，他们要求该模型使用词汇表中的一个名词、一个动词和一个形容词来创造一个儿童故事。通过几天时间内数百万次的重复提示，模型最终产生了数百万个短篇故事。

虽然计算中的合成数据并不是一个新概念，但生成式人工智能的兴起促进了大规模创建更高质量的合成数据。

人工智能初创公司Anthropic首席执行官Dario Amodei将这种方法称为“无限数据生成引擎”，旨在避免与传统数据采集方法相关的一些版权、隐私等问题。

现有用例与分歧观点

目前，Meta、谷歌和微软等主要人工智能公司已经开始使用合成数据开发高级模型，包括聊天机器人和语言处理器。

例如，Anthropic使用合成数据为其聊天机器人Claude提供动力；谷歌DeepMind则使用这种方法来训练能够解决复杂几何问题的模型；与此同时，微软已经公开了使用合成数据开发的小型语言模型。

有支持者认为，如果适当实施，合成数据可以产生准确可靠的模型。

然而，一些人工智能专家对与合成数据相关的风险表示担忧。著名大学的研究人员观察到了“模型崩溃”的例子，即在合成数据上训练的人工智能模型出现了不可逆转的缺陷，并产生了荒谬的输出。此外，有人担心合成数据可能会加剧数据集的偏差和错误。

剑桥大学博士Zakhar Shumaylov在一封电子邮件中写道，”如果处理得当，合成数据会很有用。然而，对于如何才能处理得当，目前还没有明确的答案；有些偏见对于人类来说可能很难察觉。”

此外，围绕对合成数据的依赖存在一场哲学辩论，人们对人工智能的本质提出了质疑——如若使用机器合成的数据，那么人工智能是否还是模仿人类智能的机器？

斯坦福大学教授Percy Liang强调了将真正的人类智能融入数据生成过程的重要性，并强调了大规模创建合成数据的复杂性。他认为，“合成数据不是真实的数据，就像你做梦登上了珠穆朗玛峰并不是真正登顶了一样。”

目前对于生成合成数据的最佳做法尚未达成共识，这突出表明需要在这一领域进一步研究和发展。随着该领域的不断发展，人工智能研究人员和领域专家之间的合作对于充分利用人工智能开发合成数据的潜力至关重要。

编辑/emily

①數據在互聯網上的可用性是有限的，這對需要大量數據來訓練模型的科技公司而言，是個頭疼的問題； ②人工智能公司正尋求一種替代解決方案——合成數據； ③合成數據就是由人工智能系統生成的數據，一些大型公司已經開始啓用，不過這一方法面臨巨大分歧。

財聯社5月12日訊人工智能聊天機器人的背後需要海量高質量數據作爲支撐。傳統上，人工智能系統依賴於從各種網絡來源（如文章、書籍和在線評論）中提取的大量數據來理解用戶的查詢並生成響應。

長期以來，如何獲取更多的高質量數據成爲人工智能公司的一大挑戰。由於數據在互聯網上的可用性是有限的，這促使人工智能公司正尋求一種替代解決方案——合成數據（Synthetic data）。

合成數據，即人工智能系統生成的人工數據。科技公司通過利用自己的人工智能模型，生成合成數據（這也被認爲是虛假數據），然後將這些數據用以訓練其系統的未來迭代。

談及合成數據是如何生成的，其過程包括爲人工智能模型設置特定參數和提示以創建內容，這種方法可以更精確地控制用於訓練人工智能系統的數據。

例如，微軟的研究人員向人工智能模型列出了四歲孩子能夠理解的3000個詞彙，然後，他們要求該模型使用詞彙表中的一個名詞、一個動詞和一個形容詞來創造一個兒童故事。通過幾天時間內數百萬次的重複提示，模型最終產生了數百萬個短篇故事。

雖然計算中的合成數據並不是一個新概念，但生成式人工智能的興起促進了大規模創建更高質量的合成數據。

人工智能初創公司Anthropic首席執行官Dario Amodei將這種方法稱爲“無限數據生成引擎”，旨在避免與傳統數據採集方法相關的一些版權、隱私等問題。

現有用例與分歧觀點

目前，Meta、谷歌和微軟等主要人工智能公司已經開始使用合成數據開發高級模型，包括聊天機器人和語言處理器。

例如，Anthropic使用合成數據爲其聊天機器人Claude提供動力；谷歌DeepMind則使用這種方法來訓練能夠解決複雜幾何問題的模型；與此同時，微軟已經公開了使用合成數據開發的小型語言模型。

有支持者認爲，如果適當實施，合成數據可以產生準確可靠的模型。

然而，一些人工智能專家對與合成數據相關的風險表示擔憂。著名大學的研究人員觀察到了“模型崩潰”的例子，即在合成數據上訓練的人工智能模型出現了不可逆轉的缺陷，併產生了荒謬的輸出。此外，有人擔心合成數據可能會加劇數據集的偏差和錯誤。

劍橋大學博士Zakhar Shumaylov在一封電子郵件中寫道，”如果處理得當，合成數據會很有用。然而，對於如何才能處理得當，目前還沒有明確的答案；有些偏見對於人類來說可能很難察覺。”

此外，圍繞對合成數據的依賴存在一場哲學辯論，人們對人工智能的本質提出了質疑——如若使用機器合成的數據，那麼人工智能是否還是模仿人類智能的機器？

斯坦福大學教授Percy Liang強調了將真正的人類智能融入數據生成過程的重要性，並強調了大規模創建合成數據的複雜性。他認爲，“合成數據不是真實的數據，就像你做夢登上了珠穆朗瑪峯並不是真正登頂了一樣。”

目前對於生成合成數據的最佳做法尚未達成共識，這突出表明需要在這一領域進一步研究和發展。隨着該領域的不斷髮展，人工智能研究人員和領域專家之間的合作對於充分利用人工智能開發合成數據的潛力至關重要。

編輯/emily

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

AI“数据荒”怎么办？微软、谷歌等公司正使用“合成数据”训练AI

AI“數據荒”怎麼辦？微軟、谷歌等公司正使用“合成數據”訓練AI

现有用例与分歧观点

現有用例與分歧觀點

風險及免責聲明

聲明