對話復旦大學教授肖仰華：這輪生成式AI泡沫早晚會破，天花板一定會到來｜鈦媒體AGI

鈦媒體 · 09/09 11:38

复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任肖仰华

在Scaling Law（缩放定律）的“指引”下，AI大模型技术正朝着加大训练数据、加大算力投入、堆积参数等方向前进，模型一代代“膨胀”，因此，如何用更可靠的数据进行训练模型，正逐步成为AI大模型发展的根本性的、长期性的关键要素之一。

9月5日-7日举行的2024 Inclusion·外滩大会“从DATA for AI到AI for DATA”见解论坛上披露的Epoch AI数据显示，自2026年起，人类产生的新数据量将比模型学习的新数据量要少，预估到2028年，AI大语言模型将耗尽人类数据。

这意味着，无论是高质量的人类开放语料，还是互联网开源流通的信息语料，未来基于这些数据技术的模型效果最终将出现“瓶颈”，从而很难实现比人类更智能的通用人工智能（AGI）目标。

那么，如何用更优质的数据发展中国AI技术？高质量数据如何推高 AI 技术上限？

对此，9月6日下午，复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任肖仰华与钛媒体AGI等少数媒体进行对话交流。

肖仰华教授认为，AI 大模型落地的本质仍然是数据工程。但当前，大模型发展过程中，其对数据的消耗和使用极为“粗放”，对数据的使用效率极为“低下”，和人类相比远远不足，同时，千亿大模型的数据可能存在极大“水分”，现在已经处于“大模型数据耗光”这一状态。因此，发展合成数据、私域数据、个人数据训练，可以进一步提升大模型的技术能力。

当前，AI 大模型技术领域，为了达到AGI，模语料数据规模变得“越来越大”。

以Meta公司发布的开源大模型Llama 3为例，其使用了15T Tokens，是古代世界最大图书馆——亚历山大图书馆70万册藏书（以每册10万字计，累计70G Tokens）规模的200多倍。

更早之前，OpenAI披露，GPT-3.5的文本数据多达45TB，相当于472万套中国四大名著（《三国演义》、《西游记》、《水浒传》、《红楼梦》），而GPT-4在之前训练数据集的基础上又增加了多模态数据，规模达数十万亿级Token。

尽管大模型所展现出的重要能力，得益于背后的海量数据、蕴含了丰富的知识和智能。然而，当前大模型仍面临“幻觉”、垂直行业信息缺乏等核心挑战。其中，大模型生成不正确、无意义或不真实的文本的“幻觉”现象，受到广泛关注，公开研究曾披露OpenAI GPT-4模型的错误率能达到20%以上，而造成这一现象的主要原因是大模型缺乏高质量数据支撑。

在一定程度上，数据决定了 AI 大模型“智能水平”的上限，但当前的千亿大模型当中，80%都是“水分”，即大量的语料数据都是无意义、错误率极高的信息。

所以，提高数据的质量和多样性等方式，对于未来大模型技术发展以及落地应用来说至关重要。

肖仰华现任复旦大学计算机科学技术学院教授、博导，上海市数据科学重点实验室主任，复旦大学知识工场实验室负责人，2009年获得复旦大学博士学位后留校任教，研究方向包括知识图谱、大模型以及社会科学启发下的人工智能等。

肖仰华在演讲中表示，当前大模型技术实现过程中，数据消耗了极大人力资源与资本投入，所以大模型落地的本质仍然是数据工程，数据在整个大模型技术体系中处于一个核心的基础地位。

因此，如果大模型真的要走向千行百业，必须要解决“幻觉”问题，背后则需要运用合成数据、私域数据、个人数据、小模型、知识图谱等技术方法，或协同方案。

“实际上，现在所谓的千亿大模型可能存在极大‘水分’，大多数参数可能只是在编码琐碎而杂多的事实，与大模型的智商关系不大。所以，我们有没有可能在这1000亿模型基础之上将‘水分’挤掉，把无用的知识全部榨干，只留下100亿、10亿最关键的数据参数，它将决定大模型理性能力的关键。被挤掉的‘水分’知识完全可以放在外部文档系统里，通过RAG系统能够在应用时检索到即可。”肖仰华对钛媒体AGI表示。

他坦言，越来越多的人仍然是把精力花在找更多的数据而非质量，已经存在一些研究成果表明5%的优质指令数据有可能会比100%的一般指令取得更好的大模型微调效果，所以大众不应该能再盲目追求数量，而是要去想一想数据质量如何提升。

对于数据消耗，肖仰华详细分析了三个形成基于高质量数据的模型技术方案：合成数据、私域数据、个人数据。

首先是合成数据。互联网数据虽然消耗殆尽，但人类可以在这个数据基础之上合成更多的数据，可以在原始数据上不断思考、反思、关联、融合，产生更多的数据。合成数据是很重要的思路，不仅只是为了缓解数据用光的问题，而且合成数据大部分是人类思考过程的数据，实际上可能比现在已经获取的数据更多。通过合成数据把大量隐性、没有记录、没有表达、过程的偏重思维的数据表达出来，这种数据对激发大模型的智商，或者理性能力至关重要。现在大模型其实只有知性，没有理性，因此，合成数据就是提升理性能力非常重要的一个思路。使用模拟思考过程的合成数据训练大模型，它才能知道应该怎么去思考问题，而合成数据既是为了缓解数据的“饥荒”，也是为了提升大模型理性能力。

第二是私域数据。人类更多高质量、高价值的数据是在私域（垂直行业）当中，如果使用私域数据训练大模型，可能会让大模型变成行业专家。因此，用好私域数据是很关键的因素，数据有待挖掘的潜力仍然十分之大。

最后是个人数据。个人数据用于训练大模型才刚刚开始，包括苹果在内的很多手机终端厂商，下一步一定是用个人数据和大模型结合。因此，如何把个性大数据和大模型结合好，变成个性化大模型，为每个人提供服务，对此未来还有很长的路要走。

不过，肖仰华也认为，当前数据要素市场尚不健全，使得私域数据的汇聚和交易流通也是困难重重，挑战非常之多。同时，大模型对数据利用的“贪婪程度”，也影响了数据的存储、生产、加工、流通、消费各个环节的技术走向。

“模型的评估、数据的筛选和模型的训练三件事应该是‘三位一体’的，我们需要注重数据的用法。”肖仰华称。

在肖仰华看来，AI大模型技术发展至今，仍然还处在一个非常早期的时代，从原理和源头上还完全缺乏理论和方法，而且大模型参数量变大，并没有让它的智商和理性能力所有增长。

“Scaling Law很快就会见到天花板，或者说我们要重新去看待Scaling Law。并且，我们要从源头上去梳理这些问题，去激发大模型的核心认知能力，提升大模型的理性水平。”肖仰华表示。

不过，部分学者对于合成数据的前景也有一些怀疑和争议。

9月6日，OpenAI创始成员、AI+教育公司Eureka Labs创始人安德烈·卡帕蒂（Andrej Karpathy）在播客节目 No Priors节目中表示，Transformer 还远没到自己的极限，新的改进和创新主要集中在数据集方面。尽管使用合成数据对于创造下一代大模型有很大帮助，但合成数据往往多样性和丰富度不足。

安德烈·卡帕蒂也承认，当前数十亿级参数量的大模型存在很多无用信息，他认为与互联网数据本身有关，因为其可能是由 0.001% 的认知数据和 99.999% 的相似或无用信息构成的。而当前的模型浪费了大量容量来记忆无关紧要的事情，原因是数据集没有经过精细化的调整（curation）。而真正用于思考的认知核心（cognitive core）可以非常小，如果它需要查找信息，它会知道如何使用不同的工具。未来，未来当下一代模型发挥作用时，它们会出现不同的分工，比如程序员、产品经理等。

另一方面，肖仰华表示反对“机器取代人类”的这一观点，他认为技术的所有进步和发展还是要“以人为本”，没有人的文明是没有意义的。

“现在大模型就很擅长，可以很容易做到一段文字一字不错。事实上，文字偶尔出错无伤大雅，重要的不是文字有否错别字，而是文字背后是否是真知灼见。我们在太多无意义的细枝末节浪费太多精力，而对事关宏旨的本质却又轻松放过。以大模型为代表的AGI的到来，粉碎了人类无意义的事项，倒逼人类回归价值本原。”肖仰华称。

展望未来下一代万亿级参数的GPT模型，肖仰华指出，未来也许大家并不需要过多的数据，只需精炼即可。然而，在此之前，人类可能需要通过万卡训练和打造万亿模型，以此来探索智能的极限。但早期的那些千亿、万亿的大模型，可能存在很大的 “水分”。所以，人类必须先拥有 “水分” 充足的大模型，然后才有可能挤出这些 “水分”，从而获得一个小而精的模型。最后，基于这个小而精的基座模型进行微调与训练，在小规模集群或单机上完成微调工作。

肖仰华强调，这波生成式大模型的泡沫早晚会破，天花板一定会到来。首先，人类产生优质数据的过程是相对缓慢的，大家不可能每天都产生对于世界的重大新认识，优质数据的缓慢生产速度为成为大模型发展的天花板。其次，合成数据的质量控制仍存在不少技术挑战，且合成数据是基于原始真实数据推理而产生的，因此也会限制大模型获得本质新颖的知识与能力，也就是大模型会遭遇所谓的演绎闭包困难。最后，即便训练出来了参数规模是人脑的10倍、100倍的超级大模型，人类当下的智识水平可能限制我们去认识这样一个超级智能形态。这样一个可能的超级存在也就与人类无关。试想一下，如果蚂蚁文明举全体蚂蚁世界之力造出了人类水平的智能，那么这个相对于蚂蚁而言神一样的智能体一定是忙于探索星辰大海，去接近或实现一个更高的存在，而无暇去关照自己的造物主。

“AI 好比一个照妖镜，将人类社会一切没有价值的事情进行摧毁，倒逼大家去做真正有价值和有意义的事情。因此，AI 的未来发展倒逼所有行业回归价值本原，要让人类做真正有价值的事。”肖仰华表示。

（本文首发于钛媒体App，作者｜林志佳，编辑｜胡润峰）

復旦大學計算機科學技術學院教授、上海市數據科學重點實驗室主任肖仰華

在Scaling Law（縮放定律）的「指引」下，AI大模型技術正朝着加大訓練數據、加大算力投入、堆積參數等方向前進，模型一代代「膨脹」，因此，如何用更可靠的數據進行訓練模型，正逐步成爲AI大模型發展的根本性的、長期性的關鍵要素之一。

9月5日-7日舉行的2024 Inclusion·外灘大會「從DATA for AI到AI for DATA」見解論壇上披露的Epoch AI數據顯示，自2026年起，人類產生的新數據量將比模型學習的新數據量要少，預估到2028年，AI大語言模型將耗盡人類數據。

這意味着，無論是高質量的人類開放語料，還是互聯網開源流通的信息語料，未來基於這些數據技術的模型效果最終將出現「瓶頸」，從而很難實現比人類更智能的通用人工智能（AGI）目標。

那麼，如何用更優質的數據發展中國AI技術？高質量數據如何推高 AI 技術上限？

對此，9月6日下午，復旦大學計算機科學技術學院教授、上海市數據科學重點實驗室主任肖仰華與鈦媒體AGI等少數媒體進行對話交流。

肖仰華教授認爲，AI 大模型落地的本質仍然是數據工程。但當前，大模型發展過程中，其對數據的消耗和使用極爲「粗放」，對數據的使用效率極爲「低下」，和人類相比遠遠不足，同時，千億大模型的數據可能存在極大「水分」，現在已經處於「大模型數據耗光」這一狀態。因此，發展合成數據、私域數據、個人數據訓練，可以進一步提升大模型的技術能力。

當前，AI 大模型技術領域，爲了達到AGI，模語料數據規模變得「越來越大」。

以Meta公司發佈的開源大模型Llama 3爲例，其使用了15T Tokens，是古代世界最大圖書館——亞歷山大圖書館70萬冊藏書（以每冊10萬字計，累計70G Tokens）規模的200多倍。

更早之前，OpenAI披露，GPT-3.5的文本數據多達45TB，相當於472萬套中國四大名著（《三國演義》、《西遊記》、《水滸傳》、《紅樓夢》），而GPT-4在之前訓練數據集的基礎上又增加了多模態數據，規模達數十萬億級Token。

儘管大模型所展現出的重要能力，得益於背後的海量數據、蘊含了豐富的知識和智能。然而，當前大模型仍面臨「幻覺」、垂直行業信息缺乏等核心挑戰。其中，大模型生成不正確、無意義或不真實的文本的「幻覺」現象，受到廣泛關注，公開研究曾披露OpenAI GPT-4模型的錯誤率能達到20%以上，而造成這一現象的主要原因是大模型缺乏高質量數據支撐。

在一定程度上，數據決定了 AI 大模型「智能水平」的上限，但當前的千億大模型當中，80%都是「水分」，即大量的語料數據都是無意義、錯誤率極高的信息。

所以，提高數據的質量和多樣性等方式，對於未來大模型技術發展以及落地應用來說至關重要。

肖仰華現任復旦大學計算機科學技術學院教授、博導，上海市數據科學重點實驗室主任，復旦大學知識工場實驗室負責人，2009年獲得復旦大學博士學位後留校任教，研究方向包括知識圖譜、大模型以及社會科學啓發下的人工智能等。

肖仰華在演講中表示，當前大模型技術實現過程中，數據消耗了極大人力資源與資本投入，所以大模型落地的本質仍然是數據工程，數據在整個大模型技術體系中處於一個核心的基礎地位。

因此，如果大模型真的要走向千行百業，必須要解決「幻覺」問題，背後則需要運用合成數據、私域數據、個人數據、小模型、知識圖譜等技術方法，或協同方案。

「實際上，現在所謂的千億大模型可能存在極大『水分』，大多數參數可能只是在編碼瑣碎而雜多的事實，與大模型的智商關係不大。所以，我們有沒有可能在這1000億模型基礎之上將『水分』擠掉，把無用的知識全部榨乾，只留下100億、10億最關鍵的數據參數，它將決定大模型理性能力的關鍵。被擠掉的『水分』知識完全可以放在外部文檔系統裏，通過RAG系統能夠在應用時檢索到即可。」肖仰華對鈦媒體AGI表示。

他坦言，越來越多的人仍然是把精力花在找更多的數據而非質量，已經存在一些研究成果表明5%的優質指令數據有可能會比100%的一般指令取得更好的大模型微調效果，所以大衆不應該能再盲目追求數量，而是要去想一想數據質量如何提升。

對於數據消耗，肖仰華詳細分析了三個形成基於高質量數據的模型技術方案：合成數據、私域數據、個人數據。

首先是合成數據。互聯網數據雖然消耗殆盡，但人類可以在這個數據基礎之上合成更多的數據，可以在原始數據上不斷思考、反思、關聯、融合，產生更多的數據。合成數據是很重要的思路，不僅只是爲了緩解數據用光的問題，而且合成數據大部分是人類思考過程的數據，實際上可能比現在已經獲取的數據更多。通過合成數據把大量隱性、沒有記錄、沒有表達、過程的偏重思維的數據表達出來，這種數據對激發大模型的智商，或者理性能力至關重要。現在大模型其實只有知性，沒有理性，因此，合成數據就是提升理性能力非常重要的一個思路。使用模擬思考過程的合成數據訓練大模型，它才能知道應該怎麼去思考問題，而合成數據既是爲了緩解數據的「饑荒」，也是爲了提升大模型理性能力。

第二是私域數據。人類更多高質量、高價值的數據是在私域（垂直行業）當中，如果使用私域數據訓練大模型，可能會讓大模型變成行業專家。因此，用好私域數據是很關鍵的因素，數據有待挖掘的潛力仍然十分之大。

最後是個人數據。個人數據用於訓練大模型才剛剛開始，包括蘋果在內的很多手機終端廠商，下一步一定是用個人數據和大模型結合。因此，如何把個性大數據和大模型結合好，變成個性化大模型，爲每個人提供服務，對此未來還有很長的路要走。

不過，肖仰華也認爲，當前數據要素市場尚不健全，使得私域數據的匯聚和交易流通也是困難重重，挑戰非常之多。同時，大模型對數據利用的「貪婪程度」，也影響了數據的存儲、生產、加工、流通、消費各個環節的技術走向。

「模型的評估、數據的篩選和模型的訓練三件事應該是『三位一體』的，我們需要注重數據的用法。」肖仰華稱。

在肖仰華看來，AI大模型技術發展至今，仍然還處在一個非常早期的時代，從原理和源頭上還完全缺乏理論和方法，而且大模型參數量變大，並沒有讓它的智商和理性能力所有增長。

「Scaling Law很快就會見到天花板，或者說我們要重新去看待Scaling Law。並且，我們要從源頭上去梳理這些問題，去激發大模型的核心認知能力，提升大模型的理性水平。」肖仰華表示。

不過，部分學者對於合成數據的前景也有一些懷疑和爭議。

9月6日，OpenAI創始成員、AI+教育公司Eureka Labs創始人安德烈·卡帕蒂（Andrej Karpathy）在播客節目 No Priors節目中表示，Transformer 還遠沒到自己的極限，新的改進和創新主要集中在數據集方面。儘管使用合成數據對於創造下一代大模型有很大幫助，但合成數據往往多樣性和豐富度不足。

安德烈·卡帕蒂也承認，當前數十億級參數量的大模型存在很多無用信息，他認爲與互聯網數據本身有關，因爲其可能是由 0.001% 的認知數據和 99.999% 的相似或無用信息構成的。而當前的模型浪費了大量容量來記憶無關緊要的事情，原因是數據集沒有經過精細化的調整（curation）。而真正用於思考的認知核心（cognitive core）可以非常小，如果它需要查找信息，它會知道如何使用不同的工具。未來，未來當下一代模型發揮作用時，它們會出現不同的分工，比如程序員、產品經理等。

另一方面，肖仰華表示反對「機器取代人類」的這一觀點，他認爲技術的所有進步和發展還是要「以人爲本」，沒有人的文明是沒有意義的。

「現在大模型就很擅長，可以很容易做到一段文字一字不錯。事實上，文字偶爾出錯無傷大雅，重要的不是文字有否錯別字，而是文字背後是否是真知灼見。我們在太多無意義的細枝末節浪費太多精力，而對事關宏旨的本質卻又輕鬆放過。以大模型爲代表的AGI的到來，粉碎了人類無意義的事項，倒逼人類回歸價值本原。」肖仰華稱。

展望未來下一代萬億級參數的GPT模型，肖仰華指出，未來也許大家並不需要過多的數據，只需精煉即可。然而，在此之前，人類可能需要通過萬卡訓練和打造萬億模型，以此來探索智能的極限。但早期的那些千億、萬億的大模型，可能存在很大的「水分」。所以，人類必須先擁有「水分」充足的大模型，然後才有可能擠出這些「水分」，從而獲得一個小而精的模型。最後，基於這個小而精的基座模型進行微調與訓練，在小規模集群或單機上完成微調工作。

肖仰華強調，這波生成式大模型的泡沫早晚會破，天花板一定會到來。首先，人類產生優質數據的過程是相對緩慢的，大家不可能每天都產生對於世界的重大新認識，優質數據的緩慢生產速度爲成爲大模型發展的天花板。其次，合成數據的質量控制仍存在不少技術挑戰，且合成數據是基於原始真實數據推理而產生的，因此也會限制大模型獲得本質新穎的知識與能力，也就是大模型會遭遇所謂的演繹閉包困難。最後，即便訓練出來了參數規模是人腦的10倍、100倍的超級大模型，人類當下的智識水平可能限制我們去認識這樣一個超級智能形態。這樣一個可能的超級存在也就與人類無關。試想一下，如果螞蟻文明舉全體螞蟻世界之力造出了人類水平的智能，那麼這個相對於螞蟻而言神一樣的智能體一定是忙於探索星辰大海，去接近或實現一個更高的存在，而無暇去關照自己的造物主。

「AI 好比一個照妖鏡，將人類社會一切沒有價值的事情進行摧毀，倒逼大家去做真正有價值和有意義的事情。因此，AI 的未來發展倒逼所有行業回歸價值本原，要讓人類做真正有價值的事。」肖仰華表示。

（本文首發於鈦媒體App，作者｜林志佳，編輯｜胡潤峯）

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

对话复旦大学教授肖仰华：这轮生成式AI泡沫早晚会破，天花板一定会到来｜钛媒体AGI

對話復旦大學教授肖仰華：這輪生成式AI泡沫早晚會破，天花板一定會到來｜鈦媒體AGI

風險及免責聲明

聲明