對話百度：國內構建十萬卡集群的三大難題

图片系AI生成

自OpenAI发布ChatGPT两年来，大模型产业发展的脚步似乎慢了。然而大洋彼岸，xAI、Meta、OpenAI等众多科技巨头都在积极布局10万卡乃至更大规模的智算集群，冲刺AGI，国内同样循着相似的步调。然而，受限于芯片供应等原因，国内构建10万卡集群面临着三大难题：跨地域部署、多芯混训以及集群稳定性，这些难题包括技术和工程上的多重挑战。

十万卡，AGI的门槛

7 月 22 日，马斯克宣布位于美国田纳西州孟菲斯市的孟菲斯超级集群开始投入训练。该集群配备了 10 万个英伟达 H100 GPU，被称为 “世界上最强大的 AI 训练集群”。两个月后，马斯克在 X 平台上宣布该集群名为 “Colossus（巨人）”，将在未来几个月内再增加 10 万颗 GPU，其中 5 万颗将是更为先进的英伟达 H200。 Grok 3 大模型正在超算中心中进行训练，训练预计在三到四个月内完成，目标是在今年 12 月发布 Grok 3。

另一家科技巨头Meta也不示弱。Meta首席执行官马克·扎克伯格在第三季度财报电话会议上透露，Llama 4模型正在一个由10万片H100 GPU组成的集群上进行训练，并预计在明年首次推出。为了支持大模型，Meta预计本年度资本支出将高达400亿美元，比去年增加了超过42%。扎克伯格在财报电话会议中强调，明年将进一步加大对AI基础设施的投资。

而大模型领头羊OpenAI与微软的“黄金搭档”却因为计算集群的交付进度产生了分歧。此前微软与 OpenAI 合作共建一个代号为 “星际之门” 的巨型数据中心项目。这个项目预计成本超过 1150 亿美元，旨在容纳一台面向 AI 的配备数百万块 GPU 的超级计算机。

据报道，微软计划到明年年底向 OpenAI 提供约 30 万个英伟达最新的 GB200 图形处理器。然而面对步步紧逼的对手，阿尔特曼似乎对微软的速度不满意。完成66亿美元融资后，OpenAI开始寻求更加独立的数据中心和云服务方式并与甲骨文达成了协议，将在德克萨斯州的一个新数据中心租用服务器。该数据中心被誉为世界上最大的数据中心之一，未来可能容纳数十万个英伟达 AI 芯片。

百度杰出系统架构师、百度智能云AI计算部负责人王雁鹏表示，从美国科技企业疯狂布局10万卡可以看出，Scaling Law定律目前看仍然有效。公开数据显示，GPT-3的训练数据集包含3000亿个token，而GPT-4的训练数据集包含约13万亿个token。模型的持续升级，意味着数据量的指数级增长，而训练数据量的升级对计算集群也提出了挑战，10万卡的训练集群正是为了满足模型参数增长所带来的高算力需求。

10万卡集群难在哪？

10万卡虽好，但部署如此大规模的算力集群会面临很大挑战。王雁鹏介绍，经过多年的技术积累和产业实践，百度的百舸4.0已能够实现10万卡集群的高效管理，并通过HPN高性能网络、自动化混训切分策略、自研集合通信库等一系列产品技术创新，一定程度上解决了上述难题。

例如，美国老旧的电网就无法跟上大模型的步伐。由于集群耗电量巨大，美国的众多数据中心都遭遇了电网崩溃。一位微软工程师曾表示，为GPT-6搭建10万个H100训练集群时，整个电网发生了崩溃。据估算，一个10万卡集群每天的耗电量达到300万度，相当于北京市东城区一天的居民用电量。此外，10万卡集群需要大约 10 万平方米，相当于 14 个标准足球场的面积，如果想在单一建筑中部署这么大的集群，将面临选址困难和法规限制等挑战。

出于上述原因，美国科技公司的超大集群大多选择跨地域部署。为了突破单一数据中心的规模限制，谷歌和微软已着手将大规模模型训练扩展至多个数据中心园区。其中，谷歌的Gemini 1 Ultra模型已率先实现多数据中心训练。微软计划将其在凤凰城的AI训练基地扩展至10座建筑，自建24个数据中心，在多个超大规模园区互联，实施覆盖全美的大规模分布式训练。

王雁鹏介绍，由于电网配电限制、占地空间大等原因，十万卡集群需要跨楼、跨园区，甚至跨城部署。而这种跨地域部署势必会增加网络通信的复杂性。跨地域通信需要解决长距离通信延迟、拥塞控制等技术问题。

国内企业构建10万卡集群还面临着一个现实的困难：芯片。国内企业面临算力供应不稳定的挑战，较难构建单一大规模训练集群。现实情况是，企业内部会出现同一厂商不同代际芯片，或者不同厂商芯片共存的情况。这些芯片如何进行混部训练，同时保证混部训练的效率也是难题。

此外，随着芯片集成度的不断提高，芯片的故障率也会相应上升，英伟达H系列芯片的故障率比A系列高3-4倍。并且算力集群规模越大，其故障率就越高。按照H系列芯片的故障率水平，十万卡集群每20分钟就会出现故障。较高的故障率对稳定性训练保障提出了更高的要求。

王雁鹏介绍，包括百度在内的国内厂商正在破解这些难题。在跨地域方面，针对由于传输距离变长所产生的高延迟，百舸4.0已经构建了十万卡级别的超大规模HPN高性能网络，通过提供更高效的拓扑结构、更优的多路径负载均衡策略及通信策略，能够实现几十公里的跨地域通信。同时，在通信效率上，通过优化的拥塞控制算法、集合通信算法策略，将带宽有效率提升至95%，实现了完全无阻塞。最后，通过10ms级别超高精度网络监控，保障了网络稳定性。

在多芯混训方面，百舸能够将不同地点、不同规模的异构算力进行统一管理，构建起多芯资源池。当业务提交工作负载时，可自动进行芯片选型，依据集群剩余的芯片资源，选择性价比最高的芯片来运行任务，从而最大化地利用集群的剩余资源。最终，可实现高达95%的万卡多芯混合训练效能。

在集群稳定性方面，百舸提供全面的故障诊断手段，可以快速自动侦测到导致训练任务异常的节点故障。同时，百度自研的BCCL（百度集合通信库），能够快速定位故障同时提供自动化的容错能力，重新调度任务到健康节点，继续完成训练，目前已经将故障恢复时间从小时级降低到分钟级。

王雁鹏表示，公有云是企业进行大模型训练的主流方式。在10万卡集群出现之前，为满足企业大模型的训练需求，云厂商常常采用服务一个企业，搭建一个集群的方式。然而，这种方式存在明显劣势，即每个集群都是为特定企业服务，在企业的训练任务不处于高峰期时，集群中的计算资源可能会处于闲置状态，造成资源的浪费。而当10万卡集群出现后，云厂商就可以依靠这个大型集群为众多企业提供服务，根据不同企业的需求动态分配计算资源，这样不仅提高了资源利用率，也降低了企业使用云服务的成本，增强了云厂商在市场中的竞争优势。

（本文首发于钛媒体APP，作者 | 张帅，编辑 | 盖虹达）

圖片系AI生成

自OpenAI發佈ChatGPT兩年來，大模型產業發展的腳步似乎慢了。然而大洋彼岸，xAI、Meta、OpenAI等衆多科技巨頭都在積極佈局10萬卡乃至更大規模的智算集群，衝刺AGI，國內同樣循着相似的步調。然而，受限於芯片供應等原因，國內構建10萬卡集群面臨着三大難題：跨地域部署、多芯混訓以及集群穩定性，這些難題包括技術和工程上的多重挑戰。

十萬卡，AGI的門檻

7 月 22 日，馬斯克宣佈位於美國田納西州孟菲斯市的孟菲斯超級集群開始投入訓練。該集群配備了 10 萬個英偉達 H100 GPU，被稱爲「世界上最強大的 AI 訓練集群」。兩個月後，馬斯克在 X 平台上宣佈該集群名爲「Colossus（巨人）」，將在未來幾個月內再增加 10 萬顆 GPU，其中 5 萬顆將是更爲先進的英偉達 H200。 Grok 3 大模型正在超算中心中進行訓練，訓練預計在三到四個月內完成，目標是在今年 12 月發佈 Grok 3。

另一家科技巨頭Meta也不示弱。Meta首席執行官馬克·扎克伯格在第三季度業績電話會議上透露，Llama 4模型正在一個由10萬片H100 GPU組成的集群上進行訓練，並預計在明年首次推出。爲了支持大模型，Meta預計本年度資本支出將高達400億美元，比去年增加了超過42%。扎克伯格在業績電話會議中強調，明年將進一步加大對AI基礎設施的投資。

而大模型領頭羊OpenAI與微軟的「黃金搭檔」卻因爲計算集群的交付進度產生了分歧。此前微軟與 OpenAI 合作共建一個代號爲「星際之門」的巨型數據中心項目。這個項目預計成本超過 1150 億美元，旨在容納一臺面向 AI 的配備數百萬塊 GPU 的超級計算機。

據報道，微軟計劃到明年年底向 OpenAI 提供約 30 萬個英偉達最新的 GB200 圖形處理器。然而面對步步緊逼的對手，阿爾特曼似乎對微軟的速度不滿意。完成66億美元融資後，OpenAI開始尋求更加獨立的數據中心和雲服務方式並與甲骨文達成了協議，將在德克薩斯州的一個新數據中心租用服務器。該數據中心被譽爲世界上最大的數據中心之一，未來可能容納數十萬個英偉達 AI 芯片。

百度傑出系統架構師、百度智能雲AI計算部負責人王雁鵬表示，從美國科技企業瘋狂佈局10萬卡可以看出，Scaling Law定律目前看仍然有效。公開數據顯示，GPT-3的訓練數據集包含3000億個token，而GPT-4的訓練數據集包含約13萬億個token。模型的持續升級，意味着數據量的指數級增長，而訓練數據量的升級對計算集群也提出了挑戰，10萬卡的訓練集群正是爲了滿足模型參數增長所帶來的高算力需求。

10萬卡集群難在哪？

10萬卡雖好，但部署如此大規模的算力集群會面臨很大挑戰。王雁鵬介紹，經過多年的技術積累和產業實踐，百度的百舸4.0已能夠實現10萬卡集群的高效管理，並通過HPN高性能網絡、自動化混訓切分策略、自研集合通信庫等一系列產品技術創新，一定程度上解決了上述難題。

例如，美國老舊的電網就無法跟上大模型的步伐。由於集群耗電量巨大，美國的衆多數據中心都遭遇了電網崩潰。一位微軟工程師曾表示，爲GPT-6搭建10萬個H100訓練集群時，整個電網發生了崩潰。據估算，一個10萬卡集群每天的耗電量達到300萬度，相當於北京市東城區一天的居民用電量。此外，10萬卡集群需要大約 10 萬平方米，相當於 14 個標準足球場的面積，如果想在單一建築中部署這麼大的集群，將面臨選址困難和法規限制等挑戰。

出於上述原因，美國科技公司的超大集群大多選擇跨地域部署。爲了突破單一數據中心的規模限制，谷歌和微軟已着手將大規模模型訓練擴展至多個數據中心園區。其中，谷歌的Gemini 1 Ultra模型已率先實現多數據中心訓練。微軟計劃將其在鳳凰城的AI訓練基地擴展至10座建築，自建24個數據中心，在多個超大規模園區互聯，實施覆蓋全美的大規模分佈式訓練。

王雁鵬介紹，由於電網配電限制、佔地空間大等原因，十萬卡集群需要跨樓、跨園區，甚至跨城部署。而這種跨地域部署勢必會增加網絡通信的複雜性。跨地域通信需要解決長距離通信延遲、擁塞控制等技術問題。

國內企業構建10萬卡集群還面臨着一個現實的困難：芯片。國內企業面臨算力供應不穩定的挑戰，較難構建單一大規模訓練集群。現實情況是，企業內部會出現同一廠商不同代際芯片，或者不同廠商芯片共存的情況。這些芯片如何進行混部訓練，同時保證混部訓練的效率也是難題。

此外，隨着芯片集成度的不斷提高，芯片的故障率也會相應上升，英偉達H系列芯片的故障率比A系列高3-4倍。並且算力集群規模越大，其故障率就越高。按照H系列芯片的故障率水平，十萬卡集群每20分鐘就會出現故障。較高的故障率對穩定性訓練保障提出了更高的要求。

王雁鵬介紹，包括百度在內的國內廠商正在破解這些難題。在跨地域方面，針對由於傳輸距離變長所產生的高延遲，百舸4.0已經構建了十萬卡級別的超大規模HPN高性能網絡，通過提供更高效的拓撲結構、更優的多路徑負載均衡策略及通信策略，能夠實現幾十公里的跨地域通信。同時，在通信效率上，通過優化的擁塞控制算法、集合通信算法策略，將帶寬有效率提升至95%，實現了完全無阻塞。最後，通過10ms級別超高精度網絡監控，保障了網絡穩定性。

在多芯混訓方面，百舸能夠將不同地點、不同規模的異構算力進行統一管理，構建起多芯資源池。當業務提交工作負載時，可自動進行芯片選型，依據集群剩餘的芯片資源，選擇性價比最高的芯片來運行任務，從而最大化地利用集群的剩餘資源。最終，可實現高達95%的萬卡多芯混合訓練效能。

在集群穩定性方面，百舸提供全面的故障診斷手段，可以快速自動偵測到導致訓練任務異常的節點故障。同時，百度自研的BCCL（百度集合通信庫），能夠快速定位故障同時提供自動化的容錯能力，重新調度任務到健康節點，繼續完成訓練，目前已經將故障恢復時間從小時級降低到分鐘級。

王雁鵬表示，公有云是企業進行大模型訓練的主流方式。在10萬卡集群出現之前，爲滿足企業大模型的訓練需求，雲廠商常常採用服務一個企業，搭建一個集群的方式。然而，這種方式存在明顯劣勢，即每個集群都是爲特定企業服務，在企業的訓練任務不處於高峰期時，集群中的計算資源可能會處於閒置狀態，造成資源的浪費。而當10萬卡集群出現後，雲廠商就可以依靠這個大型集群爲衆多企業提供服務，根據不同企業的需求動態分配計算資源，這樣不僅提高了資源利用率，也降低了企業使用雲服務的成本，增強了雲廠商在市場中的競爭優勢。

（本文首發於鈦媒體APP，作者 | 張帥，編輯 | 蓋虹達）

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

对话百度：国内构建十万卡集群的三大难题

對話百度：國內構建十萬卡集群的三大難題

十万卡，AGI的门槛

10万卡集群难在哪？

十萬卡，AGI的門檻

10萬卡集群難在哪？

風險及免責聲明

聲明