share_log

对话百度:国内构建十万卡集群的三大难题

對話百度:國內構建十萬卡集群的三大難題

鈦媒體 ·  16:20
big

圖片系AI生成

自OpenAI發佈ChatGPT兩年來,大模型產業發展的腳步似乎慢了。然而大洋彼岸,xAI、Meta、OpenAI等衆多科技巨頭都在積極佈局10萬卡乃至更大規模的智算集群,衝刺AGI,國內同樣循着相似的步調。然而,受限於芯片供應等原因,國內構建10萬卡集群面臨着三大難題:跨地域部署、多芯混訓以及集群穩定性,這些難題包括技術和工程上的多重挑戰。

十萬卡,AGI的門檻

7 月 22 日,馬斯克宣佈位於美國田納西州孟菲斯市的孟菲斯超級集群開始投入訓練。該集群配備了 10 萬個英偉達 H100 GPU,被稱爲 「世界上最強大的 AI 訓練集群」。兩個月後,馬斯克在 X 平台上宣佈該集群名爲 「Colossus(巨人)」,將在未來幾個月內再增加 10 萬顆 GPU,其中 5 萬顆將是更爲先進的英偉達 H200。 Grok 3 大模型正在超算中心中進行訓練,訓練預計在三到四個月內完成,目標是在今年 12 月發佈 Grok 3。

另一家科技巨頭Meta也不示弱。Meta首席執行官馬克·扎克伯格在第三季度業績電話會議上透露,Llama 4模型正在一個由10萬片H100 GPU組成的集群上進行訓練,並預計在明年首次推出。爲了支持大模型,Meta預計本年度資本支出將高達400億美元,比去年增加了超過42%。扎克伯格在業績電話會議中強調,明年將進一步加大對AI基礎設施的投資。

而大模型領頭羊OpenAI與微軟的「黃金搭檔」卻因爲計算集群的交付進度產生了分歧。此前微軟與 OpenAI 合作共建一個代號爲 「星際之門」 的巨型數據中心項目。這個項目預計成本超過 1150 億美元,旨在容納一臺面向 AI 的配備數百萬塊 GPU 的超級計算機。

據報道,微軟計劃到明年年底向 OpenAI 提供約 30 萬個英偉達最新的 GB200 圖形處理器。然而面對步步緊逼的對手,阿爾特曼似乎對微軟的速度不滿意。完成66億美元融資後,OpenAI開始尋求更加獨立的數據中心和雲服務方式並與甲骨文達成了協議,將在德克薩斯州的一個新數據中心租用服務器。該數據中心被譽爲世界上最大的數據中心之一,未來可能容納數十萬個英偉達 AI 芯片。

百度傑出系統架構師、百度智能雲AI計算部負責人王雁鵬表示,從美國科技企業瘋狂佈局10萬卡可以看出,Scaling Law定律目前看仍然有效。公開數據顯示,GPT-3的訓練數據集包含3000億個token,而GPT-4的訓練數據集包含約13萬億個token。模型的持續升級,意味着數據量的指數級增長,而訓練數據量的升級對計算集群也提出了挑戰,10萬卡的訓練集群正是爲了滿足模型參數增長所帶來的高算力需求。

10萬卡集群難在哪?

10萬卡雖好,但部署如此大規模的算力集群會面臨很大挑戰。王雁鵬介紹,經過多年的技術積累和產業實踐,百度的百舸4.0已能夠實現10萬卡集群的高效管理,並通過HPN高性能網絡、自動化混訓切分策略、自研集合通信庫等一系列產品技術創新,一定程度上解決了上述難題。

例如,美國老舊的電網就無法跟上大模型的步伐。由於集群耗電量巨大,美國的衆多數據中心都遭遇了電網崩潰。一位微軟工程師曾表示,爲GPT-6搭建10萬個H100訓練集群時,整個電網發生了崩潰。據估算,一個10萬卡集群每天的耗電量達到300萬度,相當於北京市東城區一天的居民用電量。此外,10萬卡集群需要大約 10 萬平方米,相當於 14 個標準足球場的面積,如果想在單一建築中部署這麼大的集群,將面臨選址困難和法規限制等挑戰。

出於上述原因,美國科技公司的超大集群大多選擇跨地域部署。爲了突破單一數據中心的規模限制,谷歌和微軟已着手將大規模模型訓練擴展至多個數據中心園區。其中,谷歌的Gemini 1 Ultra模型已率先實現多數據中心訓練。微軟計劃將其在鳳凰城的AI訓練基地擴展至10座建築,自建24個數據中心,在多個超大規模園區互聯,實施覆蓋全美的大規模分佈式訓練。

big

王雁鵬介紹,由於電網配電限制、佔地空間大等原因,十萬卡集群需要跨樓、跨園區,甚至跨城部署。而這種跨地域部署勢必會增加網絡通信的複雜性。跨地域通信需要解決長距離通信延遲、擁塞控制等技術問題。

國內企業構建10萬卡集群還面臨着一個現實的困難:芯片。國內企業面臨算力供應不穩定的挑戰,較難構建單一大規模訓練集群。現實情況是,企業內部會出現同一廠商不同代際芯片,或者不同廠商芯片共存的情況。這些芯片如何進行混部訓練,同時保證混部訓練的效率也是難題。

此外,隨着芯片集成度的不斷提高,芯片的故障率也會相應上升,英偉達H系列芯片的故障率比A系列高3-4倍。並且算力集群規模越大,其故障率就越高。按照H系列芯片的故障率水平,十萬卡集群每20分鐘就會出現故障。較高的故障率對穩定性訓練保障提出了更高的要求。

王雁鵬介紹,包括百度在內的國內廠商正在破解這些難題。在跨地域方面,針對由於傳輸距離變長所產生的高延遲,百舸4.0已經構建了十萬卡級別的超大規模HPN高性能網絡,通過提供更高效的拓撲結構、更優的多路徑負載均衡策略及通信策略,能夠實現幾十公里的跨地域通信。同時,在通信效率上,通過優化的擁塞控制算法、集合通信算法策略,將帶寬有效率提升至95%,實現了完全無阻塞。最後,通過10ms級別超高精度網絡監控,保障了網絡穩定性。

在多芯混訓方面,百舸能夠將不同地點、不同規模的異構算力進行統一管理,構建起多芯資源池。當業務提交工作負載時,可自動進行芯片選型,依據集群剩餘的芯片資源,選擇性價比最高的芯片來運行任務,從而最大化地利用集群的剩餘資源。最終,可實現高達95%的萬卡多芯混合訓練效能。

在集群穩定性方面,百舸提供全面的故障診斷手段,可以快速自動偵測到導致訓練任務異常的節點故障。同時,百度自研的BCCL(百度集合通信庫),能夠快速定位故障同時提供自動化的容錯能力,重新調度任務到健康節點,繼續完成訓練,目前已經將故障恢復時間從小時級降低到分鐘級。

王雁鵬表示,公有云是企業進行大模型訓練的主流方式。在10萬卡集群出現之前,爲滿足企業大模型的訓練需求,雲廠商常常採用服務一個企業,搭建一個集群的方式。然而,這種方式存在明顯劣勢,即每個集群都是爲特定企業服務,在企業的訓練任務不處於高峰期時,集群中的計算資源可能會處於閒置狀態,造成資源的浪費。而當10萬卡集群出現後,雲廠商就可以依靠這個大型集群爲衆多企業提供服務,根據不同企業的需求動態分配計算資源,這樣不僅提高了資源利用率,也降低了企業使用雲服務的成本,增強了雲廠商在市場中的競爭優勢。

(本文首發於鈦媒體APP,作者 | 張帥,編輯 | 蓋虹達)

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論