对话百度:国内构建十万卡集群的三大难题

国内企业面临算力供应不稳定的挑战,较难构建单一大规模训练集群。

自OpenAI发布ChatGPT两年来,大模型产业发展的脚步似乎慢了。然而大洋彼岸,xAI、Meta、OpenAI等众多科技巨头都在积极布局10万卡乃至更大规模的智算集群,冲刺AGI,国内同样循着相似的步调。然而,受限于芯片供应等原因,国内构建10万卡集群面临着三大难题:跨地域部署、多芯混训以及集群稳定性,这些难题包括技术和工程上的多重挑战。

十万卡,AGI的门槛

7 月 22 日,马斯克宣布位于美国田纳西州孟菲斯市的孟菲斯超级集群开始投入训练。该集群配备了 10 万个英伟达 H100 GPU,被称为 “世界上最强大的 AI 训练集群”。两个月后,马斯克在 X 平台上宣布该集群名为 “Colossus(巨人)”,将在未来几个月内再增加 10 万颗 GPU,其中 5 万颗将是更为先进的英伟达 H200。 Grok 3 大模型正在超算中心中进行训练,训练预计在三到四个月内完成,目标是在今年 12 月发布 Grok 3。

另一家科技巨头Meta也不示弱。Meta首席执行官马克·扎克伯格在第三季度财报电话会议上透露,Llama 4模型正在一个由10万片H100 GPU组成的集群上进行训练,并预计在明年首次推出。为了支持大模型,Meta预计本年度资本支出将高达400亿美元,比去年增加了超过42%。扎克伯格在财报电话会议中强调,明年将进一步加大对AI基础设施的投资。

而大模型领头羊OpenAI与微软的“黄金搭档”却因为计算集群的交付进度产生了分歧。此前微软与 OpenAI 合作共建一个代号为 “星际之门” 的巨型数据中心项目。这个项目预计成本超过 1150 亿美元,旨在容纳一台面向 AI 的配备数百万块 GPU 的超级计算机。

据报道,微软计划到明年年底向 OpenAI 提供约 30 万个英伟达最新的 GB200 图形处理器。然而面对步步紧逼的对手,阿尔特曼似乎对微软的速度不满意。完成66亿美元融资后,OpenAI开始寻求更加独立的数据中心和云服务方式并与甲骨文达成了协议,将在德克萨斯州的一个新数据中心租用服务器。该数据中心被誉为世界上最大的数据中心之一,未来可能容纳数十万个英伟达 AI 芯片。

百度杰出系统架构师、百度智能云AI计算部负责人王雁鹏表示,从美国科技企业疯狂布局10万卡可以看出,Scaling Law定律目前看仍然有效。公开数据显示,GPT-3的训练数据集包含3000亿个token,而GPT-4的训练数据集包含约13万亿个token。模型的持续升级,意味着数据量的指数级增长,而训练数据量的升级对计算集群也提出了挑战,10万卡的训练集群正是为了满足模型参数增长所带来的高算力需求。

10万卡集群难在哪?

10万卡虽好,但部署如此大规模的算力集群会面临很大挑战。王雁鹏介绍,经过多年的技术积累和产业实践,百度的百舸4.0已能够实现10万卡集群的高效管理,并通过HPN高性能网络、自动化混训切分策略、自研集合通信库等一系列产品技术创新,一定程度上解决了上述难题。

例如,美国老旧的电网就无法跟上大模型的步伐。由于集群耗电量巨大,美国的众多数据中心都遭遇了电网崩溃。一位微软工程师曾表示,为GPT-6搭建10万个H100训练集群时,整个电网发生了崩溃。据估算,一个10万卡集群每天的耗电量达到300万度,相当于北京市东城区一天的居民用电量。此外,10万卡集群需要大约 10 万平方米,相当于 14 个标准足球场的面积,如果想在单一建筑中部署这么大的集群,将面临选址困难和法规限制等挑战。

出于上述原因,美国科技公司的超大集群大多选择跨地域部署。为了突破单一数据中心的规模限制,谷歌和微软已着手将大规模模型训练扩展至多个数据中心园区。其中,谷歌的Gemini 1 Ultra模型已率先实现多数据中心训练。微软计划将其在凤凰城的AI训练基地扩展至10座建筑,自建24个数据中心,在多个超大规模园区互联,实施覆盖全美的大规模分布式训练。

转载请注明出处、作者和本文链接
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App