万卡集群：字节搭建12288块GPU的单一集群

🕗 发布于 2024-03-01 10:54 深度学习 python gpu算力集群 ByteDance

文章目录

论文
Reference

论文

MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs

在这里插入图片描述
论文链接：https://arxiv.org/abs/2402.15627

在这里插入图片描述

从结构上讲，网络是基于Clos的“胖树”结构。其中一个改进是在顶层交换机上把上行与下行链路分开，有效降低冲突率。

在这里插入图片描述

以下内容转载自道明实验室

这可能是一段时间以来，我看到的写的最好的来自国内公司的论文：

非常客观，非常细节，非常实战，非常诚实也非常自信。

我推荐所有对AI训练集群感兴趣的朋友认真阅读。

因为只是短评，我就略过细节挑一些重点，怎么部署集群过于技术化，就不涉及了。至于GPU与光模块的配比关系也不涉及，国内公司因为芯片限制，网络部分只要做到匹配即可，算力利用率（MFU）高不代表算力高，从规模上讲，这个集群是最高规格之一，但是从性能而言，一定不能算顶级的了。

重点反而是在集群规模达到万卡以上，会碰到的问题，以及字节的解决方案，重点在于，如果论文是真实的（很大概率），那么我们对于下一阶段国产模型能力的大幅提升应该有足够的信心。

1、大幅优化的初始化时间，在没经过优化的情况下，2048张GPU的集群初始化时间是1047秒，经过各种优化后，初始化时间下降到5秒以下，10000张GPU集群的初始化时间降到30秒以下；

2、错误后快速恢复能力。论文里把这个叫做容错能力（Fault Tolerance），我认为不是非常准确，因为正如论文中的表述，万卡集群会不可避免的随时随地发生软硬件故障，这些都要导致训练进程停下，再开始（GPU其实是很脆弱的，CUDA经常会有BUG，硬盘很容易坏，数据里出现一个奇怪的字符，也可能导致程序错误，等等，反正，只要集群超过上百个节点，各种奇奇怪怪的故障都会有可能发生）。所以第一层保障机制是Checkpointing，也就是高频的把训练进程保存下来，一旦宕机，快速重启后，就加载上一次存档，继续训练。为了加快这种经常发生的读写速度，论文介绍了文件系统的优化，技术细节略过。同样的，上一节提到的初始化时间的大幅缩减，在这里也起到了巨大的作用，毕竟重启是家常便饭。第三层保障，就是建立完整的系统状态监控及自动检测机制，对超过90%的故障都能自动检测，定位，并快速恢复。

3、截止2023年9月，字节建立起了超过一万张Ampere架构GPU（A100和A800）的集群，目前正在建设Hopper架构的集群（H100和H800）。

4、那些被简单描述的“血泪教训”。GPU的个性（同样的卡，就是有那么几张会慢一点，奇怪一点），网络闪断，不必要的等待，等等。这些问题，不是一直跟几百台以上规模的集群打交道，是不可能有认知的。所以，大模型训练本质上是一个工程问题。

5、显然，字节花了接近一年时间去“搞定”基础设施，这，或许是模型研发生命周期里最重要的一步。

Reference

https://mp.weixin.qq.com/s/xSE_7TKPMcJjlxywbFyL2g

原文地址：https://blog.csdn.net/JishuFengyang/article/details/136387264

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

企业注册资金如何实缴？步骤与方式详解
如果选择非货币出资方式，需要按照评估作价的结果，将实物、知识产权、土地使用权等转移到企业名下，并办理相关的产权变更手续。需要注意的是，无论采用哪种实缴方式，都要保证出资的真实性和合法性，并且按照相关法
阅读更多2024-10-12
img标签的title和alt的区别，png、jpg、gif、格式区别
在seo的层面上，蜘蛛抓取不到图片的内容，所以前端在写img标签的时候为了增加seo效果要加入alt属性来描述这张图是什么内容或者关键词。webp：同时支持有损或者无损压缩，相同质量的图片，webp具
阅读更多2024-10-12
如何做独立站将产品卖到国外？从零开始打造你的全球电商帝国
如果你也想通过独立站将产品卖到海外，那么这份超长攻略将为你指明方向，并提供更全面的建议和指导，助你打造属于你的全球电商帝国！物流是影响客户购物体验的关键因素，你需要建立高效的物流体系，确保产品能够及时
阅读更多2024-10-12
vue3之defineComponent
/script>h1 {</style>使用可以更好地定义组件的 props、emits 和其他选项，从而提供更严格的类型检查。在这个示例中，帮助我们定义了props和emits的类
阅读更多2024-10-12
收银系统源码营销活动-商品打折特价
连锁店收银系统源码，门店pos端营销活动！
阅读更多2024-10-12
ToSpeak
dd = pyautogui.alert(text='密码不对哦,请联络开发者索取"Email:outlook_81F05FD9BC1AC738@outlook.com" ', t
阅读更多2024-10-12
新的养猫智商税：自动猫砂盆？铲屎官们看完这篇再决定。
之前以为自动猫砂盆就是个智商税，就坚持使用普通的猫砂盆，这样的话，猫咪拉完屎后便便就要等着我们去手动铲掉，遇到像上班不在家的情况，猫砂盆就没人照顾，导致猫砂盆内的便便残留太久，产生臭味，时间长了还可能
阅读更多2024-10-12
JAVA——异常
1.定义异常类2.写继承关系3.空参构造4.带参构造。
阅读更多2024-10-12
[供应链] 框架协议采购
本文主要讲解框架协议采购的相关知识点
阅读更多2024-10-12
一道Fortran题（Fortran）
我勒个！
阅读更多2024-10-12

万卡集群：字节搭建12288块GPU的单一集群

文章目录

论文

Reference

相关文章