自学内容网 自学内容网

Megatron-lm、DeepSpeed

1、为了训练更多的数据、更大的模型,提出了并行训练框架。

2、并行的方式:数据并行、模型并行(张量并行、流水线并行)。

3、Megatron-LM 综合应用了数据并行(Data Parallelism),张量并行(Tensor Parallelism)和流水线并行(Pipeline Parallelism)。

4、DeepSpeed的核心是ZeRO(Zero Redundancy Optimizer):显存优化的数据并行(data parallelism, DP)方案。

ZeRO将模型训练阶段,每张卡中显存内容分为两类:模型(参数、梯度、Adam状态)、剩余(激活值、临时缓冲区、显存碎片)。

猛猿-大模型预训练系列


原文地址:https://blog.csdn.net/jinselizhi/article/details/138915167

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!