LLM：并行化训练

🕗 发布于 2024-08-01 23:36 人工智能

llama3.1论文称使用了：张量并行（TP）、流水线并行（PP）、上下文并行（CP）和数据并行（DP）。
在这里插入图片描述

并行化可以先粗分为：
1.数据并行
2.模型并行：张量并行，流水线并行
3.上下文并行（llama3.1）
4.deepspeed （专门提出）

所以主要就是数据并行（DP）、张量并行（TP）、流水线并行（PP）。还有deepspeed。

1.数据并行

数据并行是最常见的并行形式，因为它很简单。在数据并行训练中，数据集被分割成几个碎片，每个碎片被分配到一个设备上。这相当于沿批次（Batch）维度对训练过程进行并行化。每个设备将持有一个完整的模型副本，并在分配的数据集碎片上进行训练。在反向传播之后，模型的梯度将会聚合（All Reduce），以便在不同设备上的模型参数能够保持同步。

在这里插入图片描述
DP（Data Parallelism）：早期数据并行模式，一般采用参数服务器(Parameters Server)这一编程框架。实际中多用于单机多卡。
DDP（Distributed Data Parallelism）：分布式数据并行，采用Ring AllReduce的通讯方式，多用于多机多卡场景。
可见：https://www.bilibili.com/video/BV1mm42137X8/?share_source=copy_web&vd_source=29af710704ae24d166ca951b4c167d53

2.张量并行

张量并行训练是将一个张量沿特定维度分成 N 块，每个设备只持有整个张量的 1/N，同时不影响计算图的正确性。
以一般的矩阵乘法为例，假设我们有 C = AB。我们可以将B沿着列分割成 [B0 B1 B2 … Bn]，每个设备持有一列。然后我们将 A 与每个设备上 B 中的每一列相乘，我们将得到 [AB0 AB1 AB2 … ABn] 。此刻，每个设备仍然持有一部分的结果，例如，设备(rank=0)持有 AB0。为了确保结果的正确性，我们需要收集全部的结果，并沿列维串联张量。通过这种方式，我们能够将张量分布在设备上，同时确保计算流程保持正确。
也可以对这两个矩阵都进行切分。
在这里插入图片描述

3.流水线并行

流水线并行的核心思想是，模型按层分割成若干块，每块都交给一个设备。
在前向传播过程中，每个设备将中间的激活传递给下一个阶段。
在后向传播过程中，每个设备将输入张量的梯度传回给前一个流水线阶段。

在这里插入图片描述
该方案有个很大的缺陷是GPU的利用率太低，当一个GPU进行计算的时候，其他层的GPU都是闲置的。为了解决这个缺陷，谷歌提出了GPipe 流水线并行（Pipeline model parallesim ），下图来自GPipe官方论文。

在这里插入图片描述

方案引用了一个chunks的超参,将每一个mini-batch数据划分到chunks个micro-batches上。

4.deepspeed

官方文档：https://www.deepspeed.ai/

模型训练时的大概流程

在这里插入图片描述
正向传播时（FWD），上一层fp16的激活值和fp16的参数参与了计算，得到这一层的fp16激活值
反向传播时（BWD），本层的激活值和参数参与计算，得到fp16的梯度
参数更新时，fp16的梯度以及fp32的参数副本，momentum和variance参与计算，最终算出更新后的fp32参数、momentum和variance，然后将fp32的参数转化为fp16进行本层的参数更新

训练过程中的显存占用分析:

训练大模型时通常会采用AdamW优化器，并用混合精度训练来加速训练，基于这个前提分析显存占用。
请添加图片描述
来自：https://zhuanlan.zhihu.com/p/624740065

来自：https://zhuanlan.zhihu.com/p/639872915

按我的理解：fp16的模型参数，fp16的梯度，fp32的优化器状态：模型参数、动量、方差。最终就是2+2+4*(1+1+1)=16。

推理过程中的显存占用分析

请添加图片描述

deepspeed详解

在这里插入图片描述
可以看到baseline的参数估计就是我理解的这种，条件是提到的那些，k是优化器状态，2是模型参数，2是梯度。

ZeRO技术优化重点便是优化Model States 显存占用。在整个训练过程中， States只是会在对应算子计算时候才会被用到，optimizer states只在最终做update时才用到。数据并行中，gradients只在最后做AllReduce和updates时才用到。参数W只在做forward和backward的那一刻才用到，ZeRO技术针对以上做了以下优化：

Stage 0: 禁用所有类型的分片，仅使用 DDP (Distributed Data Parallel) ，对应下图的Baseline情况；

Stage 1: 把优化器状态(optimizer states) 分片到每个数据并行的工作进程(每个GPU)下，对应下图Pos

Stage 2: 把优化器状态(optimizer states) + 梯度(gradients) 分片到每个数据并行的工作进程(每个GPU)下，对应下图Pos + Pg的情况；

Stage 3: 把优化器状态(optimizer states) + 梯度(gradients) + 模型参数(parameters) 分片到每个数据并行的工作进程(每个GPU)下，Pos + Pg +Pp的情况；

Optimizer Offload: 在Stage2的基础上，把梯度和优化器状态下沉到CPU内存或硬盘上

Param Offload: 在Stage3的基础上，把模型参数下沉到CPU内存或硬盘上

deepspeed的实现需要设置一个config文件，在训练时一般使用zero2。

参考：
https://zhuanlan.zhihu.com/p/598714869

https://zhuanlan.zhihu.com/p/688873027
https://zhuanlan.zhihu.com/p/685472786
https://zhuanlan.zhihu.com/p/624740065
【动画理解Pytorch 大模型分布式训练技术 DP，DDP，DeepSpeed ZeRO技术】
https://zhuanlan.zhihu.com/p/639872915

原文地址：https://blog.csdn.net/qq_43814415/article/details/140857209

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：nginx负载均衡、java、tomcat装包
下一篇：Session

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20