litgpt框架笔记

🕗 发布于 2024-09-19 11:17 笔记

litgpt的fsdp执行原理

python __main__.py finetune_full meta-llama/Lflama-2-7b-hf --config /home/xingzhuang/llm/litgpt/config_hub/finetune/llama-2-7b/full.yaml  
（ __main__.py 在litgpt/litgpt目录下）

执行该命令大致流程：

先讲讲full.yaml 中的global_batch_size和micro_batch_size参数的含义
- global_batch_size表示optimizer做一次step的总batch数，global_batch_size会均分给所有GPU，不妨记为local_batch，当某个GPU完成了自己的local_batch后optimizer才能做step更新参数
- micro_batch_size，每个GPU会将自己的local_batch进一步拆分成micro_batch，拆分大小为micro_batch_size
大致执行流程，主要在litgpt/finetune/full.py文件的fit函数中
batch = next(train_iterator)每次拿到一个micro_batch做forward
is_accumulating表示本轮micro_batch forward完成后，该GPU是否完成了local_batch
is_accumulating参数会传给fabric.no_backward_sync判断本轮forward对应的backward是否需要同步其他GPU的local_batch的梯度，其实就是保证local_batch累加的梯度都是自身local_batch的梯度
- 若is_accumulating为True表示该GPU还未完成local_batch，所以不需要同步其他GPU的local_batch的梯度（具体来讲，就是当某个GPU拉取某个layer的全部权重并算出该layer的梯度后，并不将梯度scatter给其他的GPU）
- 若is_accumulating为False表示该GPU已完成local_batch，所以会同步其他GPU的local_batch梯度
当所有GPU都完成了自己的local_batch后，则会执行optimizer.step()做一次梯度优化

pytorch-lightning的fsdp+tp原理

python train.py
(train.py在pytorch-lightning/examples/fabric/tensor_parallel/train.py)

执行该命令大致执行流程如下：

litgpt适配fsdp+tp

1.把pytorch-lightning/examples/tensor_parallel文件夹下的parallelism.py和model.py复制到litgpt/litgpt/finetune/下
2. 把full.py中的strategy改为

strategy = ModelParallelStrategy(
            # User-defined function that applies the desired parallelizations specific to the model
            # (TP, FSDP2, activation checkpointing, ...)
            parallelize_fn=parallelize,
            # Define the size of the 2D parallelism
            # Set to "auto" to apply TP intra-node and DP inter-node
            data_parallel_size="auto",  
            tensor_parallel_size="auto",
        )

3.在litgpt/litgpt/model.py下的class CausalSelfAttention的__init__.py方法中加上代码

self.n_heads = config.n_head
self.n_kv_heads = config.n_head

4.修改parallelism.py文件

5.修改litgpt/litgpt/utils.py的load_checkpoint方法

def load_checkpoint(fabric: L.Fabric, model: nn.Module, checkpoint_path: Path, strict: bool = True) -> None:
    if isinstance(fabric.strategy, FSDPStrategy):
        fabric.load_raw(checkpoint_path, model, strict=strict)
    elif isinstance(fabric.strategy, ModelParallelStrategy):
        fabric.load_raw(checkpoint_path, model, strict=False)
    else:
        state_dict = lazy_load(checkpoint_path)
        state_dict = state_dict.get("model", state_dict)
        model.load_state_dict(state_dict, strict=strict)

6.修改litgpt/litgpt/model.py 下的class CausalSelfAttention：
把self.attn改成self.attn_w

7.有个包貌似有问题
/home/xingzhuang/software/anaconda3/envs/litgpt/lib/python3.9/site-packages/torch/distributed/tensor/parallel/api.py
临时解决方法：把/home/xingzhuang/software/anaconda3/envs/litgpt/lib/python3.9/site-packages/torch/distributed/tensor/parallel/style.py的_apply函数中
NotImplementedError改为print，不终止报错

原文地址：https://blog.csdn.net/weixin_46347213/article/details/142327462

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：c#的委托、事件
下一篇：Java-ArrayList和LinkedList区别

python包管理工具pip和conda的使用对比
pip相对于conda,对应包的依赖关系管理不强，坏处是容易造成包冲突，好处是对于一些特定需要，可以避免处理包依赖关系，直接使用pip安装。一般deactivate 两次即可。2.1.0是相应包的版本
阅读更多2024-11-08
github.io出现的问题及解决方案
手动修改DNS，尝试过很多个DNS解析服务，只有首选DNS服务器设置为114.114.114.114，备用设置为208.67.222.222成功了一个下午，之后莫名打回原形，使用DNS jupmpe
阅读更多2024-11-08
HTML 块级元素和内联（行内）元素详解
块级元素是页面中的结构元素，它们独占一行，通常用于搭建页面的主要框架，如段落、容器、标题等。它们无论其内容多少，都会占据父元素的整个宽度。这种特性使得块级元素特别适合用于页面的整体布局和内容的分区组织
阅读更多2024-11-08
ACM社团第一次测试题解（禁止直接复制粘贴提交）
思路：解法一：暴力比较，两个数之间一直比较得出中位数解法二：快排函数，数组中间值即为中位数代码：1.c语言版：2.c++版：求和：思路：判断是否有两个数相加为第三个数即可代码：1.c语言版：2.c++
阅读更多2024-11-08
机器学习——排序特征（Ranking Features）原理详解
通过以上步骤，我们了解了排序特征的原理及实现过程。排序特征通过特征工程和点对、列表排序算法学习样本之间的相对顺序。RankNet 模型实现了点对比较，通过神经网络生成特征的排序分数。代码实现展示了如何
阅读更多2024-11-08
Django安装
在 Django 项目中，app是一个功能模块，它包含了特定的业务逻辑、数据模型和视图，是 Django 项目结构化管理的核心部分。python manage.py startapp app文件名称。
阅读更多2024-11-08
Centos 下安装 jsoncpp 库、bundle 数据压缩库、httplib 库 -- 详细教程
Centos 下安装 jsoncpp 库、bundle 数据压缩库、httplib 库
阅读更多2024-11-08
Linux（CentOS）安装 Nginx
Linux（CentOS）安装 Nginx。
阅读更多2024-11-08
golang笔记
本应在栈中内存,被分配到了堆中1 返回指针对象在外部被使用2 reutrn 函数使用了上面方法的敞亮3 入参是interface{} 动态参数4 make超过栈大小-gcflags="-
阅读更多2024-11-08
webworker
总结：js异步是始终要回到主线程的，webworker是不需要回到主线程，它自己创建一条线程自己去操作，这样主线程就可以不用管它，等它计算完了后，它可以主动把计算结果发给主线程（得主动发，不然收不到）
阅读更多2024-11-08

litgpt框架笔记

litgpt的fsdp执行原理

pytorch-lightning的fsdp+tp原理

litgpt适配fsdp+tp

相关文章