[论文笔记] Pai-megatron-patch cpu-offload 改到 Qwen2
以上是在 llama-70B 上实现的 cpu-offload 方法。
下面是在主分支上,仿照 LLaMA-70B,在 Qwen2 上实现 cpu-offload 代码。
1、optimizer选项设置:argument.py加入optimizer参数(cpu-adam)
2、optimizer初始化方法:__init__.py加入'cpu-adam'参数加载CPUAdam
3、optimizer CPUAdam方法:
加入CPUAdam文件。
kernel_loader.py
nvme_optimizer.py
原文地址:https://blog.csdn.net/Trance95/article/details/140547151
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!