[论文笔记] pai-megatron-patch Qwen2-72B/7B/1.5B 长文本探路
Pai-Megatron-Patch (mcore代码)
长文本限制:
开SP之后,72B能开到16K,7B能开到32K。
但是72B开16K,或者7B开32K时,如果训练时训练样本中有长文本的话,则还是会OOM。
code:
相对于原repo加了一些代码适配性的问题。
Release tokenize code update · Carrie-Yi/pai-megatron-patch-xin · GitHub
解决方案:
1、cpu-offload
这个repo中给Qwen2-CT改了yarn和cpu-offload,但是还没测试
Release apply_yarn_and_cpu_offload_without_test · Carrie-Yi/pai-megatron-patch-xin · GitHub
2、过滤长度过长的文本
训练数据中过滤掉过长的长文本,比如按照<=11K过
原文地址:https://blog.csdn.net/Trance95/article/details/140554862
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!