自学内容网 自学内容网

[论文笔记] pai-megatron-patch Qwen2-72B/7B/1.5B 长文本探路

Pai-Megatron-Patch (mcore代码)

长文本限制:

开SP之后,72B能开到16K,7B能开到32K。

但是72B开16K,或者7B开32K时,如果训练时训练样本中有长文本的话,则还是会OOM。

code:

相对于原repo加了一些代码适配性的问题。 

Release tokenize code update · Carrie-Yi/pai-megatron-patch-xin · GitHub

解决方案:

1、cpu-offload

这个repo中给Qwen2-CT改了yarn和cpu-offload,但是还没测试

Release apply_yarn_and_cpu_offload_without_test · Carrie-Yi/pai-megatron-patch-xin · GitHub

2、过滤长度过长的文本

训练数据中过滤掉过长的长文本,比如按照<=11K过


原文地址:https://blog.csdn.net/Trance95/article/details/140554862

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!