[论文笔记] Pai-megatron Qwen1.5-14B-CT 后预训练踩坑记录

🕗 发布于 2024-04-13 10:27 论文阅读 深度学习 人工智能

1. 模型权重转换报错 hf2mcore_1.5_v2.py

报错为：

/mnt/cpfs/kexin/dlc_code/qwen1.5/PAI-Megatron-Patch/toolkits/model_checkpoints_convertor/qwen/hf2mcore_1.5_v2.py

正确文件替换如下，更改了477行，删除了 args.hidden_size 这个维度，在tp>1时也支持转换：

elif 'linear_qkv.bias' in k and 'norm' not in k:
  # raw
  viewed = v.view(args.num_query_groups, -1, head_dim, args.hidden_size)
  # changed
  viewed = v.view(args.num_query_groups, -1, head_dim)

替换为：

import os
import re
import json
import torch
import transformers
import torch.nn as nn
from functools import partial
from collections import defaultdict
from transformers import (
    AutoConfig,
    AutoModelForCausalLM,
    AutoTokenizer,
)
from transformers.models.mixtral

原文地址：https://blog.csdn.net/Trance95/article/details/137689388

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：3d max快捷键命令大全
下一篇：蓝桥杯python速成

机器学习-梯度下降实验一
【代码】机器学习-梯度下降实验一。
阅读更多2024-09-20
Java——Static与final修饰的变量与方法(总结)
Java语法学过一遍之后，我相信大多数和我一样脑瓜子嗡嗡的，甚至有点乱了，这时候应该自己把之前的能总结的，或者不熟悉的都要总结一遍，以便于后期的学习！！
阅读更多2024-09-20
ffmpeg 拉流
保存为视频# 保存图片查看解码器：
阅读更多2024-09-20
sourceTree保姆级教程7：（合并某次提交）
在日常开发过程中，大家有时候并非都是在同一个分支进行开发，可能存在多人的情况下开发。切换到master分支，可以看到master分支落后 develop分支好多版本了，test2.txt文件对于mas
阅读更多2024-09-20
事业环境因素和组织过程资产的区别
在项目管理中，事业环境因素和组织过程资产是两个重要的概念，它们对项目的成功有着重要的影响。虽然它们都对项目执行产生影响，但它们存在本质区别。
阅读更多2024-09-20
MATLAB统计和机器学习工具箱：数据分析与建模的利器
MATLAB的统计和机器学习工具箱（Statistics and Machine Learning Toolbox）是一个功能强大的数据分析和建模工具，它为数据科学家、工程师和研究人员提供了一系列的函
阅读更多2024-09-20
配网缺陷检测无人机航拍图像数据集（不规范绑扎，螺栓销钉缺失）数据集总共3000张左右，标注为voc格式
配网缺陷检测无人机航拍图像数据集，（不规范绑扎，螺栓销钉缺失）数据集总共3000张左右，标注为voc格式
阅读更多2024-09-20
基于＂WT2605C的智能血压计：AI对话引领个性化健康管理新时代，健康守护随时在线
在当今快节奏的生活中，健康管理已成为我们日常不可或缺的一部分。随着科技的进步，智能设备正逐步融入我们的日常生活，为健康管理带来前所未有的便捷与智能化。今天，让我们共同探索WT2605C AI在线方案如
阅读更多2024-09-20
基于大语言模型（LLM）的人工智能能否引领新的工业革命？
如果我们的时代是下一个工业革命，正如许多人所声称的那样，人工智能无疑是其驱动力之一。” – 李飞飞《纽约时代周刊》专栏文章距离 OpenAI 开发的划时代人工智能产品 [ChatGPT] 于 2022
阅读更多2024-09-20
qt七个按钮进行互斥
qt七个按钮进行互斥
阅读更多2024-09-20

[论文笔记] Pai-megatron Qwen1.5-14B-CT 后预训练 踩坑记录

1. 模型权重转换报错 hf2mcore_1.5_v2.py

相关文章

[论文笔记] Pai-megatron Qwen1.5-14B-CT 后预训练踩坑记录