阿里云人工智能平台PAI部署开源大模型chatglm3之失败记录

🕗 发布于 2024-07-06 15:21 阿里云 人工智能 云计算

想学习怎么部署大模型，跟着网上的帖子部署了一个星期，然而没有成功。失败的经历也是经历，记在这里。
在这里插入图片描述
我一共创建了3个实例来部署chatglm3，每个实例都是基于V100创建的（当时没有A10可选了），其显存只有16G。每个实例分配的系统存储盘有100G。

这三个实例，每个实例都有不一样的失败原因。

实例一

实例一挂在了下载模型权重文件这一步

git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b.git

到这一步的时候系统盘莫名其妙的满了，导致下载模型权重文件报错。

实例二

由于第一次系统盘早早地满了，第二次部署的时候我就跳过了前期的一些操作，其中包括配置环境变量这一步。

# 印象中不创建账号好像就没有bashrc的文件
vim ~/.bashrc
# 末尾添加anaconda3所在路径，和第六步路径一致
export PATH=/root/anaconda3/bin:$PATH
# 修改终端的默认 python 为 anaconda，否则会报错找不到命令activate
source /root/anaconda3/bin/activate
# 使环境变量的修改立即生效
source ~/.bashrc

这导致后面在运行模型的时候一直报错。

运行cli_demo.py文件报AttributeError

(base) root@dsw-403691-6867f64799-5t2cz:/opt/chatglm3/ChatGLM3/basic_demo# sudo python cli_demo.py

报错：
File "/root/.cache/huggingface/modules/transformers_modules/ChatGLM-6B/tokenization_chatglm.py", line 244, in vocab_size
    return self.sp_tokenizer.num_tokens
AttributeError: 'ChatGLMTokenizer' object has no attribute 'sp_tokenizer'. Did you mean: '_tokenize'?

运行web_demo_gradio.py报ImportError。我尝试对这些错误进行修改，发现每修改好一个，就报下一个类似的错误。后来意识到应该是前期环境变量没有配置好，导致了了路径错误。

    from gradio.exceptions import ComponentDefinitionError
ImportError: cannot import name 'ComponentDefinitionError' from 'gradio.exceptions' (/root/anaconda3/lib/python3.11/site-packages/gradio/exceptions.py)

    from gradio.utils import no_raise_exception
ImportError: cannot import name 'no_raise_exception' from 'gradio.utils' (/root/anaconda3/lib/python3.11/site-packages/gradio/utils.py)

    from gradio.events import Events
ImportError: cannot import name 'Events' from 'gradio.events' (/root/anaconda3/lib/python3.11/site-packages/gradio/events.py)

实例三

第三次部署我老老实实跟着教程设置了环境变量，最后模型看似能运行，但是还是出了问题。

cli_demo.py运行
最开始是我输入对话语句，模型报UnicodeDecodeError，并反馈Could not find TensorRT。

2024-07-04 21:08:47.391139: W tensorflow/compiler/tf2tensorrt/utils/py_utils.cc:38] TF-TRT Warning: Could not find TensorRT

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 0: ordinal not in range(128)

我尝试安装bazel及tensorflow，但是都没有成功。

今天在写这个失败记录的时候，再试着运行了一次，报内存溢出的错误。
在这里插入图片描述

web_demo_gradio.py运行
在最开始提醒我安装gradio和peft，安装好之后要注意更新gradio的环境变量，不然会导致无法成功import。
后面运行时生成的local url一直打不开，我跟在chat-gpt将web_demo_gradio.py中的.laucn()函数的share属性由false改成了true.

iface.launch(share=True)

运行代码时有提醒我要安装frpc_linux_amd64_v0.2。

Could not create share link. Missing file: /root/anaconda3/envs/chatglm3_test/lib/python3.11/site-packages/gradio/frpc_linux_amd64_v0.2.

于是我将该文件下载到本地，又跟着教程上传到服务器，成功安装了frpc_linux_amd64_v0.2。
在此运行模型，使用public url，可以打开网页了。
在这里插入图片描述
输入对话，但是模型并不能生成回答。

我猜原因可能是显卡内存不足。

原文地址：https://blog.csdn.net/MilkLeong/article/details/140227421

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：站群服务器与普通服务器之间的区别
下一篇：qiankun实现子应用tab页签切换缓存页面

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20

阿里云人工智能平台PAI部署开源大模型chatglm3之失败记录

实例一

实例二

实例三

相关文章