解决 GPTQ 模型导入后推理生成 Tokens 速度很慢的问题（从源码重新安装 Auto-GPTQ）

🕗 发布于 2024-10-10 12:40 GPTQ Auto-GPTQ Transformers

这里解决的是使用 Auto-GPTQ 或者 Transformers 导入 GPTQ 模型后推理速度很慢的问题。

值得注意的是，这个问题很有可能是因为安装不正确，所以 GPTQ 无法正确使用 GPU 进行推理，也就是说无法进行加速，即便 print(model.device) 显示为 “cuda”。类似的问题见 Is This Inference Speed Slow? #130/ CUDA extension not installed #694。

这个问题是普遍存在的，当你直接使用 pip install auto-gptq 进行安装时，可能就会出现。

你可以通过以下命令检查已安装的版本：

pip list | grep auto-gptq

如果发现之前安装的版本不带 cuda 标识，卸载它，从源码重新进行安装（推理速度将提升为原来的 15 倍以上）。

如果存在 cuda 标识，那么应该去检查代码的参数是否正确。

pip uninstall auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ.git && cd AutoGPTQ

# 以下两种方式任选一种进行安装，经测试均有效
pip install -vvv --no-build-isolation -e .
# >> Successfully installed auto-gptq-0.8.0.dev0+cu121

python setup.py install
# >> Finished processing dependencies for auto-gptq==0.8.0.dev0+cu121

原文地址：https://blog.csdn.net/weixin_42426841/article/details/142785133

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：图像增强论文精读笔记-Kindling the Darkness: A Practical Low-light Image Enhancer(KinD)
下一篇：九APACHE

Java入门：10.Java中的包
类似于OS中的文件夹。用来存放一组含义类似或相同的java类（接口），方便分类和管理。对应关系：java程序中的类 --- os中的.java文件java程序中的包 --- os中的文件夹如何指定包：
阅读更多2024-10-11
QD1-P14 HTML常用标签：input输入标签
本节学习 HTML 常用标签：input 输入标签
阅读更多2024-10-11
设计一个OAuth2认证系统：支持第三方登录的实用指南
OAuth2是一种授权框架，允许第三方应用在不暴露用户凭据的情况下访问用户的资源。资源拥有者（Resource Owner）：通常是用户，拥有受保护的资源。客户端（Client）：需要访问资源的应用程
阅读更多2024-10-11
脚本增加选项，解决问题
为了防止原始文件小于指定文件块大小，分割数量是0，默认数量+1, 导致分割文件数量不是最优，修改为通过可以判断指定大小和文件大小，执行分割。原因是拼接的输出文件后缀为(1)，文件系统会默认在文件名外层
阅读更多2024-10-11
【idea】切换多个仓库到一个分支
打开个一个Project 里面包含多个子项目，每一个子项目都有一个自己的git仓库。在idea 中有没有一次性把多个项目切换到同一个分支上面。OK 涉及到的项目已经全部切换到master 分支。
阅读更多2024-10-11
vscode插件
浏览器插件。
阅读更多2024-10-11
华为Eth-trunk链路聚合加入到E-trunk实现跨设备的链路聚合
你知道e-trunk与eth-trunk的区别吗？1、企业中有重要的server服务器业务不能中断的情况下，链路故障后，仍有可用的冗余链路，确保业务的延续性。2、企业中的重要业务，可通过将eth-tr
阅读更多2024-10-11
jenkins中的allure和email问题梳理
1.Allure Jenkins Plugin 只是一个集成插件，它要求你在 Jenkins 服务器上安装 Allure 命令行工具（Allure Commandline）来实际生成报告。需要需要邮箱
阅读更多2024-10-11
[红队apt]CHM电子书攻击/电子教程攻击
CHM文档攻击思路整理
阅读更多2024-10-11
推荐一个物联网平台，支持源代码交付
ThingsKit物联网平台以其强大的功能、简单的操作和高度的可定制性，为用户提供了一个快速实现物联网项目开发的平台。如果您正在寻找一个能够快速实现物联网项目开发的平台，那么ThingsKit将是您的
阅读更多2024-10-11

解决 GPTQ 模型导入后推理生成 Tokens 速度很慢的问题（从源码重新安装 Auto-GPTQ）

相关文章