使用PaddleNLP调用大模型ChatGLM3-6b进行信息抽取

🕗 发布于 2024-09-19 11:33 人工智能 llm chatglm

ChatGLM一直是非常不错的语言大模型，这次使用ChatGLM3-6b模型进行信息抽取工作

安装PaddleNLP并shell执行推理

直接使用星河社区的AI环境，因为星河社区可以直接创建Paddle3.0的调试环境，可以简化飞桨PaddlePaddle的安装过程，避免很多坑。

然后安装PaddleNLP，先下载源代码并设置环境变量PYTHONPATH：

git clone https://github.com/PaddlePaddle/PaddleNLP.git
export PYTHONPATH=/home/aistudio/PaddleNLP:$PYTHONPATH

PaddleNLP 针对于Transformer 系列编写了高性能自定义算子，提升模型在推理和解码过程中的性能，使用之前需要预先安装自定义算子库：

#GPU设备安装自定义算子
cd PaddleNLP/csrc && python setup_cuda.py install

到达运行目录，即可开始：

cd PaddleNLP/llm

比如gpu的推理：

# 动态图模型推理命令参考
python ./predict/predictor.py --model_name_or_path meta-llama/Llama-2-7b-chat --inference_model --dtype float16 --block_attn

但是这需要float16位支持，V100不支持，所以没有做实验了。

可以使用api的方式来使用大模型

API方式使用llm大模型推理

首先安装PaddleNLP

pip install --upgrade paddlenlp==3.0.0b1

然后就可以使用API来调用大模型了：

from paddlenlp.transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm3-6b")
model = AutoModelForCausalLM.from_pretrained("THUDM/chatglm3-6b", dtype="float16")
input_features = tokenizer("你好！请自我介绍一下。", return_tensors="pd")
outputs = model.generate(**input_features, max_length=128)
print(tokenizer.batch_decode(outputs[0], skip_special_tokens=True))
['我是一个AI语言模型，我可以回答各种问题，包括但不限于：天气、新闻、历史、文化、科学、教育、娱乐等。请问您有什么需要了解的吗？']

PaddleNLP会自动下载模型和token文件，比如我们的问题是：

你好！请提供下面食谱的主要原料，并提供它们的营养成分表:
\n材料：\n- 2个鸡蛋\n- 1/2杯番茄\n- 1/4杯切碎的葱花\n- 1/4杯切碎的姜末\n- 1/4杯切碎的蒜末\n- 1/4杯切碎的盐\n- 1/4杯切碎的黑胡椒粉\n- 1/4杯切碎的香菜\n- 适量的油\n步骤：\n1. 将鸡蛋打散，加入适量的盐和黑胡椒粉搅拌均匀。\n2. 热锅凉油，将葱花、姜末、蒜末和盐、黑胡椒粉混合均匀，加入鸡蛋液中，用铲子快速搅拌均匀。\n3. 加入切碎的番茄，继续搅拌均匀。\n4. 加入适量的水，煮沸后转小火煮10分钟，直到鸡蛋液变稠。\n5. 加入香菜，翻炒均匀即可。

prompt = """
你好！请提供下面食谱的主要原料，并提供它们的营养成分表:
\n材料：\n- 2个鸡蛋\n- 1/2杯番茄\n- 1/4杯切碎的葱花\n- 1/4杯切碎的姜末\n- 1/4杯切碎的蒜末\n- 1/4杯切碎的盐\n- 1/4杯切碎的黑胡椒粉\n- 1/4杯切碎的香菜\n- 适量的油\n步骤：\n1. 将鸡蛋打散，加入适量的盐和黑胡椒粉搅拌均匀。\n2. 热锅凉油，将葱花、姜末、蒜末和盐、黑胡椒粉混合均匀，加入鸡蛋液中，用铲子快速搅拌均匀。\n3. 加入切碎的番茄，继续搅拌均匀。\n4. 加入适量的水，煮沸后转小火煮10分钟，直到鸡蛋液变稠。\n5. 加入香菜，翻炒均匀即可。
"""

input_features = tokenizer(prompt, return_tensors="pd")
outputs = model.generate(**input_features, max_length=128)
print(tokenizer.batch_decode(outputs[0], skip_special_tokens=True))

输出显示：

['\n主要原料：鸡蛋、番茄、葱花、姜末、蒜末、盐、黑胡椒粉、香菜。\n\n营养成分表（每100克）：\n\n能量：125千卡\n蛋白质：6.3克\n脂肪：11克\n碳水化合物：2.2克\n纤维素：0.4克\n维生素A：167国际单位\n维生素C：28毫克\n钙：18毫克\n铁：0.8毫克\n钾：75毫克\n钠：625毫克\n水分：86克 您好！这是一道美味的番茄炒蛋']

可以看到，输出了番茄炒蛋的主要原料，并输出了该菜的营养成分表。

总结：

飞桨的PaddleNLP大模型还是非常不错的，LLama、ChatGLM3等大模型都支持的不错，推理效果也不错，值得我们学习和使用。

V100不通shell推理算遗留问题。

现在的问题是能否用更小的模型来抽取信息，因为用7b或6b模型来抽取还是有些慢。这个有待后续解决。

调试

GPU设备安装自定义算子时报错

FLOAT162_CONVERSIONS__ -Igpu/cutlass_kernels -Ithird_party/cutlass/include -Ithird_party/nlohmann_json/single_include -Igpu/fp8_gemm_with_
/home/aistudio/PaddleNLP/csrc/gpu/quant_int8.cu(68): error: no suitable user-defined conversion from "__nv_bfloat16" to "__half" exists

1 error detected in the compilation of "/home/aistudio/PaddleNLP/csrc/gpu/quant_int8.cu".
error: command '/usr/local/cuda/bin/nvcc' failed with exit code 1

看到issue：[Bug]: 安装paddle_ops算子时出现报错 · Issue #8910 · PaddlePaddle/PaddleNLP · GitHub

当前算子仅支持在支持bf16环境上编译安装，当前星河社区可使用A100 40G进行安装，V100环境暂无法安装

所以没有安装paddle_ops算子，只好不用shell，用api模式。

原文地址：https://blog.csdn.net/skywalk8163/article/details/142313725

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：自然语言处理（NLP）实战项目
下一篇：Redis - 深入理解Redis事务

支持向量机相关证明解的稀疏性
主要涉及拉格朗日乘子法，对偶问题求解。
阅读更多2024-11-07
【SpringBoot】使用注解进行XSS防御
在Spring Boot中，我们可以使用注解的方式来进行XSS防御。注解是一种轻量级的防御手段，它可以在方法或字段级别对输入进行校验，从而防止XSS攻击。
阅读更多2024-11-07
使用kalibr_calibration标定相机（realsense）和imu（h7min）
另外可以再加两个(非必要)： /camera/left/camera_info /camera/right/camera_info。2.录制的时候要注意按照官方的说法-充分激励IMU- 绕3个轴旋转和
阅读更多2024-11-07
Spring Boot框架的知识分类技术解析
程序一旦开发完成，就会投入生活中使用，使用者大多都是使用程序的功能区解决问题，之所以去分析程序需要具备的性能特征，主要还是确保程序运行中，在质量上是可靠的，在数据安全上是值得放心的，以及程序是一个健壮
阅读更多2024-11-07
【Spring】体系结构
Spring框架至今集成了多个模块，这些模块分布在数据访问/集成（Data Access/Integration）、Web层、面向切面的编程（Aspect Oriented Programming，A
阅读更多2024-11-07
SpringBoot健身房管理：技术与实践
目前，界面设计已经成为对软件质量进行评价的一条关键指标，一个好的用户界面可以使用户使用系统的信心和兴趣增加，从而使工作效率提高，JSP技术是将JAVA语言作为脚本语言的，JSP网页给整个服务器端的JA
阅读更多2024-11-07
开源全站第一个Nextron(NextJS+electron)项目--NextTalk：一款集成chatgpt的实时聊天工具
开源一个基于Nextron(NextJS+Electron)的桌面端实时聊天工具。
阅读更多2024-11-07
FreeRTOS | 开中断与临界区(第十四天)
FreeRTOS|开中断与临界区
阅读更多2024-11-07
【青牛科技】应用方案 | D75xx-150mA三端稳压器
D75XX系列是一套三端高电流低压稳压器。它们可以提供 150mA 的输出电流和允许输入电压高达30V。它们有几个固定的输出电压范围为3.0 V至5.0 V。CMOS 技术确保低电压降和低静态电流。虽
阅读更多2024-11-07
Linux编程：DMA增加UDP 数据传输吞吐量并降低延迟
UDP 网络传输常面临高 CPU 占用、传输延迟和丢包等挑战。本文将介绍 DMA 如何优化 UDP 数据包的发送，以提高吞吐量、减少延迟并降低 CPU 占用。
阅读更多2024-11-07

使用PaddleNLP调用大模型ChatGLM3-6b进行信息抽取

安装PaddleNLP并shell执行推理

API方式使用llm大模型推理

总结：

调试

GPU设备安装自定义算子时报错

相关文章