利用docker一键部署LLaMa到自己的Linux服务器，有无GPU都行、可以指定GPU数量、支持界面对话和API调用，离线本地化部署包含模型权重合并

🕗 发布于 2024-02-23 11:21 docker llama llamma.cpp 语言模型量化

利用docker一键部署LLaMa到自己的Linux服务器，有无GPU都行、可以指定GPU数量、支持界面对话和API调用，离线本地化部署包含模型权重合并。两种方式实现支持界面对话和API调用，一是通过搭建text-generation-webui。二是通过llamma.cpp转换模型为转换为 GGUF 格式，使用 quantize 量化模型，使用 llama.cpp 运行 GGUF 模型。

在这里插入图片描述

斯坦福大学的Alpaca-lora模型的本地化部署，并验证了实际的推理效果，总体感觉并不是特别理想，原始Alpaca-lora模型对中文支持并不好，用52k的中文指令集对模型进行fine-tuning之后，效果依然达不到网上说的媲美GPT-3.5的推理效果，验证了那句话：“事不目见耳闻，而臆断其有无，可乎？”。在具有3块Tesla P40显卡的服务器上，利用3块GPU显卡加载模型参数和计算，进行一次简单的推理（非数学运算和逻辑运算）也需要大概30s-1min的时间，效率简直慢的惊人，虽然用中文数据集对模型进行了fine-tuning，然而对中文的支持也并不是很好，经常会出现乱码、重复问题、词不达意等情况。

当时大模型也同雨后春笋般的层出不穷，各个大厂和科研机构都推出了自己的大模型，其中基于LLaMA（开源且好用）的最多，所以决定再看看其他模型，有没有推理效果好，中文支持好，同时推理效率高的模型。经过筛选，Vicuna-13B的推理效果据说达到了ChatGPT的90%以上的能力࿰

原文地址：https://blog.csdn.net/u014374009/article/details/136190542

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：谷歌掀桌子！开源Gemma：可商用，性能超过Llama 2！
下一篇：【TCP/IP】组播

【模板进阶】完美转发
1直接调用：如从main函数中调用funcMiddle函数，这其实就叫作直接调用。2转发：从main主函数中调用funcMiddle函数，然后通过funcMiddle调用funcLast函数，这就叫
阅读更多2024-09-20
如何将3D模型嵌入正在Web网页？支持什么模型格式？
在Web网页中嵌入3D模型，通常涉及以下几个步骤，并且支持多种模型格式。
阅读更多2024-09-20
Trinamic推出高功率BLDC / PMSM栅极驱动器 -TMC6200
因此，它可以驱动从Watt到Kilowatt的各种电机，非常适合工业驱动，工厂或实验室自动化，机器人，CNC机床，纺织机械，泵或其他使用PMSM FOC驱动器和BLDC电机的应用。TMC6200补充了
阅读更多2024-09-20
推荐一些超实用的运维工具
这些工具涵盖了监控、自动化、容器化、日志管理等多个运维领域，可以帮助运维工程师提升工作效率和系统稳定性。用途：与Prometheus或Zabbix等配合使用，生成监控数据的图表和仪表板。用途：支持轻量
阅读更多2024-09-20
68个卫星电子地形大字体历史地图高清图源大全
本文为你分享了68个卫星地图、电子地图、地形地图、大字体地图、历史地图和高清影像等图源，这些图源是来自互联网的搜集整理。你可以立即点击“分享”按钮，将本文免费分享给你的朋友！
阅读更多2024-09-20
解决CORS问题的两种方式——Django+vue
在Django项目中，通过集成django-cors-headers库并对其进行配置，可以实现跨域资源共享（CORS）。在代理规则中，可以使用正则表达式来匹配请求路径，并利用rewrite函数来重写U
阅读更多2024-09-20
在 Windows 上安装 Python
虽然可以使用任何文本编辑器编写 Python 代码，但使用一个集成开发环境（IDE）可以极大地提高效率。希望这些步骤能帮助你成功安装和配置 Python。如果有更多问题或需要进一步的帮助，请随时提问！
阅读更多2024-09-20
CentOS 入门基础
CentOS（Community Enterprise Operating System）是一个基于 RHEL（Red Hat Enterprise Linux）的开源操作系统，由 Red Hat 公
阅读更多2024-09-20
c++初阶--c++类和对象(下)
大家好，今天我们来继续学习类和对象这里最后一部分知识，今天的学习内容少而且简单一点，那么话不多说，让我们开始吧。
阅读更多2024-09-20
python获取滑块验证码需要滑动的距离
我们发现图片是base64格式通过API直接发送。
阅读更多2024-09-20

利用docker一键部署LLaMa到自己的Linux服务器，有无GPU都行、可以指定GPU数量、支持界面对话和API调用，离线本地化部署包含模型权重合并

相关文章