模型部署系列 | 如何本地部署LLM服务？以ollama为例

🕗 发布于 2024-09-23 00:10 人工智能 LLM 模型部署 LLM部署

简介

小伙伴们好，我是微信公众号《小窗幽记机器学习》的小编：卖沙茶面的小男孩。这篇小作文主要介绍如何使用 ollama 在本地部署大模型服务。更多关于大模型相关，如模型解读、模型微调、模型部署、推理加速等，可以留意本微信公众号《小窗幽记机器学习》。

安装ollama

安装过程需要访问github，如果网络不好，可以根据自己的实际需要预先进行如下代理设置(所以看自己的代理，)：

git config --global url."https://github-proxy，XXX.com/".insteadOf "https://github.com/"

也可以使用如下的方式配置代理：

export HTTPS_PROXY=XXX.com:8080
export HTTP_PROXY=XXX.com:8080

再执行以下命令：

curl -fsSL https://ollama.com/install.sh | sh

如果由于网络原因，也可以直接下载Linux版本，然后重命名为ollama，再修改install.sh中的TEMP_DIR路径为ollama文件所在目录。最后执行bash install.sh直接进行安装。

Linux上更具体的安装细节可以参考官方说明。

在安装完Ollama之后，我们需要准备一个已经训练好的大型语言模型。Ollama支持多种不同的模型格式，包括Hugging Face的Transformers模型、PyTorch模型等。

启动服务

如何利用ollama快速启动一个大模型服务？

方法1：Ollama官方下载

可以通过ollama library直接查阅目标模型是否存在，比如想要运行Qwen，可以直接运行如下：

ollama run qwen

方法2：本地模型

将从hf上下载的pytorch模型文件转为UUGF格式。

clone ollama/ollama 仓库:

git clone git@github.com:ollama/ollama.git ollama
cd ollama

fetch 该仓库中的 llama.cpp submodule:

git submodule init
git submodule update llm/llama.cpp

安装Python依赖:

pip3 install -r llm/llama.cpp/requirements.txt -i https://mirrors.cloud.tencent.com/pypi/simple

模型格式转换：

python3 llm/llama.cpp/convert-hf-to-gguf.py /model_zoo/LLM/Qwen/Qwen1.5-4B-Chat/ --outtype f16 --outfile qwen1.5-4B-chat.gguf

构建quantize工具：

make -C llm/llama.cpp quantize

当然，如果此前已经使用过llama.cpp，那么可以直接使用已经编译出的llama.cpp/build/bin/quantize工具。

模型量化：

/Repository/LLM/llama.cpp/build/bin/quantize qwen1.5-4B-chat.gguf qwen1.5-4B-chat_q4_0.gguf q4_0

至此，生成量化后的模型qwen1.5-4B-chat_q4_0.gguf

-rw-r--r--  1 root        root        7.4G Apr 13 08:08 qwen1.5-4B-chat.gguf
-rw-r--r--  1 root        root        2.2G Apr 13 08:12 qwen1.5-4B-chat_q4_0.gguf

新建Modelfile，比如名为 qwen1.5-4B-chat_q4_0.mf

FROM qwen1.5-4B-chat_q4_0.gguf

# set the temperature to 1 [higher is more creative, lower is more coherent]
PARAMETER temperature 0.7
PARAMETER top_p 0.8
PARAMETER repeat_penalty 1.05
PARAMETER top_k 20

TEMPLATE """{{ if and .First .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
{{ .Response }}"""

# set the system message
SYSTEM """
You are a helpful assistant.
"""

在创建模型之前需要注意检测是否已经启动 ollama 服务，如果没有启动，则通过以下命令启动：

ollama serve &

可以通过以下命令查看model清单：

ollama list

结果如下：

[GIN] 2024/04/13 - 08:29:44 | 200 |       43.91µs |       127.0.0.1 | HEAD     "/"
[GIN] 2024/04/13 - 08:29:44 | 200 |    5.550372ms |       127.0.0.1 | GET      "/api/tags"

创建模型：

ollama create qwen1.5-4B -f qwen1.5-4B-chat_q4_0.mf

此时再运行ollama list，结果如下：

[GIN] 2024/04/13 - 08:33:33 | 200 |      31.789µs |       127.0.0.1 | HEAD     "/"
[GIN] 2024/04/13 - 08:33:33 | 200 |   13.834699ms |       127.0.0.1 | GET      "/api/tags"
NAME                    ID              SIZE    MODIFIED
qwen1.5-4B:latest       2ca4f59f16eb    2.3 GB  About a minute ago

启动模型服务：

ollama run qwen1.5-4B

输入，"你好，你是谁"

API测试

如何通过API测试模型服务？API的详情可以参考官方说明。

对Chat接口进行测试：

curl http://localhost:11434/api/chat -d '{
  "model": "qwen1.5-4B",
  "messages": [
    { "role": "user", "content": "你好，你是谁" }
  ],
  "stream": false
}'

以上设置非流式返回：

{"model":"qwen1.5-4B","created_at":"2024-04-13T08:41:52.481530089Z","message":{"role":"assistant","content":"你好，我是通义千问。我是一个基于阿里云的大规模语言模型，能够回答各种问题、创作文字，还能表达观点、撰写代码。有什么我可以帮助你的吗？"},"done":true,"total_duration":367232392,"load_duration":8591084,"prompt_eval_duration":26868000,"eval_count":40,"eval_duration":331108000}

对 generate 结果进行测试：

curl http://localhost:11434/api/generate -d '{
  "model": "qwen1.5-4B",
  "prompt": "你是谁？",
  "stream": false
}'

接口返回：

{"model":"qwen1.5-4B","created_at":"2024-04-13T08:50:19.674913783Z","response":"我是阿里云开发的超大规模语言模型，我叫通义千问。","done":true,"context":[151644,872,198,105043,100165,11319,151645,198,151644,77091,198,104198,102661,99718,100013,9370,71304,105483,102064,104949,3837,35946,99882,31935,64559,99320,56007,1773],"total_duration":180988339,"load_duration":7694382,"prompt_eval_duration":26834000,"eval_count":18,"eval_duration":145800000}

总结

本文主要介绍如何安装ollama，并演示2种加载模型的方法：

(1)拉取ollama官方已经有的模型，进行LLM服务部署。

(2)加载本地模型部署大模型服务。

最后，对部署的LLM服务的接口进行测试。#大模型部署 #LLM部署 #如何部署ollama #模型框架 #AI入门 #推理加速

原文地址：https://blog.csdn.net/ljp1919/article/details/142442803

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：994. 腐烂的橘子
下一篇：LeetCode题练习与总结：回文链表--234

MySQL练手题--周内每天销售情况(困难)
因为输入的是两张表，但题目主要要求的是将商品的周内每天的商品报告，需要对表进行开列，但由于题目给到的是日期，想要转成周内每天需要使用date+format（date，‘%W’）转换，完成之后再连接商品
阅读更多2024-09-23
51单片机-DA（数字转模拟）（呼吸灯）
作者：Whappy。
阅读更多2024-09-23
支付宝开放平台-开发者社区——AI 日报「9 月 23 日」
在 AI 程序员的帮助下，一个几乎没有专业编程经验的初中生，在人头攒动的展台上从零开始，两分钟就做出了一个倒计时网页。相比于以往 IDE 上的「AI 编程助手」，「AI 程序员」不需要你去启动 IDE
阅读更多2024-09-23
在Jupyter中指定启动目录
选择你最方便的方法来指定 Jupyter Notebook 的启动目录！如果有其他问题，随时问我。在 Jupyter Notebook 中指定启动目录的方法有几种。这将在你的用户目录下生成一个配置文件
阅读更多2024-09-23
CPLD设计流程
在CPLD设计流程中，各个环节都扮演着重要的角色，它们共同构成了从概念到实现的完整过程。然而，如果要挑选出一个最为重要的环节，那么可以认为是“源文件输入”环节，尤其是使用VHDL/Verilog程序或
阅读更多2024-09-23
SpringCloud入门（五）Nacos注册中心（上）
springcloud Nacos注册中心，Nacos服务分级存储模型，Nacos权重配置
阅读更多2024-09-23
MySQL函数介绍--日期与时间函数（二）
我相信大家在学习各种语言的时候或多或少听过我们函数或者方法这一类的名词，函数在计算机语言的使用中可以说是贯穿始终，那么大家有没有思考过到底函数是什么？函数的作用又是什么呢？我们为什么要使用函数？其实，
阅读更多2024-09-23
C#知识|软件接口的认识
哈喽，你好啊，我是雷工！日知其所亡，每天学到一些过去所不知道的东西。关于多态的出现就是为了扩展而生，在多态的实现形式上，既可以通过继承实现，也可以通过接口实现；前面了解了继承，接下来开始学习接口，以下
阅读更多2024-09-23
linux-基础知识4
准备一个文件 demo01编写自定义执行的脚本文件编写自定义服务的配置文件使用自定义服务命令。
阅读更多2024-09-23
Maven-六、私服仓库
模块在引用依赖时一般先看本地仓库再看中央仓库，但是在团队开发中，不同人员要引用一些项目通用自定义模块不可能先传到中央仓库再下载，于是通过创建私服存放某个项目用到的模块。这里我们介绍如何使用nexus来
阅读更多2024-09-23