本地部署大模型+连接知识库

🕗 发布于 2024-11-30 12:42 eureka 云原生

一、部署

先去ollama官网下载ollama（一个大模型管理平台）

接着可以进官网搜索models，找到对应模型的下载命令

查看模型的详细信息：ollama info <model>

删除模型：ollama remove <model>

二、接知识库

1、下载anythingllm（一个大模型框架，提供一种灵活的方式来继承和使用不同的语言模型，包括托管在ollama或其他平台上的模型）

2、前置设置

选择模型管理器（llm providers）：ollama，选择模型：qwen

选择嵌入模型（embedder）：把你上传的文本、表格数据等，处理成数字形式的一种低维嵌入向量数据，选择向量数据库，都选默认的

workspace：把不同知识库分隔成一个个工作区

3、上传知识库

可以上传文件和链接，move to workspace，接着右区save and embed

如果上传的是网页链接，则可能会参杂着很多图形化的无用信息，影响数据的质量

最好是更干净的文本数据

4、深度调整

点开设置，将聊天模式改成查询模式（ai会更基于它查询出来的数据），将向量数据库的最大上下文片段改成6（每次查询，去数据库里取出6个和我们问题相关的片段），文档相似性阈值改成中（查询到的数据和问题相关程度的阈值）

注意：如果给一本书问整体讲了什么，rag本身做不到。rag做的是挑出几个和问题语义相关的单个片段，发给大模型来分析回答，大模型并没有看整本书。

传统rag不擅长宏观的、整体性的问题，但是graphRAG可以。

三、open WebUI（其实有了anythingllm可以不用这个了）

下载docker，点击让它运行起来

进入cmd命令行输入

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

docker run：启动一个新的 Docker 容器

-d：以 detached 模式（后台模式）运行容器，不会占用当前终端

-p 3000:8080：将主机的 3000 端口映射到容器的 8080 端口。这样可以通过访问主机的 3000 端口来访问容器内部运行的服务，即在主机浏览器中访问 http://localhost:3000，实际上会访问到容器内的 http://localhost:8080

--name open-webui：
为容器指定一个名称 open-webui。这使得你可以在后续的命令中通过这个名字来引用这个容器，而不是使用容器的 ID

--restart always：
配置容器的重启策略为 always，这意味着即使容器因为任何原因停止，Docker 也会自动重启它。这对于确保服务的高可用性非常有用。

接下来以后就可以在浏览器输入localhost:3000来访问webUI了

#加链接地址，上传链接数据

四、本地分享大模型

打开webUI页面，点击自己头像打开管理员面板，找到朋友的号，权限设置成用户

补充：

docker：“构建以此，随处运行”，通过容器技术，使应用程序可以在几乎任何环境中一致地运行

longchain：一个专注于长文本生成和处理的框架

（文章小说创作、内容摘要、多轮对话等）

原文地址：https://blog.csdn.net/2302_79795489/article/details/144135328

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：快速搭建一个博客！！！“Halo框架深度优化：搭建你的个性化博客或网站”
下一篇：winScp连接Ubantu系统,访问拒绝的解决方式

【Linux】-操作系统
欢迎来到泊舟小课堂。
阅读更多2024-11-30
计算机组成原理：程序计数器实验
等待一个 CPU 周期，此时 PC 的值存入 AR ，而后 PC 递增 1。2）按照实验内容与步骤的要求进行实验，对预习时填写好的微命令进行验证与调试，遇到问题请冷静、独立思考，认真仔细地完成实验
阅读更多2024-11-30
GitLab: You cannot create a branch with a SHA-1 or SHA-256 branch name
pre-receive hook declined
阅读更多2024-11-30
阈值分割创新点探究(附带opencv c++代码)
本文深入探讨了阈值分割技术在图像处理领域中的创新点，详细阐述了阈值分割的基本原理、传统方法的局限性以及近年来涌现出的多种创新方法及其原理，包括多阈值分割、自适应阈值分割、基于特定理论或模型的阈值分割等
阅读更多2024-11-30
qt QAnimationDriver详解
是Qt框架中提供的一个类，它主要用于自定义动画帧的时间控制和更新。通过继承和实现，开发者可以精确控制动画的时间步长和更新逻辑，从而实现丰富和灵活的动画效果。与和等类结合使用，可以构建更复杂和高效的动画
阅读更多2024-11-30
Rust 面向对象编程
Rust 是一种系统编程语言，以其内存安全特性而闻名。尽管 Rust 并不是传统意义上的面向对象编程（OOP）语言，但它提供了一些机制，使得可以以类似于面向对象的方式组织代码。本文将探讨 Rust 中
阅读更多2024-11-30
Oracle 11g R2 RAC 到单实例 Data Guard 搭建（RMAN备份方式）
Oracle RAC集群到单机的dataguard搭建过程
阅读更多2024-11-30
MTK主板_小型联发科安卓主板_行业智能终端主板基于联发科方案
MTK安卓主板是一款小巧而高效的科技产品，其尺寸仅为43.4mm x 57.6mm。采用了先进的联发科12nm制程工艺，这款主板搭载四核或八核64位A53架构的CPU，主频高达2.0GHz，不但保证了
阅读更多2024-11-30
Modbus--Modbus TCP与TCP Socket之间区别
Modbus--Modbus TCP与TCP Socket之间区别
阅读更多2024-11-30
数据库命令规范、数据库基本设计规范
原因：索引NULL列需要额外的空间来保存，所以要占用更多的空间进行比较和计算时要对NULL值做特别的处理。
阅读更多2024-11-30

本地部署大模型+连接知识库

相关文章