【LangChain】（六）如何利用LangChain构建强大的LLM应用：从入门到精通的全方位指南

🕗 发布于 2024-10-17 10:48 langchain 数据库 人工智能 AI编程 开发语言

大语言模型（LLM）正逐渐成为开发者和企业的宠儿。LangChain作为一个开源框架，旨在帮助开发者更轻松地构建基于LLM的应用程序。本文将深入探讨LangChain的核心概念、主要功能以及如何使用它来构建强大的应用程序。无论你是初学者还是经验丰富的开发者，这篇文章都将为你提供实用的教程和示例代码，让你能够快速上手LangChain并应用于实际项目中。

文章目录

什么是LangChain？

LangChain是一个开源框架，旨在增强大语言模型（LLM）的能力。它提供了一系列组件，帮助开发者构建复杂的应用程序。LangChain的核心理念是通过“链”的概念，将不同的子任务连接起来，从而实现更复杂的功能。无论是管理和优化提示（prompt），还是与外部数据源交互，LangChain都能提供标准化的解决方案。

LangChain的起源

LangChain的创始人Harrison Chase于2022年10月首次开源该项目，迅速获得了广泛关注，并在短时间内转变为一家初创公司。随着人工智能技术的不断发展，LangChain也获得了红杉资本的投资，估值达到2亿美元。
在这里插入图片描述

LangChain的六大主要领域

管理和优化提示：不同任务需要不同的提示，LangChain提供了管理和优化这些提示的功能。
链：将不同子任务之间的调用进行连接。
数据增强生成：通过与外部数据源交互，获取数据用于生成步骤。
代理：根据不同指令采取不同的行动，直到整个流程完成。
评估：使用语言模型本身来评估生成式模型的输出。
内存：在整个流程中管理中间状态。

LangChain的主要价值组件

LangChain的组件设计模块化，易于使用，主要包括：

模型I/O：处理语言模型的接口。
数据连接：与特定任务的数据接口。
链：构建调用序列。
代理：根据高级指令选择使用的工具。
内存：在链的运行之间保持应用状态。
回调：记录并流式传输链的中间步骤。
索引：结构化文件的方法，以便LLM能够与其进行最佳交互。

使用LangChain加载数据

安装LangChain

首先，你需要安装LangChain及其依赖项。可以使用以下命令：

pip install langchain
pip install unstructured
pip install jq

CSV文件的基本用法

以下是如何使用LangChain加载CSV文件的示例代码：

import os
from pathlib import Path
from langchain.document_loaders import UnstructuredCSVLoader, CSVLoader

EXAMPLE_DIRECTORY = Path(__file__).parent.parent / "examples"

def test_unstructured_csv_loader() -> None:
    """测试非结构化CSV加载器。"""
    file_path = os.path.join(EXAMPLE_DIRECTORY, "stanley-cups.csv")
    loader = UnstructuredCSVLoader(str(file_path))
    docs = loader.load()
    print(docs)
    assert len(docs) == 1

def test_csv_loader():
    """测试CSV加载器。"""
    file_path = os.path.join(EXAMPLE_DIRECTORY, "stanley-cups.csv")
    loader = CSVLoader(file_path)
    docs = loader.load()
    print(docs)

test_unstructured_csv_loader()
test_csv_loader()

文件目录用法

使用DirectoryLoader加载目录中的文本文件：

from langchain.document_loaders import DirectoryLoader, TextLoader

text_loader_kwargs = {'autodetect_encoding': True}
loader = DirectoryLoader('../examples/', 
              glob="**/*.txt",  # 遍历txt文件
              show_progress=True,  # 显示进度
              use_multithreading=True,  # 使用多线程
              loader_cls=TextLoader,  # 使用加载数据的方式
              silent_errors=True,  # 遇到错误继续
              loader_kwargs=text_loader_kwargs)  # 可以使用字典传入参数

docs = loader.load()
print("\n")
print(docs[0])

HTML文件用法

使用UnstructuredHTMLLoader和BSHTMLLoader加载HTML文件：

from langchain.document_loaders import UnstructuredHTMLLoader, BSHTMLLoader

# 使用非结构化HTML加载器
loader = UnstructuredHTMLLoader("../examples/example.html")
docs = loader.load()
print(docs[0])

# 使用BeautifulSoup HTML加载器
loader = BSHTMLLoader("../examples/example.html")
docs = loader.load()
print(docs[0])

JSON文件用法

加载JSON文件并解析内容：

import json
from pathlib import Path
from pprint import pprint

file_path = '../examples/facebook_chat.json'
data = json.loads(Path(file_path).read_text())
pprint(data)

PDF文件用法

使用不同的PDF加载器加载PDF文件：

from langchain.document_loaders import PyPDFLoader, MathpixPDFLoader, UnstructuredPDFLoader

# 第一种用法
loader = PyPDFLoader("../examples/layout-parser-paper.pdf")
pages = loader.load_and_split()
print(pages[0])

# 第二种用法
loader = MathpixPDFLoader("../examples/layout-parser-paper.pdf")
data = loader.load()
print(data[0])

# 第三种用法
loader = UnstructuredPDFLoader("../examples/layout-parser-paper.pdf")
data = loader.load()
print(data[0])

数据转换

在加载文件后，通常需要对其进行转换，以更好地适应应用。LangChain提供了多种内置的文档转换工具，可以轻松对文档进行分割、组合和过滤。

通过字符进行文本分割

以下是如何通过字符分割文本的示例：

from langchain.text_splitter import CharacterTextSplitter

state_of_the_union = """
斗之力，三段！”
望着测验魔石碑上面闪亮得甚至有些刺眼的五个大字，少年面无表情，唇角有着一抹自嘲，紧握的手掌，因为大力，而导致略微尖锐的指甲深深的刺进了掌心之中，带来一阵阵钻心的疼痛…
"""

text_splitter = CharacterTextSplitter(
    separator="\n\n",
    chunk_size=128,  # 分块长度
    chunk_overlap=10,  # 重合的文本长度
    length_function=len,
)

texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])

通过tokens进行分割

使用tiktoken库进行文本分割：

pip install tiktoken

from langchain.text_splitter import TokenTextSplitter

text_splitter = TokenTextSplitter(chunk_size=128, chunk_overlap=0)
texts = text_splitter.split_text(state_of_the_union)
print(texts[0])

模型I/O组件

LangChain支持多种模型，包括LLM、聊天模型和文本嵌入模型。以下是如何使用LLM的示例：

from langchain.llms import OpenAI

llm = OpenAI(model_name='text-davinci-003', temperature=0.9)
response = llm("Tell me a joke.")
print(response)

🔥codemoss_能用AI

【无限GPT4.omini】
【拒绝爬梯】
【上百种AI工作流落地场景】
【主流大模型集聚地：GPT-4o-Mini、GPT-3.5 Turbo、GPT-4 Turbo、GPT-4o、GPT-o1、Claude-3.5-Sonnet、Gemini Pro、月之暗面、文心一言 4.0、通易千问 Plus等众多模型】

🔥传送门：https://www.nyai.chat/chat?invite=nyai_1141439&fromChannel=csdn

在这里插入图片描述

总结

LangChain为开发者提供了一个强大的工具，帮助他们构建基于LLM的应用程序。通过理解LangChain的核心组件和功能，你可以快速上手并创建适合特定需求的自定义解决方案。无论是个人助理、文档问答还是聊天机器人，LangChain都能帮助你释放语言模型的全部潜力。

如果你对LangChain感兴趣，欢迎关注我的CSDN博客，获取更多关于人工智能和编程的精彩内容！✨

原文地址：https://blog.csdn.net/zhouzongxin94/article/details/142939987

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

Spring Boot在知识管理中的应用
在概念模式的设计中，E-R模型法是最常见的设计方法。同时，一个大型的计算机网站系统，必须有一个正确的设计指导思想，通过合理选择数据结构、网络结构、操作系统以及开发环境，构成一个完善的网络体系结构，才能
阅读更多2024-10-17
CMake 教程（三）添加库的使用要求
目标参数的使用要求可以更好地控制库或可执行文件的链接和包含行，同时还能在 CMake 内部更好地控制目标的传递属性。中的代码，以使用现代 CMake 方法。我们将让我们的库定义自己的使用要求，以便在必
阅读更多2024-10-17
支付宝开放平台-开发者社区——AI 日报「10 月 17 日」
在现有AI能力的支撑下，可能只有10%的产品值得用AI再做一遍，其他90%的产品加了AI后，90%的人尝鲜后就会忘记它，还有一部分人甚至会对AI产生反感，以及觉得AI很鸡肋。第二种就是AI+ChatB
阅读更多2024-10-17
出现接地故障电流现象，安科瑞ASJ剩余电流继电器可以避免吗？
ASJ剩余电流继电器能够实时监测线路中的漏电流，一旦漏电流达到或超过设定值，立即动作切断故障电路，确保电气系统的安全稳定运行。高灵敏度：剩余电流继电器具有高灵敏度，能够检测到微小的漏电电流，从而及时切
阅读更多2024-10-17
【DDPG】DDPG的离散实现（含代码）
由于想用ddpg来应用到离散动作空间的环境，实现和ppo等其他算法的性能对比。故研究此问题。（欢迎star）
阅读更多2024-10-17
Linux权限和开发工具(1)
vi/vim的区别简单点来说，它们都是多模式编辑器，不同的是vim是vi的升级版本，它不仅兼容vi的所有指令，而且还有一些新的特性在里面。但是这样太麻烦了, 于是有些人把一些常用的软件提前编译好,
阅读更多2024-10-17
【算法】C++中的二分查找
二分查找，也被称为折半查找，是一种在有序数组中高效查找目标元素的算法。它的基本思想是将待查找的区间不断地折半，通过比较中间元素与目标元素的大小关系，逐步缩小查找范围，直到找到目标元素或者确定目标元素不
阅读更多2024-10-17
老房装修弱电箱必须加吗？
业主听完说这个弱电箱里边后期放的就只有入户光纤猫，路由器我会放到电视柜上，至于AP面板我不需要，对网络没有强烈需求。对于没有特殊要求的业主来说，弱电箱可以没有，把光纤引到电视柜的位置，光纤长点短点，业
阅读更多2024-10-17
Qt-系统QThread多线程介绍使用(62)
Qt-系统QThread多线程介绍使用
阅读更多2024-10-17
使用SpringMVC搭建WEB项目时报错404的问题排查解决以及web.xml配置文件init-param行标红问题
还有Tomcat的版本过高，目前用的是10 版本，于是试着针对 Tomcat 的版本也进行降降，就把 Tomcat10版本降到了 Tomcat9版本。经过检查，基本的错误原因都可以完全排除，程序代码
阅读更多2024-10-17