langchain 加载 csv，json

🕗 发布于 2024-04-14 21:26 langchain json 前端

csv

from langchain_community.document_loaders.csv_loader import CSVLoader


loader = CSVLoader(file_path='data/专业描述.csv', csv_args={
    'delimiter': ',',
    'quotechar': '"',
    'fieldnames': ['专业', '描述']
}, encoding='utf8', source_column='专业')

data = loader.load()
print(data)

'quotechar': '"': 设置了引用字符为双引号（"）。在CSV文件中，如果某个字段值本身包含逗号或其他特殊字符，或者整个字段需要被视为一个不可分割的整体，通常会使用双引号将其包围起来。这里的设定告诉解析器如何正确识别和处理被引号包裹的字段值。
'fieldnames': ['专业', '描述']: 提供了列名列表。如果CSV文件的第一行没有列名（或者不希望使用第一行作为列名），可以在这里显式指定列名。在这个例子中，列名分别为“专业”和“描述”，对应到CSV文件中两列数据的实际含义。
source_column: '专业' 指定了一个特定的列名。这个参数的意义可能依赖于CSVLoader的具体实现细节。在某些上下文中，它可能用于指定作为后续处理主键或关键属性的列，在回溯某一行的时候可能有用

json

from langchain_community.document_loaders import JSONLoader
import json
from pathlib import Path
from pprint import pprint


file_path = 'data/json_str.json'
data = json.loads(Path(file_path).read_text(encoding='utf8'))
pprint(data)

json分割

import json
import requests

json_data = requests.get("https://api.smith.langchain.com/openapi.json").json()

from langchain_text_splitters import RecursiveJsonSplitter
splitter = RecursiveJsonSplitter(max_chunk_size=300)

# 最好的选择
json_chunks = splitter.split_json(json_data=json_data)  # json_data 为字典

# 把 json 当字符串了，不是最优方法
docs = splitter.create_documents(texts=[json_data])

# 也把 json 当字符串了，但结果跟 split_json 一样
texts = splitter.split_text(json_data=json_data)
print(texts[0])
print(texts[1])

原文地址：https://blog.csdn.net/zjkpy_5/article/details/137727850

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：一分钟了解机器人自由度
下一篇：cURL error 60: SSL certificate problem: unable to get local issuer certifica 解决

为何选择 C++：深入剖析其优势与适用场景
例如，在一个企业级应用开发中，可以通过类的设计来构建不同的业务模块，每个模块之间通过清晰的接口进行交互，当业务需求发生变化时，只需要对相应的模块进行修改，而不会影响整个系统的稳定性。许多底层的硬件驱动
阅读更多2024-10-19
Python代码的静态分析工具-Pylint
此外，Pylint还能够识别一些常见的安全问题，并将它们归类为CWE（Common Weakness Enumeration），提醒开发者潜在的安全隐患。Pylint利用多种静态代码分析技术检查Pyt
阅读更多2024-10-19
Redis中String类型常见的应用场景
主要介绍了使⽤ Redis 的字符串数据类型可以使⽤的几个场景
阅读更多2024-10-19
LeetCode题练习与总结：二维区域和检索 - 矩阵不可变--304
本文详细介绍了如何使用前缀和矩阵解决二维矩阵子矩形范围内元素总和的计算问题，包括解题思路、具体代码实现以及时间复杂度和空间复杂度分析，为高效处理此类问题提供了有效方法。
阅读更多2024-10-19
Vue 3为什么移除过滤器功能以及替代方案（如何使用计算属性代替过滤器、讨论使用过滤器的最佳实践、如何在Vue 3中实现类似过滤器的功能）
在Vue 2中，过滤器（`filter`）常用于模板中对数据进行简单的格式化处理。然而，在Vue 3中，过滤器被移除了。本文将探讨Vue 3中去掉过滤器的原因，并讨论如何使用计算属性等方式替代过滤器功
阅读更多2024-10-19
013_django基于大数据的高血压人群分析系统2024_dcb7986h_055
博主介绍：CodeMentor毕业设计领航者、全网关注者30W+群落，InfoQ特邀专栏作家、技术博客领航者、InfoQ新星培育计划导师、Web开发领域杰出贡献者，博客领航之星、开发者头条/腾讯云/A
阅读更多2024-10-19
JavaSE之String类
字符串String类的一些常用方法，StringBuilder和StringBuffer的用法及区别
阅读更多2024-10-19
基于langchain.js快速搭建AI-Agent
如何基于langchain，快速搭建属于自己的AI智能体
阅读更多2024-10-19
G1 GAN生成MNIST手写数字图像
生成对抗网络 (GAN) 是一种通过“对抗性”学习生成数据的深度学习模型，通常用于生成图像、视频等数据。生成器 (Generator)：用于生成假的数据样本，试图让判别器无法分辨其为假的。判别器 (D
阅读更多2024-10-19
centos 安装达梦数据库
2.1、下载的压缩包(dm8_20240712_x86_rh7_64.zip)上传到服务器。2.9、数据库使用（默认账户/密码：SYSDBA/SYSDBA）2.5、安装完成，通过脚本进行配置(切换到r
阅读更多2024-10-19

langchain 加载 csv，json

csv

json

相关文章