Py之pymupdf:基于langchain框架结合pymupdf库实现输出每个PDF页面的文本内容、元数据等
Py之pymupdf:基于langchain框架结合pymupdf库实现输出每个PDF页面的文本内容、元数据等
目录
__init__(file_path, *, headers=None, extract_images=False, **kwargs)
load_and_split(text_splitter=None)
PyMuPDFLoader类
PyMuPDFLoader
提供了多种加载和分割 PDF 文档的方法,支持同步和异步加载,还可以选择是否提取图片。这使得处理 PDF 文件更加灵活。
类名: langchain_community.document_loaders.pdf.PyMuPDFLoader
使用 PyMuPDF 加载 PDF 文件。
初始化
通过文件路径初始化。
属性
source
: 数据来源。
方法
__init__(file_path, *, headers=None, extract_i
原文地址:https://blog.csdn.net/qq_41185868/article/details/143755832
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!