探索 PDF 转 Markdown 的项目:MinerU 和 pdfParser
pdfParser 项目是在MinerU 项目 的基础上开发的,增加了表格识别功能
MinerU:综合数据提取工具
MinerU 项目 是一款一站式、开源、高质量的数据提取工具,支持 PDF、网页和电子书的提取。其 Magic-PDF 模块可以将 PDF 转换为 Markdown 格式,保留文档结构和格式,并支持图像和表格提取。该项目是由opendatalab实验室开源的项目,该实验室是为为国产大模型提供高质量的开放数据集。
部署方法
-
克隆项目:
git clone https://github.com/opendatalab/MinerU.git
-
安装 Magic-PDF:
pip install magic-pdf[full-cpu]
-
下载模型权重文件并配置:
cp magic-pdf.template.json ~/magic-pdf.json
-
使用 CUDA 或 MPS 加速推理(可选):
- CUDA:
修改pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118
magic-pdf.json
:{ "device-mode": "cuda" }
- MPS:
修改magic-pdf.json
:{ "device-mode": "mps" }
- CUDA:
-
运行 Magic-PDF:
magic-pdf pdf-command --pdf "pdf_path" --inside_model true
pdfParser:增强的表格识别功能
pdfParser 项目 增强了表格识别功能,能将 PDF 中的表格转换为 Markdown 文本。
部署方法
-
克隆项目:
git clone https://github.com/JUN-ZZ/pdfParser.git
-
安装依赖:
在上面的项目基础上安装 pip install html2text -i https://mirror.baidu.com/pypi/simple
-
修改目录运行:
python data_processer.py
通过利用这些工具,用户可以简化数据提取过程,实现 PDF 内容到 Markdown 格式的无缝转换。
原文地址:https://blog.csdn.net/kjzd123/article/details/140556883
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!