探索 PDF 转 Markdown 的项目：MinerU 和 pdfParser

🕗 发布于 2024-07-20 05:43 pdf 人工智能 深度学习

pdfParser 项目是在MinerU 项目的基础上开发的，增加了表格识别功能

MinerU：综合数据提取工具

MinerU 项目是一款一站式、开源、高质量的数据提取工具，支持 PDF、网页和电子书的提取。其 Magic-PDF 模块可以将 PDF 转换为 Markdown 格式，保留文档结构和格式，并支持图像和表格提取。该项目是由opendatalab实验室开源的项目，该实验室是为为国产大模型提供高质量的开放数据集。

部署方法

克隆项目：

git clone https://github.com/opendatalab/MinerU.git

安装 Magic-PDF：
```
pip install magic-pdf[full-cpu]
```

下载模型权重文件并配置：

cp magic-pdf.template.json ~/magic-pdf.json

使用 CUDA 或 MPS 加速推理（可选）：

CUDA：

pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118

修改 magic-pdf.json：

{
  "device-mode": "cuda"
}

MPS：
修改 magic-pdf.json：
```
{
  "device-mode": "mps"
}
```

运行 Magic-PDF：

magic-pdf pdf-command --pdf "pdf_path" --inside_model true

pdfParser：增强的表格识别功能

pdfParser 项目增强了表格识别功能，能将 PDF 中的表格转换为 Markdown 文本。

部署方法

克隆项目：

git clone https://github.com/JUN-ZZ/pdfParser.git

安装依赖：

在上面的项目基础上安装
 pip install html2text  -i https://mirror.baidu.com/pypi/simple

修改目录运行：
```
python data_processer.py
```

通过利用这些工具，用户可以简化数据提取过程，实现 PDF 内容到 Markdown 格式的无缝转换。

原文地址：https://blog.csdn.net/kjzd123/article/details/140556883

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：LeetCode题练习与总结：两数之和Ⅱ-输入有序数组--167
下一篇：postgres 的WAL日志膨胀的几种原因

百度搜索AI探索版多线程批量生成TXT原创文章软件-可生成3种类型文章
8、有8种标题模式可自由设置：1、关键词 2、百度搜索AI原创标题(以原创标题写文章) 3、关键词 + 百度搜索AI原创标题 4、关键词 + 下拉副标题 5、关键词 + 下拉副标题
阅读更多2024-11-16
批量更改表格数据不更新、不实时渲染、或则watch监听不到表格修改数据
第一种方法是监听的watch中添加deep:true，但是这种方法对我来说不管用，我需要监听某一列的数据，在批量更改后，统计数量，这时候，手动更改数据，他的监听并不能实时抓捕到。我这里的功能是，批量更
阅读更多2024-11-16
【大语言模型】ACL2024论文-10 CSCD-IME: 纠正拼音输入法产生的拼写错误
本文研究了中文拼写校正（CSC）任务，特别是针对拼音输入法（IME）产生的错误。作者首先介绍了一个包含40,000个标注句子的中文拼写校正数据集（CSCD-IME），这些句子来自新浪微博上的官方媒体帖
阅读更多2024-11-16
react 中 memo 模块作用
memo`是一个用于优化组件性能的高阶组件。
阅读更多2024-11-16
随笔content1
如果组件的具体类型无法获得，或者你并不关心组件的具体类型，那么可以使用 ComponentPublicInstance。当你将一个响应式对象的属性赋值或解构到一个本地变量时，访问或赋值该变量是非响应式
阅读更多2024-11-16
Java多线程底层设计思路
Java 的多线程设计比较全面和灵活，提供了多种方式来定义任务和管理线程，特别是通过Runnable和Callable接口，可以实现任务和线程的解耦，适应不同的应用场景。与 Python 和 C# 相
阅读更多2024-11-16
第七章利用CSS和多媒体美化页面
当设置为show时，就意味着当表格中某个单元格没有内容时，依然会显示该单元格的边框，这样可以保持表格的完整性和视觉上的连贯性，让用户在浏览表格时，能清晰地看到每个单元格的范围。而当参数为hide时，则
阅读更多2024-11-16
Cyberchef配合Wireshark提取并解析TCP/FTP流量数据包中的文件
通过cyberchef还原pcap数据包中TCP上层的文件内容，提升wireshark分析数据包的效率
阅读更多2024-11-16
redis
Redis 本质上是一个 Key-Value 类型的内存数据库，整个数据库加载在内存当中进行操作，定期通过异步操作把数据库数据 flush 到硬盘上进行保存。因为是纯内存操作， Redis 的性能
阅读更多2024-11-16
C++学习笔记之string容器、vector容器
vector可以动态扩展，动态扩展并不是在原空间之后续接新空间，而是找更大的内存空间，然后将原数据拷贝新空间，释放原空间。我们读过的书，说过的话，见过的山水，见到的人和事，最终都会变成我们脚下的的路。
阅读更多2024-11-16

探索 PDF 转 Markdown 的项目：MinerU 和 pdfParser

pdfParser 项目是在MinerU 项目 的基础上开发的，增加了表格识别功能

MinerU：综合数据提取工具

部署方法

pdfParser：增强的表格识别功能

部署方法

相关文章

pdfParser 项目是在MinerU 项目的基础上开发的，增加了表格识别功能