『python爬虫』使用docling 将pdf或html网页转为MD （保姆级图文）

🕗 发布于 2024-11-30 08:52 python 爬虫 pdf

预览效果

支持转化pdf的表格

在这里插入图片描述

安装

Docling 本身是专注于文档转换的工具，通常用于将文件（如 PDF）转换为其他格式（如 Markdown）

要求python3.11版本+

pip install docling

下载模型

第一次运行需要下载外网的模型,需要tz保证网络通畅,否则会一直飘红报错
可能需要较长时间计算分析,尤其是你没有GPU 使用CPU的情况

Fetching 9 files: 100%|██████████| 9/9 [00:00<00:00, 15840.85it/s]
Neither CUDA nor MPS are available - defaulting to CPU. Note: This module is much faster with a GPU.

测试代码

from docling.document_converter import DocumentConverter

# 第一次运行需要下载外网的模型,需要tz保证网络通畅

# 外网pdf论文
# source = "https://arxiv.org/pdf/2206.01062"  # document per local path or URL

# 可以是网页
# source = "https://blog.csdn.net/u011027547/article/details/143885170"  # document per local path or URL

# 可以是pdf
source = "https://www.gov.cn/zhengce/zhengceku/2022-11/12/5726417/files/b0d97070c0674ab0a1dec4ccd45dd726.pdf"  # document per local path or URL

# 初始化 DocumentConverter
converter = DocumentConverter()

# 执行转换
result = converter.convert(source)

# 获取转换后的 Markdown 内容
markdown_content = result.document.export_to_markdown()

# 保存到 .md 文件
with open(source.split('/')[-1]+".md", "w", encoding="utf-8") as md_file:
    md_file.write(markdown_content)

print("Markdown 文件已保存为 "+source.split('/')[-1]+".md")

总结

大家喜欢的话，给个👍，点个关注！给大家分享更多计算机专业学生的求学之路！

发现你走远了@mzh原创作品，转载必须标注原文链接

Crated：2023-3-1

欢迎关注『python爬虫』专栏，持续更新中
欢迎关注『python爬虫』专栏，持续更新中
『未完待续』

原文地址：https://blog.csdn.net/u011027547/article/details/143885170

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：PDF版地形图矢量出现的问题
下一篇：Ps：存储 Adobe PDF - 安全性

在html页面显示一个变量，而这个变量中有xss脚本，如何安全的把这个变量原样展示出来
另一种常见的做法是对变量中的特殊字符进行转义，将它们转换为对应的HTML实体编码。这样即使变量中原本有类似脚本的内容，在浏览器渲染时也只会显示这些字符的编码形式，而不会被当作可执行的脚本。在上述代码中
阅读更多2024-11-30
electron学习渲染进程与主进程通信
渲染进程 -> 主进程：通过发送消息，主进程通过监听。主进程 -> 渲染进程：通过发送消息，渲染进程通过监听。通过暴露安全 API：在preload.js中暴露 API，渲染进程通过调用主
阅读更多2024-11-30
Web版IPTV播放器streamdock
📺 streamdock 是一个 Web-IPTV 播放器的 Docker 镜像。
阅读更多2024-11-30
pyinstaller打包的时候将ffmpeg也加进包中（包括打包文件夹的方法）
通过以上方法，将ffmpeg和pydub一起打包即可实现完整的功能。参数和修改.spec文件是常见的解决方案，确保ffmpeg在运行环境中可用，同时代码中显式指定路径以避免找不到依赖的问题。
阅读更多2024-11-30
SSM相关面试题01
一级缓存（Local Cache）：也称为SqlSession级别的缓存，每个SqlSession都有自己的一级缓存，当查询相同的Namespace和SQL时，会直接从一级缓存中获取数据，而不是再次
阅读更多2024-11-30
DepthAI 2.29版本发布
在进行滤波之前，视差将会被首先缩放到13位，这使得滤波更加有效4🍃。
阅读更多2024-11-30
设计模式学习之——观察者模式
设计模式学习-观察者模式，观察者模式的定义、实现原理、优缺点，应用场景，代码示例，以及观察者模式与发布订阅模式之前的区别与联系
阅读更多2024-11-30
C# 类（Class）
类是创建对象的蓝图。在C#中，类是一个包含数据成员（字段、常量）和函数成员（方法、属性、事件、索引器、运算符、构造函数、析构函数）的密封单元。类定义了对象的属性（数据）和行为（方法）。
阅读更多2024-11-30
Day31 贪心算法 part05
最后一个难点就是我们不应该是直接把当前数字变成9，而是设置一个flag，让flag后面的数字全变成9，这是为了防止1000，这种情况，如果不使用flag，就是900，而不是999。如果interval
阅读更多2024-11-30
力扣--LCR 149.彩灯装饰记录I
额外空间复杂度：容器里最对存放 1/2 的节点，故为 O(n)时间复杂度：O(n)
阅读更多2024-11-30

『python爬虫』使用docling 将pdf或html网页转为MD （保姆级图文）

目录

预览效果

安装

下载模型

测试代码

总结

相关文章