python pdf 转 md 文档多个方案

🕗 发布于 2024-07-27 01:21 python pdf c#

方案1 pdf转word转html转md

解析较慢链路较多效果和方案2类似但不如方案2快


import time
import mammoth
import markdownify
from pdf2docx import Converter
# 参考 https://zhuanlan.zhihu.com/p/688159597  https://cloud.tencent.com/developer/article/1768983


# 转存Word文档内的图片
def convert_images(image):
    with image.open() as image_bytes:
        file_suffix = image.content_type.split("/")[1]
        path_file = base_path+"{}.{}".format(str(time.time()),file_suffix)
        with open(path_file, 'wb') as f:
            f.write(image_bytes.read())

    return {"src":path_file}


def pdf2md(pdf_path):
    start = time.time()
    word_path = pdf_path+'.docx'
    html_path = pdf_path+'.docx.html'
    md_path = pdf_path+'.docx.html.md'
    # 创建对象
    cv = Converter(pdf_path)
    # 实现 PDF 转换为 Word
    cv.convert(word_path, start=0, end=None)
    # 关闭对象
    cv.close()
    # 转化Word文档为HTML
    result = mammoth.convert_to_html(word_path,convert_image = mammoth.images.img_element(convert_images))
    # 获取HTML内容
    html = result.value
    # 转化HTML为Markdown
    md = markdownify.markdownify(html,heading_style="ATX")
    with open(html_path,'w',encoding='utf-8') as html_file,open(md_path,"w",encoding='utf-8') as md_file:
        html_file.write(html)
        md_file.write(md)

    elapse_time = time.time() - start
    print('转换 '+pdf_path+' 运行时间：'+ str(elapse_time))



if __name__ == '__main__':
    # pdf转doc转html转md
    base_path = '/Users/xxxx/'
    pdf2md(base_path+'xxxxx.pdf')

方案2 使用 pymupdf 的 pymupdf4llm

解析快会存在字体缺失，乱码问题


import time
import pymupdf4llm

# 参考 https://pymupdf.readthedocs.io/en/latest/rag.html

# pdf

def pdf2md(pdf_path,md_path):
    start = time.time()
    md_text = pymupdf4llm.to_markdown(pdf_path, write_images=True)
    output = open(md_path, "w")
    output.write(md_text)
    output.close()
    elapse_time = time.time() - start
    print('转换 '+pdf_path+' 运行时间：'+ str(elapse_time))


if __name__ == '__main__':
    base_path = '/Users/xxxx/'
    pdf2md(base_path+'xxxxx.pdf',base_path+'xxxx.pdf.md')

方案3 使用 pix2text 进行 ocr识别

pix2text 安装会很大，效果不错，解析时间会较长


import time
from pix2text import Pix2Text

# 主要使用ocr识别 参考 https://www.breezedeus.com/article/p2t-v1.1
# 类似项目 VikParuchuri/marker  https://github.com/VikParuchuri/marker?tab=readme-ov-file


def pdf2md(base_path,pdf_path,md_name):
    start = time.time()
    p2t = Pix2Text.from_config(enable_formula=False)
    doc = p2t.recognize_pdf(pdf_path)
    doc.to_markdown(out_dir=base_path,markdown_fn=md_name)
    elapse_time = time.time() - start
    print('转换 '+pdf_path+' 运行时间：'+ str(elapse_time))


if __name__ == '__main__':
    base_path = '/Users/xxx/'
    pdf2md(base_path,base_path+'xxx.pdf','xxx.pdf.md')

方案4 使用 ai模型 gpt 问答

效果不可控，解析时间长，需要微调和适配

参考 https://mp.weixin.qq.com/s/P5KBcqXBqHqvrqnlMIkQYA

原文地址：https://blog.csdn.net/a1041646584/article/details/140722820

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：TikTok Shop全托管上线JIT，并预计10月开放西班牙和爱尔兰站点
下一篇：Chrome谷歌浏览器Console（控制台）显示文件名及行数

Maxwell 底层原理详解
Maxwell 是一个轻量级的 MySQL binlog 解析工具，它通过连接 MySQL 并获取 binlog 数据，利用解析这些二进制日志，将其转化为易于处理的RowMap对象，并通过Produc
阅读更多2024-10-18
WebMvcConfigurer自定义配置
WebMvcConfigurer 是 Spring 提供的接口，用于扩展 Spring MVC 的默认行为。它是一种非侵入式的配置方式，可以轻松地进行各种自定义配置，如拦截器、消息转换器、跨域设置等。
阅读更多2024-10-18
期货配资系统风控逻辑开发/完整源代码
期货配资系统风控逻辑的开发是确保系统安全、稳定、高效运行的关键环节。
阅读更多2024-10-18
二叉查找树（Binary Search Tree）Java语言实现
二叉查找树（Binary Search Tree），也称为二叉搜索树、有序二叉树（Ordered Binary Tree）或排序二叉树（Sorted Binary Tree）。
阅读更多2024-10-18
Spring如何通过三级缓存解决循环依赖的问题
在创建 bean 的过程中，通过提前曝光未完全初始化的 bean 实例，使得在循环依赖的情况下，其他 bean 可以获取到正在创建中的 bean，从而保证了创建过程的顺利进行。通过在适当的时候提供一个
阅读更多2024-10-18
【Vue】项目部署本地部署和服务器部署
本地部署 Vue 项目的dist目录，可以选择使用简单的 HTTP 服务器（如或serve）、Nginx 或 Docker。每种方法都有其优点和适用场景，具体选择取决于你的需求和环境。将 Vue 项目
阅读更多2024-10-18
springcloud之应用服务快速失败熔断降级保护 Hystrix
那么为了应对雪崩我们经常会进行服务扩容、添加缓存、优化流程但往往突发的事件依然有击穿缓存、应用负载、数据库IO、网络异常等等带来的风险，所以一些常见的做法有服务降级、限流、熔断，在逐步恢复系统可用率来
阅读更多2024-10-18
嵌入式 GmSSL的SM2，SM3具体使用及对接JAVA的BC库
用嵌入式下的GmSSL库用公钥生成的SM2的密文发送给Java服务端。GmSSL移植到嵌入式可以参考我上一篇博文。
阅读更多2024-10-18
电脑 WiFi 上网，开发板和电脑直连,如何才能让开发板也有网络
电脑 WiFi 上网，开发板和电脑直连,如何才能让开发板也有网络。
阅读更多2024-10-18
repo 命令大全详解（第十六篇 repo selfupdate）
命令简单直接，用于更新repo工具到最新版本。通过不同的选项，用户可以控制输出信息的详细程度和更新的范围。
阅读更多2024-10-18

python pdf 转 md 文档 多个方案

推荐

方案1 pdf转word转html转md

方案2 使用 pymupdf 的 pymupdf4llm

方案3 使用 pix2text 进行 ocr识别

方案4 使用 ai模型 gpt 问答

相关文章

python pdf 转 md 文档多个方案