如何用python将pdf转换为json格式

🕗 发布于 2024-11-14 17:54 python pdf json

使用 Python 将 PDF 文件转换为 JSON 格式，主要步骤如下：

读取 PDF 内容：首先使用一个库读取 PDF 文件内容，如 PyMuPDF 或 pdfplumber。这些库可以逐页提取文本，并返回结构化的数据。
组织数据到 JSON：将提取的文本数据格式化为字典或嵌套字典，然后将其转化为 JSON 格式。
输出 JSON 文件：使用 json 库将字典保存为 JSON 文件。

以下是使用 pdfplumber 的示例代码：

import pdfplumber
import json

def pdf_to_json(pdf_path, json_path):
    data = []
    
    with pdfplumber.open(pdf_path) as pdf:
        for i, page in enumerate(pdf.pages):
            text = page.extract_text()
            # 可以根据需要进一步解析或分段文本
            data.append({"page": i + 1, "text": text})

    # 将数据写入 JSON 文件
    with open(json_path, 'w', encoding='utf-8') as f:
        json.dump(data, f, ensure_ascii=False, indent=4)

# 使用方法
pdf_path = "sample.pdf"
json_path = "output.json"
pdf_to_json(pdf_path, json_path)

代码解释

pdfplumber.open(pdf_path): 打开 PDF 文件。
pdf.pages[i].extract_text(): 从 PDF 文件的每一页提取文本。
json.dump(data, f, ensure_ascii=False, indent=4): 将字典数据格式化为 JSON 并写入文件。

注意事项

如果 PDF 内容包含表格或复杂的结构，可能需要额外处理，例如使用 pdfplumber 提供的 extract_table() 方法提取表格数据。
可以根据需要调整数据结构，将内容分为段落、标题等，以便生成更精确的 JSON 文件。

如果希望 JSON 的格式是包含 chapter 和 text 字段，可以先在 PDF 中查找章节标题（例如根据特定的关键字或字体格式），然后提取相应的文本内容。假设每个章节标题以 “Chapter” 开头，以下是一个可能的实现方法：

import pdfplumber
import json
import re

def pdf_to_json(pdf_path, json_path):
    data = []
    current_chapter = None
    current_text = []

    with pdfplumber.open(pdf_path) as pdf:
        for page in pdf.pages:
            text = page.extract_text()
            if text is None:
                continue
            
            # 按行分割文本，便于逐行检查
            lines = text.split('\n')
            for line in lines:
                # 检查是否是章节标题（例如以 "Chapter" 开头的行）
                if re.match(r'^\s*Chapter\s+\d+', line, re.IGNORECASE):
                    # 保存上一章节内容到 data 中
                    if current_chapter:
                        data.append({"chapter": current_chapter, "text": "\n".join(current_text)})
                    
                    # 更新当前章节标题和内容
                    current_chapter = line.strip()
                    current_text = []
                else:
                    # 将非章节标题的内容加入当前章节文本
                    current_text.append(line)

    # 添加最后一个章节
    if current_chapter:
        data.append({"chapter": current_chapter, "text": "\n".join(current_text)})

    # 将数据写入 JSON 文件
    with open(json_path, 'w', encoding='utf-8') as f:
        json.dump(data, f, ensure_ascii=False, indent=4)

# 使用方法
pdf_path = "sample.pdf"
json_path = "output.json"
pdf_to_json(pdf_path, json_path)

代码解释

current_chapter：用于保存当前章节标题。
current_text：用于收集当前章节的所有文本内容。
re.match(r'^\s*Chapter\s+\d+', line, re.IGNORECASE)：使用正则表达式检查是否是章节标题（假设章节标题格式为 “Chapter X”）。
当检测到一个新的章节时，将 current_chapter 和 current_text 保存到 data 列表，然后开始新的章节记录。

注意事项

如果章节标题格式不同，修改正则表达式条件以适应实际标题格式。
可以根据需要调整数据结构，以实现更灵活的 JSON 格式。

原文地址：https://blog.csdn.net/lycwhu/article/details/143751295

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：ssm105基于JAVAEE技术校园车辆管理系统+jsp(论文+源码)_kaic
下一篇：ApiSmart-QWen2.5 coder vs GPT-4o 那个更强？ ApiSmart 测评

OPC学习笔记
3. 解决前，读取字符串：165℃。2. 解决后，读取字符串：你好。解决后，读取字符串，165℃。
阅读更多2024-11-15
【秋招笔试-支持在线评测】11.06花子秋招(已改编)-三语言题解
🍭 大家好这里是，一起备战大厂笔试💻 ACM金牌团队🏅️ | 多次AK大厂笔试｜大厂实习经历✨ 本系列打算持续跟新春秋招笔试题。
阅读更多2024-11-15
技术整合与生态构建：Lyft与Mobileye引领自动驾驶新纪元
而Lyft与Mobileye的合作，正是抓住了这一市场趋势，通过提供高质量、便捷的服务，进一步满足了用户的需求，推动了自动驾驶出行服务的商业化进程。此次合作，Mobileye将把其最新的人工智能技术进
阅读更多2024-11-15
vue2在el-dialog打开的时候使该el-dialog中的某个输入框获得焦点方法总结
vue2在el-dialog打开的时候使该el-dialog中的某个输入框获得焦点方法总结
阅读更多2024-11-15
【无标题】
Dataset增加是增加示例还是运用原先的数据库，Database增加是新加一个全新的数据库。Dataset里面是各种数据库模型示例可以点击然后点击右侧的Video进行查看示例。需注意的是，当界面关闭
阅读更多2024-11-15
Andriod Studio 开发技巧
代码展开/收起：command + shift + （-+）全局代碼搜索：command + shift + F文件搜索：command + shift + o清理和重新获取依赖： flutter c
阅读更多2024-11-15
专题十八_动态规划_斐波那契数列模型_路径问题_算法专题详细总结
这个时候，不但要多开一行，还要多开两列，将左右两列都设置成INT_MAX，因为本来这两列是不存在的，但是为了在遍历上一行的三个位置的时候会出现越界情况，所以，多开两列，设置成最大值，这样就不会出现越界
阅读更多2024-11-15
C++copy memcpy strcpy
InputIt和OutputIt可以是迭代器类型也可以是指针类型first指向数组或者容器的第一个元素位置，last指向最后一个元素的下一个位置，遵循左闭右开原则，d_first指向复制产出对象第一个
阅读更多2024-11-15
OpenCV3.4.0 添加contrib模块过程记录
结束后将INSTALL设为启动项目，再次生成，所有库文件会被打包到build\install\x64\vc15\lib文件夹中。然后输入cd G:\Temp\opencv3.4.0\build\in
阅读更多2024-11-15
去中心化联邦学习与TinyML联合调查：群学习简介
因此，大多数工作将模型存储在去中心化的方式中（例如IPFS），并将哈希信息保存到区块链中，但这需要额外的努力来保证保存模型的可靠性。群学习（SL）是一种去中心化的联邦学习范式，它通过结合边缘计算方法和
阅读更多2024-11-15

如何用python将pdf转换为json格式

代码解释

注意事项

代码解释

注意事项

相关文章