用Python代码批量提取PDF文件中的表格

🕗 发布于 2024-05-25 12:45 python pdf 开发语言 excel

PDF文档中常常包含大量数据，尤其是官方报告、学术论文、财务报表等文档，往往包含了结构化的表格数据。表格作为承载关键信息的载体，其内容的准确提取对于数据分析、研究论证乃至业务决策具有重大意义。然而，PDF格式虽保证了文档的跨平台一致性，却给数据的直接提取和利用设置了障碍。掌握如何用Python高效地从PDF文档中提取表格，可以提升我们的数据处理能力、加速信息流转的能力。本文介绍如何利用Python来快速提取PDF文档中的表格数据，以及将表格数据保存到Excel文件。

用Python提取PDF文档中的表格数据
提取PDF文档中的表格并保存到Excel文件

本文所使用的方法需要用到Spire.PDF for Python，可通过PyPI安装：pip install Spire.PDF。

提取PDF文档中的表格数据

PdfTableExtractor(PdfDocument) 类可以用于处理PDF文档表格提取工作。创建好此类的实例之后，再使用 PdfTableExtractor.ExtractTable(int: page index) 方法就可以提取到指定页面上的所有表格了。获取到表格之后，我们就可以使用 PdfTable.GetText(int: row index, int column index) 方法提取表格数据保存到其他位置了。
以下是提取PDF表格并保存到文本的操作步骤：

导入所需模块。
创建 PdfDocument 实例，并使用 PdfDocument.LoadFromFile() 方法载入PDF文档。
创建一个列表储存表格数据，再使用文档创建一个 PdfTableExtractor 实例。
遍历文档页面，使用 PdfTableExtractor.ExtractTable(int: page index) 方法提取页面上的表格。
遍历每个提取到的表格，为每个表格创建字符串对象，再使用 PdfTable.GetText(int: row index, int column index) 方法获取表格数据并添加到字符串中。
将每个表格保存为一个文本文件。
释放资源。

代码示例：

from spire.pdf import *
from spire.pdf.common import *

# 创建PdfDocument类的实例
pdf = PdfDocument()

# 加载PDF文件
pdf.LoadFromFile("示例.pdf")

# 创建列表
list = []

# 创建PdfTableExtractor对象
extractor = PdfTableExtractor(pdf)

# 遍历文档的页面
for pageIndex in range(pdf.Pages.Count):
    # 从页面提取表格
    tableList = extractor.ExtractTable(pageIndex)

    # 检查表格列表是否不为空且列表不为空
    if tableList is not None and len(tableList) > 0:
        # 遍历列表中的表格
        for table in tableList:
            tableData = ''
            # 获取行数和列数
            row = table.GetRowCount()
            column = table.GetColumnCount()

            # 遍历表格的行和列
            for i in range(row):
                for j in range(column):
                    # 从单元格获取文本
                    text = table.GetText(i, j)

                    # 将文本添加到列表中
                    tableData += text + " "
                tableData += "\n"
        list.append(tableData)

# 将每个表格保存为txt文件
for i in range(len(list)):
    fileName = "output/Tables/ExtractedPDFTables{0}.txt".format(i)
    with open(fileName, "w") as f:
        f.writelines(list[i])

# 释放资源
pdf.Close()

提取结果：
在这里插入图片描述

在这里插入图片描述

提取PDF文档中的表格并保存到CSV文件

在提取表格数据时，我们可以结合Spire.XLS for Python库（pip install Spire.XLS）来直接将表格数据写入Excel文件中。以下是操作步骤：

导入所需模块。
创建一个 PdfDocument 类的实例。
使用 PdfDocument.LoadFromFile() 方法加载一个示例PDF文档。
创建一个 Workbook 类的实例，并清除其中的默认工作表。
遍历PDF文档中的页面。
使用 PdfTableExtractor.ExtractTable() 方法从页面中提取表格。
遍历提取出的表格。
对于每个表格，使用 Workbook.Worksheets.Add() 方法向工作簿中添加一个工作表。
使用 PdfTable.GetText() 方法获取表格中单元格的文本。
使用 Worksheet.Range[rowIndex, columnIndex].Value 属性将文本写入工作表中的特定单元格。
使用 Workbook.SaveToFile() 方法将结果工作簿保存为Excel文件。
释放资源。

代码示例：

from spire.pdf import *
from spire.xls import *

# 创建一个PdfDocument对象
doc = PdfDocument()

# 加载示例PDF文件
doc.LoadFromFile("示例.pdf")

# 创建一个Workbook对象
workbook = Workbook()

# 清除默认的工作表
workbook.Worksheets.Clear()

# 创建一个PdfTableExtractor对象
extractor = PdfTableExtractor(doc)

sheetNumber = 1

# 循环遍历页面
for pageIndex in range(doc.Pages.Count):
    # 从特定页面提取表格
    tableList = extractor.ExtractTable(pageIndex)

    # 判断表格列表是否不为空
    if tableList is not None and len(tableList) > 0:
        # 循环遍历列表中的表格
        for table in tableList:
            # 添加一个工作表
            sheet = workbook.Worksheets.Add(f"sheet{sheetNumber}")

            # 获取某个表格的行数和列数
            row = table.GetRowCount()
            column = table.GetColumnCount()

            # 循环遍历行和列
            for i in range(row):
                for j in range(column):
                    # 从特定单元格获取文本
                    text = table.GetText(i, j)

                    # 将文本写入指定的单元格
                    sheet.Range[i + 1, j + 1].Value = text

            # 自动调整列宽
            sheet.AllocatedRange.AutoFitColumns()

            sheetNumber += 1

# 保存到文件
workbook.SaveToFile("output/Tables/PDF表格到Excel文件.xlsx", ExcelVersion.Version2013)
workbook.Dispose()

提取的表格：
在这里插入图片描述

本文演示了如何使用Python提取PDF文档中的表格数据，并将其保存到文本文件或Excel文件。

更多PDF文档操作技巧请前往Spire.PDF for Python教程。

申请免费许可加粗样式

原文地址：https://blog.csdn.net/Eiceblue/article/details/139180542

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【JavaScript】文件下载
下一篇：STM32HAL（三）GPIO解析

linux线程cp模型，posix信号量，线程池，线程封装，单例模型，懒汉饿汉实现方式，自旋锁，读者写者模型
前面的同步，我们并没有一个很好的场景来模拟同步，只是简单的将有序的现象输出出来；现在我们来讲解一个比较合理且常见的模型——生产者消费者模型；
阅读更多2024-09-07
Qt/C++开源项目 TCP服务器调试助手（源码分享+发布链接下载）
该TCP服务器调试助手是用于测试和监控基于TCP协议的网络通信工具，能够帮助开发者便捷地进行网络通信调试。通过简洁的界面设计，用户可以轻松配置、管理TCP端口的连接，收发消息并进行数据监控分析。123
阅读更多2024-09-07
vue3整合antv x6实现图编辑器快速入门
例如：在上面节点基础上，我们有一个新的需求：给节点加上右键菜单。X6 支持使用 SVG、HTML 来渲染节点内容，在此基础上，我们还可以使用 React、Vue 组件来渲染节点，这样在开发过程中会非常
阅读更多2024-09-07
linux使用samba共享目录，其他虚拟机和windows都可以访问
linux使用samba共享目录，其他虚拟机和windows都可以访问
阅读更多2024-09-07
Linux系统编程实现ls -l | wc -l指令
由于该指令是通过管道的形式实现的，所以我们要使用系统函数pipe。ls -l |wc -l的作用就是统计当前目录有多少文件。由于父子间通过管道实现，所以存在读写阻塞问题，不用担心僵尸进程的产生，所以可
阅读更多2024-09-07
MySQL表操作及约束
MySQL表操作及约束
阅读更多2024-09-07
1.2CubeMAX创建FREERTOS入门示例
内核参数设置，用户根据自己的实际应用来裁剪定制。：相关宏的定义，可以自建一些常量在工程中使用。User Constants（用户常量）：定时器和信号量的创建。：用于查看堆使用情况。：任务与队列
阅读更多2024-09-07
YOLOv9改进策略【注意力机制篇】| PSA极化自我关注：实现高质量像素回归
本文记录的是基于PSA注意力模块的YOLOv9目标检测方法研究。PSA模块。本文将其应用到YOLOv9的检测任务中，使模型能够更好地捕捉图像中的细节信息，以实现目标检测任务中准确识别和定位。
阅读更多2024-09-07
爆改YOLOv8|利用yolov10的SCDown改进yolov8-下采样
yolov8改进，yolov10, 下采样SCDown, 即插即用
阅读更多2024-09-07
PDF样本图册转换为一个链接，随时打开无需印刷
想象一下，您手中有一本厚重的样本图册，里面包含了丰富多样的内容，如产品介绍、项目方案、学术论文等。在过去，您需要逐一翻阅、筛选，甚至为了便于查看，不得不将其印刷出来。如今，借助先进的数字化技术，还能实
阅读更多2024-09-07

用Python代码批量提取PDF文件中的表格

提取PDF文档中的表格数据

提取PDF文档中的表格并保存到CSV文件

相关文章