用Java提取PDF表格到文本、CSV、Excel工作表

🕗 发布于 2024-09-26 07:23 java pdf excel vscode

如何精准地提取PDF格式中嵌入的表格数据，并将其无缝转换为更加易于分析和操作的形式，如纯文本、CSV文件或Excel工作表，是一项重要的文档处理技巧。使用Java，我们可以简单地实现这一过程。本文将介绍如何利用Java从PDF文档提取表格数据，并写入文本文件、CSV文件以及Excel工作表。

文章目录

本文所使用的方法提取PDF表格主要需要免费的Free Spire.PDF for Java库，可下载导入或通过Maven导入：

<dependency>
    <groupId>e-iceblue</groupId>
    <artifactId>spire.pdf.free</artifactId>
    <version>9.13.0</version>
</dependency>

提取PDF表格需要用到库中的PdfTableExtractor类。我们可以为载入的PDF文件创建PdfTableExtractor对象，然后使用PdfTableExtractor.extractTable()方法根据页面在文档中的参数提取指定PDF页面上所有表格，最后再使用PdfTable.getText()方法即可获取表格中的数据。以下是一般操作步骤示例：

创建PdfDocument对象并使用PdfDocument.loadFromFile()方法载入PDF文档。
使用载入的PDF文档创建PdfTableExtractor对象。
使用PdfTableExtractor.extractTable()方法提取每个页面上的表格。
使用PdfTable.getText()方法获取PDF表格的单元格数据。

使用上述方法获取表格数据后，我们就可以将其写入文本文件，或搭配其他工具制作CSV或Excel文件了。

提取PDF表格数据写入文本文件

使用PdfTableExtractor.extractTable()方法提取表格并使用PdfTable.getText()方法获取单元格数据后，我们可以通过构建字符串并写入文本文件来实现提取表格并保存为文本文件的目的。以下是详细操作步骤：

导入所需模块。
创建PdfDocument对象并使用PdfDocument.loadFromFile()方法载入PDF文档。
使用载入的PDF文档创建PdfTableExtractor对象。
遍历页面，使用PdfTableExtractor.extractTable()方法提取每个页面上的所有表格。
遍历提取到的表格，为每个表格创建一个StringBuilder对象。
遍历表格中的行和列，使用PdfTable.getText()方法获取每个单元格的数据并去除换行符。然后将单元格数据添加到StringBuilder对象。
将StringBuilder对象写入文本文件。
释放资源。

代码示例

import com.spire.pdf.PdfDocument;
import com.spire.pdf.utilities.PdfTable;
import com.spire.pdf.utilities.PdfTableExtractor;

import java.io.FileWriter;
import java.io.IOException;

public class 从PDF中提取文本 {
    public static void main(String[] args) throws IOException {
        // 创建一个PdfDocument对象
        PdfDocument pdf = new PdfDocument();
        // 加载一个PDF文档
        pdf.loadFromFile("Sample.pdf");

        // 创建一个PdfTableExtractor对象
        PdfTableExtractor extractor = new PdfTableExtractor(pdf);

        // 从每一页中提取表格
        for (int pageIndex = 0; pageIndex < pdf.getPages().getCount(); pageIndex++) {
            PdfTable[] tables = extractor.extractTable(pageIndex);
            // 如果表格不为空，则遍历表格
            if (tables != null) {
                for (int tableIndex = 0; tableIndex < tables.length; tableIndex++) {
                    PdfTable table = tables[tableIndex];
                    // 创建一个StringBuilder对象
                    StringBuilder tableText = new StringBuilder();
                    // 遍历行和列
                    for (int rowIndex = 0; rowIndex < table.getRowCount(); rowIndex++) {
                        for (int colIndex = 0; colIndex < table.getColumnCount(); colIndex++) {
                            // 获取单元格文本并移除换行符
                            String cellText = table.getText(rowIndex, colIndex);
                            cellText = cellText.replaceAll("\\r|\\n", "");
                            if (colIndex < table.getColumnCount() - 1) {
                                tableText.append(cellText).append("\t");
                            } else {
                                tableText.append(cellText).append("\n");
                            }
                        }
                    }
                    // 将表格写入文本文件
                    try (FileWriter writer = new FileWriter("output/Tables/Page" + (pageIndex+1) + "-Table" + (tableIndex+1) + ".txt")) {
                        writer.write(tableText.toString());
                    }
                }
            }
        }
    }
}

提取结果
Python提取PDF表格到文本

提取PDF表格数据写入CSV文件

我们也可以用同样的方法提取表格数据，然后搭配其他模块，如opencsv，将提取到的数据写入CSV文件。也可以使用下面的提取PDF表格写入Excel文件，最后保存时保存为CSV文件。
opencsv：

<dependency>
  <groupId>com.opencsv</groupId>
  <artifactId>opencsv</artifactId>
  <version>5.9</version>
</dependency>

以下是搭配opencsv提取PDF表格数据并写入CSV文件的操作步骤：

导入所需模块。
创建PdfDocument对象并使用PdfDocument.loadFromFile()方法载入PDF文档。
使用载入的PDF文档创建PdfTableExtractor对象。
历页面面，使用PdfTableExtractor.extractTable()方法提取每个页面上的所有表格。
遍历提取的表格，并构建CSV文件名。
创建CSVWriter对象，遍历表格行以及行中的列，使用PdfTable.getText()方法获取每个单元格的数据并去除换行符，将提取的每行表格数据构建为字符串列表。最后将字符串列表写入为CSV数据行。
释放资源。

代码示例

import com.opencsv.CSVWriter;
import com.spire.pdf.PdfDocument;
import com.spire.pdf.utilities.PdfTable;
import com.spire.pdf.utilities.PdfTableExtractor;

import java.io.FileWriter;
import java.io.IOException;

public class 从PDF表格提取到CSV {
    public static void main(String[] args) throws IOException {
        // 创建一个PdfDocument对象
        PdfDocument pdf = new PdfDocument();
        // 加载一个PDF文档
        pdf.loadFromFile("Sample.pdf");

        // 创建一个PdfTableExtractor对象
        PdfTableExtractor extractor = new PdfTableExtractor(pdf);

        // 从每一页中提取表格
        for (int pageIndex = 0; pageIndex < pdf.getPages().getCount(); pageIndex++) {
            PdfTable[] tables = extractor.extractTable(pageIndex);
            // 如果表格不为空，则遍历表格
            if (tables != null) {
                for (int tableIndex = 0; tableIndex < tables.length; tableIndex++) {
                    PdfTable table = tables[tableIndex];
                    // 创建CSV文件名
                    String csvFileName = "output/Tables/Page" + (pageIndex + 1) + "-Table" + (tableIndex + 1) + ".csv";
                    // 创建一个CSVWriter对象
                    try (CSVWriter writer = new CSVWriter(new FileWriter(csvFileName))) {
                        // 遍历行和列
                        for (int rowIndex = 0; rowIndex < table.getRowCount(); rowIndex++) {
                            String[] row = new String[table.getColumnCount()];
                            for (int colIndex = 0; colIndex < table.getColumnCount(); colIndex++) {
                                // 获取单元格文本并移除换行符
                                String cellText = table.getText(rowIndex, colIndex).replaceAll("\\r?\\n", "");
                                row[colIndex] = cellText;
                            }
                            // 将行写入CSV文件
                            writer.writeNext(row);
                        }
                    }
                }
            }
        }
        // 关闭PDF文档
        pdf.close();
    }
}

提取结果
Python提取PDF表格到CSV

提取PDF表格数据写入Excel文件

保存PDF表格到表格需要用到Free Spire.XLS for Java。我们可以提取到PDF文档表格单元格数据后，使用Worksheet.getRange().setText()方法将数据写入到创建的Excel工作表的相应单元格并保存，从而实现PDF表格数据到Excel文件的提取。同时，我们还可以在保存文件时将格式参数设置为CSV，实现PDF表格数据到CSV文件的提取。
Free Spire.XLS for Java:

<dependency>
    <groupId>e-iceblue</groupId>
    <artifactId>spire.xls.free</artifactId>
    <version>5.3.0</version>
</dependency>

以下是详细操作步骤：

导入所需模块。
创建PdfDocument对象并使用PdfDocument.loadFromFile()方法载入PDF文档。
创建Workbook对象，并使用Workbook.getWorksheets().clear()方法清除默认工作表。
使用载入的PDF文档创建PdfTableExtractor对象。
历页面面，使用PdfTableExtractor.extractTable()方法提取每个页面上的所有表格。
遍历提取的表格，使用Workbook.getWorksheets().add()方法为每个表格创建一个指定名称的工作表。
遍历表格行和列，使用PdfTable.getText()方法获取每个单元格的数据并去除换行符，然后使用Worksheet.getRange().setText()方法将单元格数据写入到工作表的相应单元格。
设置工作表单元格的格式。
使用Worksheet.autoFitRow()和Worksheet.autoFitColumn()方法自动调整行高和列宽。
可以使用Worksheet.saveToFile()方法将工作表保存为CSV文件。
使用Workbook.saveToFile()方法保存工作簿为Excel文件。
释放资源。

代码示例

import com.spire.pdf.PdfDocument;
import com.spire.pdf.utilities.PdfTable;
import com.spire.pdf.utilities.PdfTableExtractor;
import com.spire.xls.*;

public class 从PDF表格提取到Excel {
    public static void main(String[] args) {
        // 创建一个PdfDocument对象
        PdfDocument pdf = new PdfDocument();
        // 加载一个PDF文档
        pdf.loadFromFile("G:/Documents/Sample73.pdf");

        // 创建一个Workbook对象
        Workbook workbook = new Workbook();
        workbook.getWorksheets().clear();

        // 创建一个PdfTableExtractor对象
        PdfTableExtractor extractor = new PdfTableExtractor(pdf);

        // 从每一页中提取表格
        for (int pageIndex = 0; pageIndex < pdf.getPages().getCount(); pageIndex++) {
            PdfTable[] tables = extractor.extractTable(pageIndex);
            // 如果表格不为空，则遍历表格
            if (tables != null) {
                for (int tableIndex = 0; tableIndex < tables.length; tableIndex++) {
                    // 向工作簿中添加一个工作表
                    Worksheet sheet = workbook.getWorksheets().add("Page" + (pageIndex + 1) + "-Table" + (tableIndex + 1));
                    // 遍历表格中的行和列
                    for (int rowIndex = 0; rowIndex < tables[tableIndex].getRowCount(); rowIndex++) {
                        for (int colIndex = 0; colIndex < tables[tableIndex].getColumnCount(); colIndex++) {
                            // 获取单元格文本并移除换行符
                            String cellText = tables[tableIndex].getText(rowIndex, colIndex).replaceAll("\\r|\\n", "");
                            // 将单元格文本写入工作表
                            sheet.getCellRange(rowIndex+1, colIndex+1).setText(cellText);
                        }
                    }
                    // 设置单元格样式
                    CellRange[] rows = sheet.getRows();
                    rows[0].getStyle().getFont().setFontName("HarmonyOS Sans SC");
                    rows[0].getStyle().getFont().setSize(12);
                    rows[0].getStyle().getFont().isBold(true);
                    rows[0].getStyle().setHorizontalAlignment(HorizontalAlignType.Center);
                    for (int i = 1; i < rows.length; i++) {
                        rows[i].getStyle().getFont().setFontName("HarmonyOS Sans SC");
                        rows[i].getStyle().getFont().setSize(12);
                        rows[i].getStyle().setHorizontalAlignment(HorizontalAlignType.Left);
                    }
                    // 自动调整行和列
                    for (int i = 0; i < rows.length; i++) {
                        sheet.autoFitRow(i+1);
                    }
                    for (int i = 0; i < sheet.getColumns().length; i++) {
                        sheet.autoFitColumn(i+1);
                    }
                    // 保存工作表为CSV文件
                    // sheet.saveToFile("output/Tables/PDFTableToCSV-Page" + (pageIndex + 1) + "-Table" + (tableIndex + 1) + ".csv", ",");
                }
            }
        }

        // 保存工作簿
        workbook.saveToFile("output/PDFTableToExcel.xlsx");
        // 关闭PDF文档
        pdf.close();
        // 释放工作簿资源
        workbook.dispose();
    }
}

提取结果
Python提取PDF表格到Excel

本文演示了如何使用Java提取PDF表格数据写入文本、CSV以及Excel文件。

更多PDF文档操作技巧请前往Spire.PDF for Java教程查看。

原文地址：https://blog.csdn.net/Eiceblue/article/details/142528302

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：c++模拟真人鼠标轨迹算法
下一篇：【QT 5 调试软件+Linux下调用脚本shell-无法调度+目录拼写+无法找目录+sudo权限（2）+问题解决方式+后续补充】

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20

用Java提取PDF表格到文本、CSV、Excel工作表

文章目录

提取PDF表格数据写入文本文件

提取PDF表格数据写入CSV文件

提取PDF表格数据写入Excel文件

相关文章