实战经验：使用 Python 的 PyPDF 进行 PDF 操作

🕗 发布于 2025-01-20 10:31 python pdf android

在这里插入图片描述

文章目录

PDF 是一种非常常见的文件格式，用于文档共享、电子书、合同等场景。对于开发者来说，能够高效地操作 PDF 文件是一个重要技能。本文将介绍如何使用 Python 的 PyPDF 库完成一些常见的 PDF 处理任务，并分享实战经验。

1. 为什么选择 PyPDF？

PyPDF 是一个轻量级且功能强大的 PDF 操作库，支持以下功能：

合并和拆分 PDF 文件
提取文本和元信息
添加或修改文档的元数据
加密和解密 PDF
自定义 PDF 页面旋转或裁剪

以下是一些实战场景的详细实现。

2. 安装 PyPDF

首先，需要安装 PyPDF 库。可以使用 pip：

pip install pypdf

确保安装的是最新版，以获得最新功能和性能改进。

3. PDF 文件的合并与拆分

3.1 合并 PDF 文件

合并多个 PDF 文件在生成报告或整理文档时非常有用。

from pypdf import PdfMerger

# 初始化合并器
merger = PdfMerger()

# 添加需要合并的 PDF 文件
merger.append("file1.pdf")
merger.append("file2.pdf")

# 保存合并后的文件
merger.write("merged.pdf")
merger.close()
print("PDF 合并完成！")

3.2 拆分 PDF 文件

将一个 PDF 文件拆分为多个独立的页面文件。

from pypdf import PdfReader, PdfWriter

# 读取 PDF 文件
reader = PdfReader("input.pdf")

# 拆分每一页
for i, page in enumerate(reader.pages):
    writer = PdfWriter()
    writer.add_page(page)
    with open(f"page_{i+1}.pdf", "wb") as output_file:
        writer.write(output_file)
print("PDF 拆分完成！")

4. 提取 PDF 文本

提取 PDF 文件中的文本内容，可以用于数据分析或自动化处理。

from pypdf import PdfReader

# 读取 PDF 文件
reader = PdfReader("input.pdf")

# 提取每页的文本
for page in reader.pages:
    print(page.extract_text())

注意事项：

文本提取的效果取决于 PDF 的结构。如果 PDF 中的文本是以图像形式存储的，则无法直接提取文本。

5. 修改 PDF 元信息

修改 PDF 的元数据，例如标题、作者等。

from pypdf import PdfReader, PdfWriter

reader = PdfReader("input.pdf")
writer = PdfWriter()

# 复制所有页面到新 PDF
writer.add_pages(reader.pages)

# 修改元信息
writer.metadata = {
    "/Title": "新的标题",
    "/Author": "作者名",
    "/Subject": "主题描述"
}

with open("output.pdf", "wb") as output_file:
    writer.write(output_file)
print("元信息修改完成！")

6. PDF 加密与解密

6.1 加密 PDF

为 PDF 文件添加密码保护。

from pypdf import PdfWriter

writer = PdfWriter()
writer.append("input.pdf")

# 设置密码
writer.encrypt(user_password="user123", owner_password="owner123")

with open("encrypted.pdf", "wb") as output_file:
    writer.write(output_file)
print("PDF 加密完成！")

6.2 解密 PDF

解密受密码保护的 PDF 文件。

from pypdf import PdfReader

reader = PdfReader("encrypted.pdf")

# 提供密码解密
reader.decrypt("user123")

for page in reader.pages:
    print(page.extract_text())

7. 页面旋转与裁剪

7.1 旋转页面

旋转 PDF 的页面，例如将横向页面转为纵向。

from pypdf import PdfReader, PdfWriter

reader = PdfReader("input.pdf")
writer = PdfWriter()

# 旋转每一页
for page in reader.pages:
    page.rotate(90)  # 顺时针旋转 90 度
    writer.add_page(page)

with open("rotated.pdf", "wb") as output_file:
    writer.write(output_file)
print("页面旋转完成！")

7.2 裁剪页面

裁剪页面边框以去掉不必要的内容。

from pypdf import PdfReader, PdfWriter

reader = PdfReader("input.pdf")
writer = PdfWriter()

for page in reader.pages:
    # 设置裁剪框 (左, 下, 右, 上)
    page.mediabox.lower_left = (50, 50)
    page.mediabox.upper_right = (500, 700)
    writer.add_page(page)

with open("cropped.pdf", "wb") as output_file:
    writer.write(output_file)
print("页面裁剪完成！")

8. 实战经验总结

处理异常：在实际操作中，确保捕获文件读写或解析过程中的异常，例如文件不存在或解密失败。
测试 PDF 文件：由于 PDF 文件格式的多样性，在批量处理前需要先对样本文件进行测试。
性能优化：对于大文件，使用分批加载的方式处理。
安全性：避免在代码中硬编码敏感信息，例如密码。

通过本文，您应该对 PyPDF 的常用功能有了清晰的理解，并能应用到实际项目中。如果有更复杂的场景，可以参考官方文档或社区资源深入探索。

原文地址：https://blog.csdn.net/xixihahalelehehe/article/details/145241285

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Java 大视界 -- 深度洞察 Java 大数据安全多方计算的前沿趋势与应用革新（52）
下一篇：第7章：Python TDD测试Franc对象乘法功能

3.5 OpenAI Moderation：确保生成内容符合道德与安全标准
OpenAIModeration是一个自动化的内容审查系统，它利用机器学习模型来识别和标记可能含有不当内容的文本。这个工具的目标是帮助开发者、平台和服务确保其自动生成内容符合伦理标准，避免发布含有恶意
阅读更多2025-01-21
在 QNAP NAS中使用 Container Station 运行 Docker 的完整指南
qnap安装docker
阅读更多2025-01-21
麒麟系统中删除权限不够的文件方法
这将强制删除文件，不会将其移动到回收站，因此请谨慎使用。这将提示你输入管理员密码，输入正确后即可删除文件。希望这些方法能帮助你成功删除权限不够的文件。如果文件被系统占用或无法正常删除，可以使用。命令以
阅读更多2025-01-21
【达梦数据库】两地三中心环境总结
【代码】【达梦数据库】两地三中心环境总结。
阅读更多2025-01-21
每日一题-二分查找
二分查找
阅读更多2025-01-21
【cursor重构谷粒商城】03——谷粒商城技术架构选型存在哪些不足？
介绍谷粒商城项目的技术栈、架构、以及电商模式、微服务等基础概念。
阅读更多2025-01-21
如何用3个月零基础入门网络安全？_网络安全零基础怎么学习
我们知道计算机最早是在西方发明出来的，很多名词或者代码都是英文的，甚至现有的一些教程最初也是英文原版翻译过来的，而且一个漏洞被发现到翻译成中文一般需要一个星期的时间，在这个时间差上漏洞可能都修补了。”
阅读更多2025-01-21
SpringBoot注入配置文件application.properties中的信息
解决：自定义application.properties配置文件中的信息，注意严格遵循a=b的形式，不要加引号；在使用的时候通过Value注解注入。问题：将可能会变动的配置信息硬编码在代码中，在修改时
阅读更多2025-01-21
MySQL创建和操纵表
用逗号分隔；有的DBMS还要求指定表的位置。
阅读更多2025-01-21
数据结构与算法面试专题——引入及归并排序
数据结构与算法面试专题——引入及归并排序
阅读更多2025-01-21