Python 获取PDF的各种页面信息（页数、页面尺寸、旋转角度、页面方向等）

🕗 发布于 2024-11-09 10:50 python 获取PDF总页数获取PDF页面尺寸大小获取PDF页面旋转角度判断PDF页面方向

了解PDF页面信息对于有效处理、编辑和管理PDF文件至关重要。PDF文件通常包含多个页面，每个页面可能有不同的尺寸、方向、旋转角度以及其他属性。在很多应用场景下，获取这些页面信息可以帮助我们更好地控制PDF内容的显示、打印或转换。这篇文章将介绍如何使用Python获取PDF文档的各种页面信息，包括：

获取PDF页数
获取PDF页面尺寸
获取PDF页面旋转角度
获取PDF页面方向
获取PDF页面标签
获取PDF页面边框信息

安装所需库

要在Python中获取PDF的各种页面信息，可以使用Spire.PDF for Python库。它是一个专门用于在Python应用程序中创建、读取、操作和转换PDF文档的库。

你可以通过在终端运行以下命令来从PyPI安装Spire.PDF for Python：

pip install Spire.PDF

Python获取PDF页数

PDF文件中的页数是基本信息之一，了解文档总共有多少页可以帮助我们在操作文件时做出相应的调整。比如在拆分文件、打印特定页码或进行内容提取时，知道文件总页数是至关重要的。

以下是获取PDF页数的具体步骤：

使用PdfDocument类打开PDF文件。
使用PdfDocument.Pages.Count属性来获取总页数。

实现代码：

# 导入所需的模块
from spire.pdf.common import *
from spire.pdf import *

# 打开PDF文档
pdf = PdfDocument("Sample.pdf")

# 获取页面总数
page_count = pdf.Pages.Count

# 输出页面总数
print(f"该PDF有 {page_count} 页。")
pdf.Close()

Python获取PDF页面尺寸

PDF的页面尺寸决定了内容如何在页面上呈现，不同的文件可能使用不同的纸张尺寸，如A4、A3等。了解页面尺寸可以帮助我们确保内容适合打印或显示。

以下是获取PDF页面尺寸的具体步骤：

使用PdfDocument类打开PDF文件。
获取特定页，使用PdfPageBase.Size.Width和PdfPageBase.Size.Height来获取页面宽度和高度。

实现代码：

# 导入所需的模块
from spire.pdf.common import *
from spire.pdf import *

# 打开PDF文档
pdf = PdfDocument("Sample.pdf")

# 通过索引获取第一页（索引从0开始）
page = pdf.Pages[0]

# 获取第一页的宽度和高度
width = page.Size.Width
height = page.Size.Height

# 输出第一页的尺寸
print(f"第一页的尺寸为 {width}  x {height} 磅。")
pdf.Close()

注意，以上获取的值以磅（pt）为单位，你可以使用 Spire.PDF for Python 提供的 PdfUnitConvertor 类在磅与其他单位例如英寸、像素、厘米和毫米之间进行转换。转换代码如下：

# 创建 PdfUnitConvertor 对象
converter = PdfUnitConvertor()

# 将磅转换为英寸
inch_value = converter.ConvertUnits(point_value, PdfGraphicsUnit.Point, PdfGraphicsUnit.Inch)

# 将磅转换为像素
pixel_value = converter.ConvertUnits(point_value, PdfGraphicsUnit.Point, PdfGraphicsUnit.Pixel)

# 将磅转换为厘米
centimeter_value = converter.ConvertUnits(point_value, PdfGraphicsUnit.Point, PdfGraphicsUnit.Centimeter)

# 将磅转换为毫米
millimeter_value = converter.ConvertUnits(point_value, PdfGraphicsUnit.Point, PdfGraphicsUnit.Millimeter)

Python获取PDF页面旋转角度

有时PDF中的页面可能由于编辑或导出过程中发生旋转，导致页面的内容显示方向不正确。获取页面的旋转角度（如0度、90度、180度或270度）可以帮助我们判断页面是否需要旋转以便正确显示。

以下是获取PDF页面旋转角度的具体步骤：

使用PdfDocument类打开PDF文件。
获取特定页，使用PdfPageBase.Rotation属性来获取页面的旋转角度。

实现代码：

# 导入所需的模块
from spire.pdf.common import *
from spire.pdf import *

# 打开PDF文档
pdf = PdfDocument("Sample.pdf")

# 通过索引获取第一页（索引从0开始）
page = pdf.Pages[0]

# 获取第一页的旋转信息
rotation_info = page.Rotation

# 确定旋转角度
if rotation_info == PdfPageRotateAngle.RotateAngle0:
    rotation_angle = "0度（正常）"
elif rotation_info == PdfPageRotateAngle.RotateAngle90:
    rotation_angle = "90度（顺时针旋转）"
elif rotation_info == PdfPageRotateAngle.RotateAngle180:
    rotation_angle = "180度（倒置）"
elif rotation_info == PdfPageRotateAngle.RotateAngle270:
    rotation_angle = "270度（逆时针旋转）"
else:
    rotation_angle = "未知旋转角度"

# 输出第一页的旋转角度
print(f"第一页的旋转角度为 {rotation_angle}。")
pdf.Close()

Python获取PDF页面方向

PDF页面的方向可以是纵向（Portrait）或横向（Landscape）。不同的页面方向适用于不同的内容展示方式。例如，表格或图表可能更适合横向展示，而文本内容则通常为纵向。判断页面的方向有助于确保页面内容在显示或打印时的布局正确。

以下是获取PDF页面方向的具体步骤：

使用PdfDocument类打开PDF文件。
获取特定页，根据页面宽高来判断方向。
- 宽度小于高度为纵向。
- 宽度大于高度为横向。

实现代码：

# 导入所需的模块
from spire.pdf.common import *
from spire.pdf import *

# 打开PDF文档
pdf = PdfDocument("Sample.pdf")

# 通过索引获取第一页（索引从0开始）
page = pdf.Pages[0]

# 获取第一页的宽度和高度
width = page.Size.Width
height = page.Size.Height

# 检查页面是纵向模式还是横向模式
if width > height:
    print("第一页是横向模式。")
else:
    print("第一页是纵向模式。")

pdf.Close()

Python获取PDF页面标签

页面标签（Page Label）在文档导航时非常有用，通常用于显示自定义页码，帮助用户快速找到指定内容。

实现步骤：

使用PdfDocument类打开PDF文件。
获取特定页，使用PdfPageBase.Label属性获取页面的自定义标签信息。

实现代码：

# 导入所需的模块
from spire.pdf.common import *
from spire.pdf import *

# 打开PDF文档
pdf = PdfDocument("Sample.pdf")

# 通过索引获取第一页（索引从0开始）
page = pdf.Pages[0]

# 获取第一页的标签
label = page.PageLabel

# 输出第一页的标签
print(f"第一页的标签是: {label}")
pdf.Close()

Python获取PDF页面边框信息

PDF拥有5种不同的页面边框：

媒体框（MediaBox）：定义页面上需要印刷的物理介质的范围。
裁剪框（CropBox）：定义页面显示或打印的内容范围，默认值为页面的媒体框‌。
出血框（BleedBox）：PDF 1.3 起开始支持，指在PDF文档中，为了确保印刷品的完整性，在成品尺寸的四周加上一定距离的安全区域。这个安全区域通常为3mm，目的是为了减少裁切时的误差，防止重要内容被裁切掉或留下白边‌。
裁切框（TrimBox）：PDF 1.3 起开始支持，显示印刷和裁切后，裁切文档的最终尺寸，也称为成品框。
作品框（ArtBox）：PDF 1.3 起开始支持，定义页面上有意义的内容，包括可能存在的留白。

详情可以参考以下示意图：

以下是获取PDF页面边框信息的具体步骤：

使用PdfDocument类打开PDF文件。
获取特定页，使用PdfPageBase.MediaBox、PdfPageBase.CropBox、PdfPageBase.BleedBox、PdfPageBase.TrimBox和PdfPageBase.ArtBox等属性分别获取对应的边框。然后获取它们的相关信息，如尺寸和坐标位置。

实现代码：

# 导入所需的模块
from spire.pdf.common import *
from spire.pdf import *

# 打开PDF文档
pdf = PdfDocument("Sample.pdf")

# 通过索引获取第一页（索引从0开始）
page = pdf.Pages[0]

# 获取第一页的媒体框、裁剪框、出血框、裁切框和作品框
media_box = page.MediaBox
crop_box = page.CropBox
bleed_box = page.BleedBox
trim_box = page.TrimBox
art_box = page.ArtBox

# 输出每个框的尺寸和坐标
print(f"媒体框: 宽度 = {media_box.Width}, 高度 = {media_box.Height}, X = {media_box.X}, Y = {media_box.Y}")
print(f"裁剪框: 宽度 = {crop_box.Width}, 高度 = {crop_box.Height}, X = {crop_box.X}, Y = {crop_box.Y}")
print(f"出血框: 宽度 = {bleed_box.Width}, 高度 = {bleed_box.Height}, X = {bleed_box.X}, Y = {bleed_box.Y}")
print(f"裁切框: 宽度 = {trim_box.Width}, 高度 = {trim_box.Height}, X = {trim_box.X}, Y = {trim_box.Y}")
print(f"作品框: 宽度 = {art_box.Width}, 高度 = {art_box.Height}, X = {art_box.X}, Y = {art_box.Y}")
pdf.Close()

以上就是如何使用Python获取PDF页数、页面尺寸、旋转角度、页面方向、页面标签和页面边框等信息的全部内容。

原文地址：https://blog.csdn.net/nuclear2011/article/details/143626731

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Python数据分析——pandas
下一篇：乐维CMDB：基于图数据库破除配置项关系管理难题

智慧社区管理系统平台提升物业运营效率与用户体验
智慧社区管理系统平台通过创新技术与管理模式，大幅提升物业运营效率与用户体验。系统支持在线缴费、公告发布、访客信息管理等功能，方便物业实现高效服务与信息透明。通过智慧巡检、停车费收取等便捷操作，帮助居民
阅读更多2024-11-23
Python Scikit-learn简介（二）
特征提取是将原始数据转换为更适合机器学习模型的特征表示。Scikit-learn提供了多种特征提取工具，如。机器学习的数据，可以划分为训练集、验证集和测试集，也可以划分为训练集和测试集。数据清洗是数据
阅读更多2024-11-23
Vue3 源码解析（三）：静态提升
Vue3 尚未发布正式版本前，尤大在一次关于 Vue3 的分享中提及了静态提升，当时笔者就对这个亮点产生了好奇，所以在源码阅读时，静态提升也是笔者的一个重点阅读点。那么什么是静态提升呢？当 Vue 的
阅读更多2024-11-23
高级java每日一道面试题-2024年11月21日-数据结构篇-红黑树有哪几个特征?
红黑树通过五个特性来保持树的平衡性，确保了在插入和删除操作后树的高度仍然接近对数级别。这些特性使得红黑树在许多实际应用中非常有用，特别是在需要高效查找、插入和删除操作的场景中。在 Java 高级面试中
阅读更多2024-11-23
【C++习题】10.反转字符串中的单词 lll
【代码】【C++习题】10.反转字符串中的单词 lll。
阅读更多2024-11-23
大疆上云api开发
涉及到使用大疆机场上云api开发遇到的一系列问题
阅读更多2024-11-23
leetcode:112. 路径总和
给你二叉树的根节点root和一个表示目标和的整数targetSum。判断该树中是否存在的路径，这条路径上所有节点值相加等于目标和targetSum。如果存在，返回true；否则，返回false。是指没
阅读更多2024-11-23
力扣 LeetCode 701. 二叉搜索树中的插入操作（Day10：二叉树）
全部插入到叶子节点即可。
阅读更多2024-11-23
Python后端flask框架接收zip压缩包方法
Python后端flask框架速查
阅读更多2024-11-23
利用c语言详细介绍下希尔排序
希尔排序是针对插入排序的优化算法。它是缩少增量的算法，一开始增量从元素个数len/2的增量开始，然后缩小增量gap=gap/2，直到gap为1，最终完成序列排序。
阅读更多2024-11-23

Python 获取PDF的各种页面信息（页数、页面尺寸、旋转角度、页面方向等）

安装所需库

Python获取PDF页数

Python获取PDF页面尺寸

Python获取PDF页面旋转角度

Python获取PDF页面方向

Python获取PDF页面标签

Python获取PDF页面边框信息

相关文章