pdf转图片

🕗 发布于 2024-12-11 12:08 pdf python 自动化

pdf2image库

PyMuPDF库

python-office库

pdfplumber库

pdf2image库

安装：pip install pdf2image

使用时会报错：pdf2image.exceptions.PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?

需要安装 poppler-windows 环境，下载地址：
链接: https://pan.baidu.com/s/1fGrYoMhDMIM4BUYE3Dp00Q?pwd=r9d7 提取码: r9d7

下载解压后将bin文件路径添加到环境变量path中，添加完成后命令行窗口输入pdftotext -v 可查看是否安装成功，安装成功后有版本信息。

设置环境变量后还是不行的话就在convert_from_path 方法中添加poppler_path 二进制文件路径。

from pdf2image import convert_from_path

pdf_path = rf'test.pdf'
save_imgpath = rf'xxx'

images = convert_from_path(pdf_path, poppler_path=r'D:\poppler-24.08.0\Library\bin')
for i, image in enumerate(images):  #  将每一张图片保存为PNG文件
    image.save(fr'{save_imgpath}\page_{i + 1}.png', 'PNG')

PyMuPDF库

PyMuPDF 还提供了丰富的功能来操作PDF文件，如读取、写入、分割、合并、旋转、裁剪等。此外，它还支持加密和解密PDF文档，以及提取文本、图像和元数据等信息。

安装：pip install PyMuPDF

from fitz import open, Matrix 

def pdf2img(pdf_path, img_dir):
    doc = open(pdf_path)  # 打开pdf
    # print(doc.page_count)  # 获取word文档页数
    # print(doc.metadata)  # 获取pdf 目录信息
    for page in doc:  # 遍历pdf的每一页【doc[page_no] ，可通过获取的页数和切片方式转换对应页的数据】
        
        # 将缩放因子 zoom_x 和 zoom_y 设为 2.0 之后，可以将转换出来的图片大小提高四倍
        zoom_x = 2.0  # 设置每页的水平缩放因子
        zoom_y = 2.0  # 设置每页的垂直缩放因子
        mat = Matrix(zoom_x, zoom_y)
        
        # mat = Matrix(zoom_x, zoom_y).prerotate(0)  # .prerotate(50)可设置旋转角度
        # mat = Matrix(zoom_x, zoom_y).prescale(1,2)  # .prescale(1,2) 设置图片宽高比
        # mat = Matrix(zoom_x, zoom_y).preshear(1,3)  # preshear(1,3) 拉伸图片
        pix = page.get_pixmap(matrix=mat,alpha=False)  #  Page 页面-光栅图像，alpha设置后会突出主体显示
        pix.pil_save(rf"{img_dir}\page-1{page.number}.png")  # 保存光栅图像图像,需要依赖第三方框架:Pillow
        # pix.save(rf"{img_dir}\page-1{page.number}.png")

python-office库

python-office库是一个Python 自动化办公第三方库，能解决大部分自动化办公的问题。一行代码即可实现转换。

https://pypi.org/project/python-office/0.1.20/

安装依赖包特多，基本都会失败，使用镜像源安装：pip install python-office -i https://pypi.tuna.tsinghua.edu.cn/simple

from office import pdf

pdf.pdf2imgs(pdf_path, save_img_path, merge=True)

pdfplumber库

pip install pdfplumber -i https://pypi.tuna.tsinghua.edu.cn/simple

doc = pdfplumber.open(pdf_path)
print(doc.metadata)  # 获取pdf 目录信息
print(doc.pages)  # 获取pdf文件每页对象列表，打印结果[<Page:1>, <Page:2>, <Page:3>]
print(len(doc.pages))  # 获取文件页数

import pdfplumber

with pdfplumber.open(pdf_path) as pd:
    for i,p in enumerate(pd.pages):
        img = p.to_image(resolution=500) # 可设置宽高参数，resolution 不设置时图片清晰图会低
        img.save(rf'{save_img_path}\{i}.png')

原文地址：https://blog.csdn.net/JBY2020/article/details/144374422

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：微信小程序跳转其他小程序以及跳转网站
下一篇：VMware Workstation Pro 17 下载以及安装 Ubuntu 20.04.6 记录

.NET(C#) 如何配置用户首选项及保存用户设置
.NET(C#) 如何配置用户首选项及保存用户设置
阅读更多2024-12-14
【最新】北大数字普惠金融指数数据集-省市县（2011-2023年）
郭峰,王靖一,王芳,孔涛,张勋,程志云.测度中国数字普惠金融发展:指数编制与空间特征[J].经济学(季刊),2020,19(04):1401-1418.时间跨度：省级和城市级指数时间跨度为2011-2
阅读更多2024-12-14
GESP202412 四级【Recamán】题解（AC）
a11ak−1−kkakak−1−kak−1k小杨想知道 Recamán 数列的前n项从小到大排序后的结果。手动计算非常困难，小杨希望你能帮他解决这个问题。
阅读更多2024-12-14
IDEA遇到EasyConnect中的网络资源无法访问的问题
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/wanshanyu_/article/de
阅读更多2024-12-14
双目摄像头标定方法
此时已经完成标定，左下角为反投影误差，右边为外参可视化。将双目左右目拍的图像上传（左右目最好不少于20张）此时回到主页面，即可看到成功导出。把这些误差大的删除即可。
阅读更多2024-12-14
Servlet、omcat服务器架构与工作原理
Servlet是运行在服务器端的Java程序，它的主要职责之一是接收并处理来自客户端（如浏览器）的HTTP请求。当客户端发送一个请求到服务器时，Servlet可以解析请求中的信息，例如请求的URL路径
阅读更多2024-12-14
Vue生命周期钩子函数：深入解析与实践
作为高级Vue前端开发人员，对Vue组件的生命周期钩子函数有着深刻的理解是至关重要的。生命周期钩子函数是指在Vue组件的创建、更新、销毁等过程中，Vue自动调用的一系列方法。通过这些钩子函数，我们可以
阅读更多2024-12-14
安卓开发--使用android studio发布APP
app发布
阅读更多2024-12-14
数据结构与算法学习笔记----拓扑排序
@ author: 明月清了个风。
阅读更多2024-12-14
python 将数据保存到现有的Excel文件的新工作表
out_file = ‘query.xlsx’df1 = pd.DataFrame(out_data)若直接写入：df1.to_excel(out_file, index=False, sheet_n
阅读更多2024-12-14

pdf转图片

pdf2image库

PyMuPDF库

python-office库

pdfplumber库

相关文章