零代码编程：用Kimichat从PDF文件中批量提取图片

🕗 发布于 2024-05-10 17:41 pdf java 服务器

一个PDF文件中，有很多图片，想批量提取出来，可以借助kimi智能助手。

在借助kimi智能助手中输入提示词：

你是一个Python编程专家，要完成一个网页爬取Python脚本的任务，具体步骤如下：

打开文件夹：E:\6451

读取里面的PDF文件；

将PDF文件里面的图片都保存到E:\6451

注意：图片体积较大，占用内存高，要将PDF文件中的图片分批次提取，而不是一次性提取所有图片

kim生成的Python源代码：

import fitz # PyMuPDF

import os

# 定义文件夹路径

folder_path = 'E:\\6451'

# 确保文件夹存在

if not os.path.exists(folder_path):

print(f"The folder {folder_path} does not exist.")

else:

# 读取文件夹中的所有PDF文件

for filename in os.listdir(folder_path):

if filename.lower().endswith('.pdf'):

pdf_path = os.path.join(folder_path, filename)

doc = fitz.open(pdf_path)

# 逐页提取图片

for page_number in range(len(doc)):

page = doc[page_number]

img_list = page.get_images(full=True)

# 分批次提取页面中的图片

for img_index, img in enumerate(img_list, start=1):

try:

xref = img[0]

info = doc.extract_image(xref)

image_bytes = info["image"]

# 为图片构造一个唯一的文件名

image_filename = f"{os.path.splitext(filename)[0]}_{page_number + 1}_img_{img_index}.png"

image_save_path = os.path.join(folder_path, image_filename)

# 保存图片

with open(image_save_path, "wb") as image_file:

image_file.write(image_bytes)

print(f"Image saved: {image_save_path}")

except Exception as e:

print(f"Error saving image from page {page_number + 1}: {e}")

# 释放内存

del page, img_list

# 关闭PDF文档

doc.close()

print(f"Finished extracting images from {filename}")

# 输出信息到屏幕

print("All images have been extracted from PDF files.")

# 确保屏幕输出信息

input("按任意键退出...")

在vscode中运行Python程序，成功提取所有图片：

原文地址：https://blog.csdn.net/AIGCTribe/article/details/138409026

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：每日OJ题_记忆化搜索②_力扣62. 不同路径（三种解法）
下一篇：解密SSL/TLS：密码套件扫描仪的深度解析(C/C++代码实现)

.NET(C#) 如何配置用户首选项及保存用户设置
.NET(C#) 如何配置用户首选项及保存用户设置
阅读更多2024-12-14
【最新】北大数字普惠金融指数数据集-省市县（2011-2023年）
郭峰,王靖一,王芳,孔涛,张勋,程志云.测度中国数字普惠金融发展:指数编制与空间特征[J].经济学(季刊),2020,19(04):1401-1418.时间跨度：省级和城市级指数时间跨度为2011-2
阅读更多2024-12-14
GESP202412 四级【Recamán】题解（AC）
a11ak−1−kkakak−1−kak−1k小杨想知道 Recamán 数列的前n项从小到大排序后的结果。手动计算非常困难，小杨希望你能帮他解决这个问题。
阅读更多2024-12-14
IDEA遇到EasyConnect中的网络资源无法访问的问题
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/wanshanyu_/article/de
阅读更多2024-12-14
双目摄像头标定方法
此时已经完成标定，左下角为反投影误差，右边为外参可视化。将双目左右目拍的图像上传（左右目最好不少于20张）此时回到主页面，即可看到成功导出。把这些误差大的删除即可。
阅读更多2024-12-14
Servlet、omcat服务器架构与工作原理
Servlet是运行在服务器端的Java程序，它的主要职责之一是接收并处理来自客户端（如浏览器）的HTTP请求。当客户端发送一个请求到服务器时，Servlet可以解析请求中的信息，例如请求的URL路径
阅读更多2024-12-14
Vue生命周期钩子函数：深入解析与实践
作为高级Vue前端开发人员，对Vue组件的生命周期钩子函数有着深刻的理解是至关重要的。生命周期钩子函数是指在Vue组件的创建、更新、销毁等过程中，Vue自动调用的一系列方法。通过这些钩子函数，我们可以
阅读更多2024-12-14
安卓开发--使用android studio发布APP
app发布
阅读更多2024-12-14
数据结构与算法学习笔记----拓扑排序
@ author: 明月清了个风。
阅读更多2024-12-14
python 将数据保存到现有的Excel文件的新工作表
out_file = ‘query.xlsx’df1 = pd.DataFrame(out_data)若直接写入：df1.to_excel(out_file, index=False, sheet_n
阅读更多2024-12-14

零代码编程：用Kimichat从PDF文件中批量提取图片

相关文章