Python PyMupdf 去除PDF文档中Watermark标识水印

🕗 发布于 2024-12-26 20:55 python pdf linux

通过PDF阅读或编辑工具，可在PDF中加入Watermark标识的PDF水印，如下图：

该类水印特点

这类型的水印，会在文件的字节流中出现/Watermark、EMC等标识，那么，我们可以通过改变文件字节内容，清理掉这些水印。

水印去除

安装pymupdf：

pip install --upgrade pymupdf

清理水印代码如下：

"""
移除PDF文件中的水印

参数:
    input_pdf_path (str): 输入PDF文件的路径
    output_pdf_path (str): 输出PDF文件的路径
"""
def remove_pdf_watermark(input_pdf_path, output_pdf_path):
    # 打开PDF文件
    doc = fitz.open(input_pdf_path)
    for page in doc:
        page.clean_contents()  # 清理页面绘图命令
        xref = page.get_contents()[0]   # 获取页面字节流，以xref的形式返回        
        cont0 = doc.xref_stream(xref).decode()  # 将流解码为字符串
        if '/Watermark' in cont0:   # 找到水印标识
            start = cont0.index("/Artifact")    # 获取水印起始位置
            end = cont0.index("EMC", start) # 获取水印结束位置
            cont = cont0[:start] + cont0[end:]  # 替换掉水印
            doc.update_stream(xref, cont.encode())  # 更新流
    doc.save(output_pdf_path, garbage=4)    # 保存修改后的PDF文件        
    doc.close()

代码功能解析

这段代码的功能是移除PDF文件中的水印。具体步骤如下：

打开输入的PDF文件。
遍历每一页，清理页面绘图命令。
获取页面字节流并解码为字符串。
检查是否包含水印标识 /Watermark。
如果找到水印，定位其起始和结束位置，并替换掉水印内容。
更新页面字节流。
保存修改后的PDF文件。

控制流图（CFG）

控制流图

代码原理

开始：程序开始执行。
打开PDF文件：使用 fitz.open 方法打开输入的PDF文件。
遍历每一页：检查是否还有未处理的页面。
清理页面绘图命令：调用 page.clean_contents 方法清理页面绘图命令。
获取页面字节流并解码：获取页面字节流并将其解码为字符串。
是否包含水印标识：检查解码后的字符串中是否包含水印标识 /Watermark。
定位水印起始和结束位置：如果找到水印标识，定位其起始和结束位置。
替换掉水印内容：将水印部分从字符串中移除。
更新页面字节流：将修改后的内容重新编码并更新页面字节流。
保存修改后的PDF文件：保存修改后的PDF文件到指定路径。
关闭PDF文件：关闭PDF文件。
结束：程序结束执行。

程序运行效果

水印去除

原文地址：https://blog.csdn.net/Humbunklung/article/details/144692326

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：JVM简介—1.Java内存区域
下一篇：前端如何将pdf等文件传入后端

lua和C API库一些记录
辅助库对lua.h声明的基础api进行了更高层次的抽象，基础库注重经济性和正交性，辅助库更追求常见任务的实用性。luaxlib.h：声明辅助库提供的函数，所有内容都有个前缀luaL_；辅助库不能直接访
阅读更多2024-12-27
BAPI_BATCH_CHANGE在更新后不自动更新批次特征
在CL03中看到分类特性配置了制造日期字段，并绑定了生产日期字段MCH1~HSDATMSC2N修改批次的生产日期字段时，自动修改了对应的批次特性但是通过BAPI：BAPI_BATCH_CHANGE修改
阅读更多2024-12-27
macos 隐藏、加密磁盘、文件
如果不禁止自动挂载磁盘，开机后会弹出输入密码弹窗。
阅读更多2024-12-27
Redis可视化工具 RDM mac安装使用
第一步：https://pan.baidu.com/s/10vpdhw7YfDD7G4yZCGtqQg?第三步：点击 connect to redis server 填写连接信息。第四步：就可以看到对
阅读更多2024-12-27
mac_录屏
贵的东西的唯一缺点就是贵，mark一下这款软件，等降价了或者出3了买，2是2018年出的，录音时长超过20min会给你添加noise（新虚拟设备可使用时间是20min）。，可以适当将Input vol
阅读更多2024-12-27
【技术实战】R语言统计分析与可视化从入门到精通
R语言在统计分析与数据可视化方面的核心技术，从基础语法、数据导入与处理、基本统计分析、数据可视化到高级统计分析和高级数据可视化等方面进行了全面阐述。通过丰富的代码示例，读者可以逐步掌握R语言在数据分析
阅读更多2024-12-27
自动驾驶控制算法-横向控制与流程&代码仿真
本文是学习自动驾驶控制算法第八讲(一）横向控制算法与流程图以及后续两节的学习笔记。
阅读更多2024-12-27
C# OpenCvSharp DNN 卡证检测矫正
C# OpenCvSharp DNN 卡证检测矫正
阅读更多2024-12-27
Java包装类型的缓存
果超出对应范围仍然会去创建新的对象，缓存的范围区间的大小只是在性能和资源之间的权衡。Java 基本数据类型的包装类型的大部分都用到了缓存机制来提升性能。这 4 种包装类默认创建了数值。的相应类型的缓存
阅读更多2024-12-27
【docker】pull 镜像异常
【代码】【docker】pull 镜像异常。
阅读更多2024-12-27

Python PyMupdf 去除PDF文档中Watermark标识水印

该类水印特点

水印去除

代码功能解析

控制流图（CFG）

代码原理

程序运行效果

相关文章