PDF匹配文本精准标记红框算法

🕗 发布于 2024-10-12 04:53 python 开发语言 pdf 图像处理

## pip install pdfminer.six
## pip install PyMuPDF

import fitz
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBox, LTTextLine, LTChar


## pdf匹配文本标红框
def pdfMarkedBox(string,name,address="",mode = 0,order=0,skew =0):
    """
    :param string:  匹配的字符串
    :param name:    标框的pdf文件命名或者放置地址
    :param address: 对应的pdf文件地址
    :param mode:    对应匹配模式 mode = 0 完全匹配 mode =1 包含匹配
    :param order:   取值位置，默认第一个
    :param skew:    偏移位置,用于飘忽不定的文本匹配不上，找到特定标识位置偏移匹配
    :return:        无
    """
    ## 文本存储
    list_text = []
    ## 坐标存储
    list_box = []
    ## 页码存储
    list_number = []

    def parse_pdf(address):
        with open(address, 'rb') as fp:
            ## 准备工作
            parser = PDFParser(fp)
            doc = PDFDocument(parser)
            rsrcmgr = PDFResourceManager()
            laparams = LAParams()
            device = PDFPageAggregator(rsrcmgr, laparams=laparams)
            interpreter = PDFPageInterpreter(rsrcmgr, device)
            page_number = 0  # 初始化页码计数器
            ## 获取pdf页面数据
            for page in PDFPage.create_pages(doc):
                interpreter.process_page(page)
                layout = device.get_result()
                for element in layout:
                    if isinstance(element, LTTextBox) or isinstance(element, LTTextLine):
                        # print(f"Text: {element.get_text()}")
                        # print(f"Coordinates: {element.bbox}")
                        list_text.append(element.get_text())
                        list_box.append(element.bbox)
                        list_number.append(page_number)
                    # elif isinstance(element, LTChar):
                    #     # 单个字符遍历LTChar对象
                    #     print(f"Character: {element.get_text()}")
                    #     print(f"Coordinates: {element.bbox}")
                page_number += 1

    parse_pdf(address)
    print(list_text)
    print(list_box)
    print(list_number)
    ## 匹配列表 进行匹配操作 获取index
    list_index = []
    if mode == 0:
        print("进行完全匹配")
        number_matches = 0
        for index, value in enumerate(list_text):
            if string == value.replace("\n",""):
                list_index.append(index)
                number_matches += 1
        print("匹配数量为：", number_matches)
    elif mode ==1:
        print("进行包含匹配")
        number_matches = 0
        for index, value in enumerate(list_text):
            if string in value.replace("\n", ""):
                list_index.append(index)
                number_matches += 1
        print("匹配数量为：",number_matches)

    print("读取位置:",list_index[order]+skew)
    print("读取文本:",list_text[list_index[order]+skew])
    print("读取坐标:", list_box[list_index[order] + skew])
    print("读取页码:", list_number[list_index[order] + skew])

    def redBox(address,page,box,name):
        ##PyMuPDF进行处理
        doc = fitz.open(address)
        # 选择要添加注释的页面
        page = doc.load_page(page)  # 0 表示第一页
        # 获取页面大小来做处理
        page_rect = page.rect
        list_rect = list(page_rect)
        # 定义矩形注释的位置和大小（左下角和右上角的坐标）
        rect = box  # (left, bottom, right, top)
        list1 = []
        for i in rect:
            list1.append(i)
        n = 5
        new_rect = (list1[0] - n, list_rect[3] - list1[3] - n, list1[2] + n, list_rect[3] - list1[1] + n)
        # 添加矩形注释到页面
        annot = page.add_rect_annot(new_rect)
        # 保存 PDF 文件
        doc.save(name)
        # 关闭 PDF 文件
        doc.close()
        print("文件完成标红框：",name)

    redBox(address, list_number[list_index[order] + skew], list_box[list_index[order] + skew], name)

## pip install pdfminer.six
## pip install PyMuPDF

import fitz
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBox, LTTextLine, LTChar


## pdf匹配文本标红框
def pdfMarkedBox(string,name,address="",mode = 0,order=0,skew =0):
    """
    :param string:  匹配的字符串
    :param name:    标框的pdf文件命名或者放置地址
    :param address: 对应的pdf文件地址
    :param mode:    对应匹配模式 mode = 0 完全匹配 mode =1 包含匹配
    :param order:   取值位置，默认第一个
    :param skew:    偏移位置,用于飘忽不定的文本匹配不上，找到特定标识位置偏移匹配
    :return:        无
    """
    ## 文本存储
    list_text = []
    ## 坐标存储
    list_box = []
    ## 页码存储
    list_number = []

    def parse_pdf(address):
        with open(address, 'rb') as fp:
            ## 准备工作
            parser = PDFParser(fp)
            doc = PDFDocument(parser)
            rsrcmgr = PDFResourceManager()
            laparams = LAParams()
            device = PDFPageAggregator(rsrcmgr, laparams=laparams)
            interpreter = PDFPageInterpreter(rsrcmgr, device)
            page_number = 0  # 初始化页码计数器
            ## 获取pdf页面数据
            for page in PDFPage.create_pages(doc):
                interpreter.process_page(page)
                layout = device.get_result()
                for element in layout:
                    if isinstance(element, LTTextBox) or isinstance(element, LTTextLine):
                        # print(f"Text: {element.get_text()}")
                        # print(f"Coordinates: {element.bbox}")
                        list_text.append(element.get_text())
                        list_box.append(element.bbox)
                        list_number.append(page_number)
                    # elif isinstance(element, LTChar):
                    #     # 单个字符遍历LTChar对象
                    #     print(f"Character: {element.get_text()}")
                    #     print(f"Coordinates: {element.bbox}")
                page_number += 1

    parse_pdf(address)
    print(list_text)
    print(list_box)
    print(list_number)
    ## 匹配列表 进行匹配操作 获取index
    list_index = []
    if mode == 0:
        print("进行完全匹配")
        number_matches = 0
        for index, value in enumerate(list_text):
            if string == value.replace("\n",""):
                list_index.append(index)
                number_matches += 1
        print("匹配数量为：", number_matches)
    elif mode ==1:
        print("进行包含匹配")
        number_matches = 0
        for index, value in enumerate(list_text):
            if string in value.replace("\n", ""):
                list_index.append(index)
                number_matches += 1
        print("匹配数量为：",number_matches)

    print("读取位置:",list_index[order]+skew)
    print("读取文本:",list_text[list_index[order]+skew])
    print("读取坐标:", list_box[list_index[order] + skew])
    print("读取页码:", list_number[list_index[order] + skew])

    def redBox(address,page,box,name):
        ##PyMuPDF进行处理
        doc = fitz.open(address)
        # 选择要添加注释的页面
        page = doc.load_page(page)  # 0 表示第一页
        # 获取页面大小来做处理
        page_rect = page.rect
        list_rect = list(page_rect)
        # 定义矩形注释的位置和大小（左下角和右上角的坐标）
        rect = box  # (left, bottom, right, top)
        list1 = []
        for i in rect:
            list1.append(i)
        n = 5
        new_rect = (list1[0] - n, list_rect[3] - list1[3] - n, list1[2] + n, list_rect[3] - list1[1] + n)
        # 添加矩形注释到页面
        annot = page.add_rect_annot(new_rect)
        # 保存 PDF 文件
        doc.save(name)
        # 关闭 PDF 文件
        doc.close()
        print("文件完成标红框：",name)

    redBox(address, list_number[list_index[order] + skew], list_box[list_index[order] + skew], name)

原文地址：https://blog.csdn.net/weixin_52810349/article/details/142860691

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：借助 Aspose.Words控件，在 Word 中添加目录 (TOC)
下一篇：Redis的应用以及Redis工具类的封装

大数据-163 Apache Kylin 全量增量Cube的构建手动触发合并 JDBC 操作 Scala
要将数据以可视化方式展示出来，需要使用Kylin的JDBC方式连接执行SQL，获取Kylin的执行结果使用Kylin的JDBC与JDBC操作MySQL一致。选择要合并的 Cube 和 Segments
阅读更多2024-10-12
百度下拉框出词技术解密：72小时出下拉词软件原理分享
如何才能刷下拉词？这个问题一直是企业做流量时最纠结的问题，百度下拉词作为百度搜索体验中的一项智能化功能，极大地方便了用户快速完成搜索，也成为了企业在搜索引擎优化（SEO）策略中的重要流量入口。通过研究
阅读更多2024-10-12
threejs-加载gltf模型
glTF（gl传输格式）是一种开放格式的规范（open format specification），用于更高效地传输、加载3D内容。该类文件以JSON（.gltf）格式或二进制（.glb）格式提供
阅读更多2024-10-12
Linux中的网络指令：ping、netstat、watch、pidof、xargs
用于将标准输入或文件中的内容转换为命令的参数。它非常适合用于监控系统状态、查看某个命令的运行情况等。获取正在运行的某个程序的进程PID，它会根据给定的程序名查找该程序对应的所有进程，并返回其 PID。
阅读更多2024-10-12
Linux安装conda
安装网址 https://docs.anaconda.com/miniconda/index.html。Linux运行的命令。
阅读更多2024-10-12
adb安装教程（Windows10）
ADB，全称为Android Debug Bridge，是Android开发中一个重要的命令行工具。它用于与Android设备进行通信，提供了多种功能来帮助开发者进行调试和应用管理。
阅读更多2024-10-12
学习Redis 高可用性
（High Availability）是指在 Redis 系统中实现持续的可用性，即使在发生硬件故障或其他意外情况下，系统仍能保持运行。（High Availability）是指在 Redis 系统中
阅读更多2024-10-12
线程中的join
main线程被阻塞，thread1与thread2先运行，由于thread1先于thread2结束，则thread2结束后“thread1.join()”是无效语句，mian接着运行。会使main线程
阅读更多2024-10-12
网络安全等级保护测评：保障信息资产安全的关键
网络安全等级保护测评是根据国家相关法律法规和技术标准，对信息系统实施的一种安全保护等级划分和测评活动。其核心目的是通过定级、备案、建设整改、等级测评和监督检查等环节，确保信息系统的安全保护水平符合相应
阅读更多2024-10-12
51单片机的万年历【proteus仿真+程序+报告+原理图+演示视频】
含代码、仿真、报告、原理图、讲解文档、演示视频
阅读更多2024-10-12

PDF匹配文本精准标记红框算法

相关文章