提取双栏pdf的文字时输出文件顺序混乱

🕗 发布于 2024-11-15 20:44 pdf 前端

from spire.pdf.common import *
from spire.pdf import *
import os

def extract_text_from_pdf(pdf_path, output_dir, is_simple_extraction=True):
    # 创建一个 PDF 文档对象
    pdf = PdfDocument()

    # 加载 PDF 文件
    pdf.LoadFromFile(pdf_path)

    # 确保输出目录存在
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)

    # 创建一个TXT文件来保存提取的文本
    extracted_text_path = os.path.join(output_dir, "extract_text.txt")
    extractedText = open(extracted_text_path, "w", encoding="utf-8")

    # 创建PdfTextExtractOptions 对象
    extractOptions = PdfTextExtractOptions()
    extractOptions.IsSimpleExtraction = is_simple_extraction

    # 遍历文档的每一页
    for i in range(pdf.Pages.Count):
        # 获取页面
        page = pdf.Pages.get_Item(i)
        # 创建PdfTextExtractor 对象
        textExtractor = PdfTextExtractor(page)
        # 从页面提取文本
        text = textExtractor.ExtractText(extractOptions)
        # 将文本写入TXT文件
        extractedText.write(text)

    # 释放资源
    extractedText.close()
    pdf.Close()

# 调用函数，确保路径正确
extract_text_from_pdf('input\\BLIP-2.pdf', "./text", is_simple_extraction=True)

最开始我用的spire pdf 直接提取发现输出的文本格局会和原来pdf格局一样导致出现文本顺序混乱

from spire.pdf.common import *
from spire.pdf import *
import os

def extract_text_from_pdf(pdf_path, output_dir, is_simple_extraction=True):
    # 创建一个 PDF 文档对象
    pdf = PdfDocument()

    # 加载 PDF 文件
    pdf.LoadFromFile(pdf_path)

    # 确保输出目录存在
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)

    # 创建一个TXT文件来保存提取的文本
    extracted_text_path = os.path.join(output_dir, "extract_text.txt")
    extractedText = open(extracted_text_path, "w", encoding="utf-8")

    # 创建PdfTextExtractOptions 对象
    extractOptions = PdfTextExtractOptions()
    extractOptions.IsSimpleExtraction = is_simple_extraction

    # 遍历文档的每一页
    for i in range(pdf.Pages.Count):
        # 获取页面
        page = pdf.Pages.get_Item(i)
        # 创建PdfTextExtractor 对象
        textExtractor = PdfTextExtractor(page)
        # 从页面提取文本
        text = textExtractor.ExtractText(extractOptions)
        # 将文本写入TXT文件
        extractedText.write(text)

    # 释放资源
    extractedText.close()
    pdf.Close()

# 调用函数，确保路径正确
extract_text_from_pdf('input\\BLIP-2.pdf', "./text", is_simple_extraction=True)

只要设置PdfTextExtractOptions.IsSimpleExtraction = True 就可以实现按照pdf文字输入顺序提取文字想法来源：Python 从 PDF 文档中提取文本

原文地址：https://blog.csdn.net/weixin_74400487/article/details/143776396

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：STL-常用算术生成算法
下一篇：从H264视频中获取宽、高、帧率、比特率等属性信息

学生公寓管理系统
由于某些特殊原因，需要对学生当前入住的床位进行修改时，使用此功能。新生开学后，宿管管理可以先根据学生所在系查询该专业预定的宿舍和具体的床位入住状态信息，为该学生分配一个空闲状态的床位，并修改当前床位状
阅读更多2024-11-15
Windows上安装RabbitMQ 4.0.3教程
通过上述步骤，你应该已经成功在Windows上安装了RabbitMQ 4.0.3，并启用了管理插件。现在，你可以开始使用RabbitMQ来构建你的分布式系统了。希望这篇教程对你有所帮助，如果有任何问题
阅读更多2024-11-15
【蓝桥等考C++真题】蓝桥杯等级考试C++组第13级L13真题原题(含答案)-成绩排序
C++L13 成绩排序(50 分)
阅读更多2024-11-15
Web入门
HTTP（HyperText Transfer Protocol，超文本传输协议）是一种应用层协议。主要用于在Web浏览器和服务器之间传输数据。基于TCP协议：面向连接，确保了数据传输的可靠性和顺序。
阅读更多2024-11-15
Android 最新的AndroidStudio引入依赖失败如何解决？如:Failed to resolve:xxxx
在引入依赖时报错：Failed to resolve: xxx.xxxx:1.1.0。
阅读更多2024-11-15
力扣113：路径总和II
力扣113：路径总和II。C语言
阅读更多2024-11-15
【springboot使用sqlite数据库】Java后台同时使用mysql、sqlite
根据业务的需要，老版程序使用的数据库是sqlite，版本升级成前后台分离模式，因此需要兼容mysql与sqlite数据库同时使用。
阅读更多2024-11-15
力扣.15 三数之和 three-sum
这道题作为 leetcode 的第 15 道题，看起来似曾相识。大概思路可以有下面几种：暴力解法数组排序+二分Hash 优化双指针。
阅读更多2024-11-15
力扣第 53 题：最大子数组和
题目给定一个整数数组nums，目标是找到和最大的连续子数组（最少包含一个元素），并返回其和。例如，在数组中，和最大的子数组为，其和为6。
阅读更多2024-11-15
linux-缓冲区
调用系统调用接口是需要时间成本的，如果使用缓冲区，存储的字符串到一定长度再调用系统调用，能够有效减少调用系统调用的次数。这个缓冲区是语言设置的，缓冲区满足条件就用系统调用接口write将缓冲区的内容刷
阅读更多2024-11-15

提取双栏pdf的文字时 输出文件顺序混乱

相关文章

提取双栏pdf的文字时输出文件顺序混乱