如何在服务器端对PDF和图像进行OCR处理

🕗 发布于 2024-11-06 05:24 Linux 服务器 运维 ocr pdf

介绍

今天我想和大家分享一个我在研究技术资料时发现的很好玩的东西——Tesseract。这不仅仅是一个普通的库，而是一个用C语言编写的OCR神器，能够识别一大堆不同国家的语言。我一直在寻找能够处理各种文档的工具，而Tesseract就像是给了我一把万能钥匙。

有时候我们手头会有一堆扫描的文件或者图片，里面有很多有用的信息，但是它们就是静静地躺在那里，不能复制粘贴，也不能搜索。这让我特别头疼。直到我发现了Tesseract，这个问题才迎刃而解。它不仅能够识别英文，还能搞定中文、日文、韩文等等，简直是多语言文档的救星。

我在这里不是要给大家上技术课，而是想分享一个我觉得特别有意思的案例。这个案例展示了如何用Tesseract和其他几个开源工具，在服务器上把PDF文件和图片里的文字给“抠”出来。这个过程我觉得既神奇又实用，我觉得你们可能会感兴趣。

接下来，我会一步步地带你们了解这个过程。我们将会用到Ghostscript、Tesseract和PDFtk这三个工具，搭建起一个完整的OCR流水线。

我相信，这个案例也可以给你带来一些关于开发上新的思路和实用的小技巧。

那么，我们就不多废话了，一起来探索OCR的奥秘吧！

前提条件

如标题所示，是在服务器端对 PDF 进行 OCR 处理，所以我们我们需要一台 Linux 服务器，我的环境是 Ubuntu，建议与我的环境一致，避免运行的过程中出错。

如果你没有服务器，那可以跟着我的步骤，创建一台属于自己的Linux服务器，

我将会以雨云为例，带大家创建一台自己的云服务器，尝试本篇文章的内容。

注册链接: https://www.rainyun.com/NTEzMTM1_?s=blog

创建云服务器

以下内容只是参考，具体按照自己的需求选择配置即可。

点击“云产品”→“云服务器”→“立即购买”。

alt text

建议选择距离您较近的区域，以降低延迟。

alt text

选择配置。

alt text

选择Ubuntu 22.04版本，并看自己需求是否勾选预装Docker。

alt text

点击“立即购买”，并完成后续购买流程。购买完成后，等待服务器部署完毕，进入管理面板，找到远程连接信息。

alt text

使用PowerShell进行远程连接：输入ssh root@你的服务器IP (例如ssh root@154.9.227.239)，首次连接需输入yes，然后回车即可登录。

alt text

到这里，我们的服务器就创建完毕，并且能够远程SSH访问了。

教程开始

第一步:安装 Ghostscript、Tesseract 和 PDFtk

OCR既能处理PDF文件（PDF文件里有时也包含图片），也能直接处理图片。处理PDF文件会多一些步骤，如果你只处理图片，可以跳过这些步骤。

我们需要三个工具：

Ghostscript: 能把PDF转换成图片，也能把图片转换成PDF的工具。
Tesseract: OCR引擎，能把图片里的文字识别出来。
PDFtk: 这个工具比较小巧，主要用来把PDF文件拆分成单页，或者把单页重新组合成一个完整的PDF。

在Ubuntu系统上，安装这三个工具非常简单，只需要在终端输入以下命令：

sudo apt update
sudo apt install pdftk ghostscript tesseract-ocr x11-utils

安装完成后，可以用which命令检查一下是否安装成功：

which pdftk  
# /usr/bin/pdftk
which gs     
# /usr/bin/gs
which tesseract 
# /usr/bin/tesseract

接下来，我们就可以开始提取文字了！

第二步:将 PDF 转换为图片并运行 Tesseract

如果你没有PDF文件，可以下载我这个示例PDF文件先练练手，如果你有自己的PDF文件，可以替换后面内容中的文件名。

curl -L "https://paste.c-net.org/MckennaBuzzing" -o "OCR-sample-paper.pdf"

如果你的文件是PDF，首先需要把它转换成图片。我们可以用 Ghostscript 来完成这个任务：

mkdir output  # 创建一个文件夹存放生成的图片
gs -o output/%05d.png -sDEVICE=png16m -r300 -dPDFFitPage=true OCR-sample-paper.pdf

这段命令有点长，但别怕！我会解释这些参数:

-o output/%05d.png表示把图片保存到output文件夹,%05d会自动给图片编号；
-sDEVICE=png16m指定图片格式为PNG；
-r300设置图片分辨率；
-dPDFFitPage=true确保图片大小合适。

运行后会输出一下信息，Ghostscript 将单独输出 PDF 中的每个页面：

完成后，你可以用ls output命令查看生成的图片。

此时看到 output 目录下有14张图片，如果你的环境中有Nodejs环境，可以使用以下命令，将当前路径设置为静态资源目录，我们来看看，这些 png 图片是什么：

npx http-server

运行好后浏览器打开网址,我这里是: http://you_server_ip:8080 并进入output目录

我点击打开 00003.png ，发现是一张图片，图片并不能够复制文字。

接下来，我们用Tesseract把图片转换成可复制文字的PDF:

for png in $(ls output); do 
    tesseract -l eng \
        -c preserve_interword_spaces=0 \
        output/$png \
        output/$(echo $png | sed -e "s/\.png//g") \
        pdf
done

这段命令有点复杂，但核心就是用Tesseract识别图片里的文字，并生成PDF文件。-l eng表示使用英语语言模型，如果你需要识别其他语言，需要安装对应的语言包。

Tesseract会逐页处理图片，完成后，你可以在output文件夹里看到生成的PDF文件。

继续列出 output 目录下的内容,会看到多了同名的 PDF 文件。

我们继续浏览器查看这些文件，还是打开00003.pdf：

发现这次就可以任意复制了，并且识别正确率还是很高的。

小提示: Ubuntu系统默认只安装了英语语言包，如果你需要识别其他语言，需要安装对应的语言包，例如sudo apt install tesseract-ocr-all安装所有语言包。

安装好后浏览器打开 https://tesseract-ocr.github.io/tessdoc/Data-Files-in-different-versions.html 这个网址，可以找到对应的 LangCode ,如果你需要识别中文，那么 -l 参数后面将 eng 修改为 chi_sim 即可。

第三步:把单页PDF合并成一个

如果你处理的是PDF文件，现在需要把第二步生成的单页PDF文件合并成一个完整的PDF文件。我们可以用 **PDFtk **来完成这个任务：

pdftk output/*.pdf cat output joined.pdf

这段命令很简单，就是把output文件夹里的所有PDF文件合并成一个名为joined.pdf的文件。

最后，我们用 Ghostscript 调整一下PDF文件的格式，让它看起来更漂亮：

gs -sDEVICE=pdfwrite -sPAPERSIZE=letter -dFIXEDMEDIA -dPDFFitPage -o final.pdf joined.pdf

这段命令主要用来调整PDF的尺寸和格式。-sPAPERSIZE=letter表示使用Letter纸张大小，你可以根据需要修改。

现在，你已经成功地完成了OCR！如果实际应用到开发中，你可以使用这一系列工具，自动化完成，并且使用pdftotext final.pdf命令把PDF文件转换成文本文件，可以开发一个知识库的全文检索，将原本内容为图片扫描件的PDF提取文字。

相关链接
雨云 - 新一代云服务提供商: https://www.rainyun.com/NTEzMTM1_?s=blog
我的博客：https://blog.ivwv.site

原文地址：https://blog.csdn.net/weixin_53510183/article/details/143457029

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：MySQL 数据库之库操作
下一篇：ros入门：参数服务器通信

如何有效销售和应用低代码软件？探索其市场机会与策略
综上所述，有效销售和应用低代码软件是一个涉及多方面的复杂过程。我们需要充分认识其优势和市场需求，建立强大的合作伙伴网络，并提供定制化的解决方案。同时，还需要优化销售策略，加强培训和技术支持。通过上述措
阅读更多2024-11-08
C字符串 | 字符串处理函数 | 使用 | 原理 | 实现
字符串是一系列字符组成的序列，C语言中字符串以\0结尾。
阅读更多2024-11-08
深入学习指针（5）！！！！！！！！！！！！！！！
时，被调⽤的函数就是回调函数。回调函数不是由该函数的实现⽅直接调⽤，⽽是在特定的事件或条。如果你把函数的指针（地址）作为参数传递给另⼀个函数，当这个指针被⽤来调⽤其所指向的函数。strcpm比较俩字符
阅读更多2024-11-08
eval: jdk1.8.0_431/jre/bin/java: Permission denied
当您在启动Tomcat或其他Java应用时遇到“Permission denied”错误，这通常表示当前用户没有执行指定Java可执行文件的权限。
阅读更多2024-11-08
数字信号处理Python示例（8）使用复数指数函数生成正弦函数和余弦函数
首先给出使用复数指数函数生成正弦函数和余弦函数的数学表达式，然后给出Python仿真代码，并绘制了生成的函数图形，最后给出了仿真分析。
阅读更多2024-11-08
基于SSM（Spring + Spring MVC + MyBatis）框架的文物管理系统
用户管理：管理员可以添加、删除、修改和查询用户信息。文物管理：支持对文物信息的增删改查操作，包括文物名称、年代、类型、保存状态等。展览管理：记录展览信息，如展览名称、开始时间、结束时间、展品列表等。借
阅读更多2024-11-08
Caused by: org.apache.flink.api.common.io.ParseException: Row too short:
path为文件地址， fieldDelimiter为分隔符，文件内容是字段|字段的格式，所以fieldDelimiter为|通过flink中的flinkSql直接使用对应的connector去获取cs
阅读更多2024-11-08
【论文阅读笔记】CamoFormer: Masked Separable Attention for Camouflaged Object Detection
CamoFormer：用于隐藏目标检测的掩蔽可分离注意力TPAMI 2024PaperCode如何从背景中识别和分割隐藏的对象是一个挑战。受transformer中多头自注意的启发，提出了一种简单的掩
阅读更多2024-11-08
计算机视觉基础：OpenCV库详解
OpenCV 是一个开源的计算机视觉库，支持多种编程语言（如 C++、Python、Java 等），并在多个平台上可用（如 Windows、Linux、macOS）。OpenCV 提供了大量的图像处理
阅读更多2024-11-08
React Native的生命周期
React Native 组件的生命周期方法有助于开发者在不同阶段管理组件的行为，尤其在处理网络请求、事件监听器、定时器等副作用时，生命周期方法显得尤为重要。在实际项目中，合理使用这些生命周期方法可以
阅读更多2024-11-08

如何在服务器端对PDF和图像进行OCR处理

介绍

前提条件

创建云服务器

教程开始

第一步:安装 Ghostscript、Tesseract 和 PDFtk

第二步:将 PDF 转换为图片并运行 Tesseract

第三步:把单页PDF合并成一个

相关文章