Linux笔记--基于OCRmyPDF将扫描件PDF转换为可搜索的PDF

🕗 发布于 2024-11-26 08:29 linux

1--官方仓库

2--基本步骤

# 安装ocrmypdf库
sudo apt install ocrmypdf

# 安装简体中文库
sudo apt-get install tesseract-ocr-chi-sim

# 转换
# -l 表示使用的语言
# --force-ocr 防止出现以下错误：ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)
# input.pdf 表示待转换的pdf
# output.pdf 表示转换后保存的pdf
ocrmypdf -l chi_sim input.pdf output.pdf --force-ocr

3--常见错误

Error1：

ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)

Solution：

添加--force-ocr

ocrmypdf -l chi_sim input.pdf output3.pdf --force-ocr

原文地址：https://blog.csdn.net/weixin_43863869/article/details/144041330

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Element Plus的快速入门
下一篇：如何为PDF文件创建口令密码

【面试题】2025年百度校招Java后端面试题
25 届百度校招开发岗位的薪资。其中签字费也不是每一个人都有，签字费是分 2 年才能发完，比如签字费 6w，第一年是发 3w，剩下的 3w 第二年发，如果中途离职就拿不到这个签字费了，所以签字费也是企
阅读更多2024-11-27
[网安靶场] [更新中] UPLOAD LABS —— 靶场笔记合集
网安靶场 Upload Labs 靶场搭建 + 过关思路笔记一条龙
阅读更多2024-11-27
DAY134权限提升-Windows权限提升篇&数据库篇&MYSQL&MSSQL&ORACLE&自动化项目
条件：ROOT密码（高版本的-secure-file-priv没有进行目录限制，如果进行了目录限制就会导致提权失败）-利用已知Web权限建立代理节点，然后自动化提权项目在连接这个代理节点（等同于本地连
阅读更多2024-11-27
MySQL中in和exists的区别
在 MySQL 数据库中，IN、EXISTS、NOT IN 和 NOT EXISTS 是几种常用的子查询操作符，本文将详细介绍这些操作符的区别及其使用场景，并附上示例代码。
阅读更多2024-11-27
JAVA面试题、八股文学习之JVM篇
最新版JAVA面试题、八股文，持续更新.......
阅读更多2024-11-27
网络基础 - IP 隧道篇
网络基础 - IP 隧道篇
阅读更多2024-11-27
可视化系列：绘制n*n的宫格图
【代码】可视化系列：绘制n*n的宫格图。
阅读更多2024-11-27
计算机毕业设计Hadoop+Spark音乐推荐系统音乐预测系统音乐可视化大屏音乐爬虫 HDFS hive数据仓库机器学习深度学习大数据毕业设计
计算机毕业设计Hadoop+Spark音乐推荐系统音乐预测系统音乐可视化大屏音乐爬虫 HDFS hive数据仓库机器学习深度学习大数据毕业设计
阅读更多2024-11-27
go里面 interface 是否为nil
正视golang里面的interface
阅读更多2024-11-27
【速通GO】数据类型与变量和常量
【代码】【速通GO】数据类型与变量和常量。
阅读更多2024-11-27

Linux笔记--基于OCRmyPDF将扫描件PDF转换为可搜索的PDF

1--官方仓库

2--基本步骤

3--常见错误

相关文章