SpringBoot开发——集成Tess4j实现OCR图像文字识别

🕗 发布于 2024-09-20 07:38 spring boot ocr Tess4j

文章目录

1、准备工作
2、配置Tess4j
3、编写OCR服务
4、创建控制器
5、测试集成
6、处理多语言与自定义字体
7、总结

随着数字化转型的推进，光学字符识别（ OCR, Optical Character Recognition）技术在各种应用场景中变得愈发重要。 OCR技术可以将扫描的文档、图片中的文字内容提取出来，转化为可编辑的文本数据。这一功能在自动化文档处理、数据输入优化等领域有着广泛的应用。

在Java生态中，Tess4j是一个流行的OCR库，它是对Tesseract OCR引擎的Java封装。通过Spring Boot，开发者可以轻松地将Tess4j集成到应用中，打造具备OCR功能的Java应用。

本文将介绍如何在Spring Boot项目中集成Tess4j，并展示如何使用它来处理图片中的文本。

1、准备工作

首先，确保你已经安装了Tesseract OCR引擎。你可以从Tesseract的GitHub页面下载并安装适合你操作系统的版本。安装完成后，请确保你能通过命令行访问tesseract令。
然后，你需要创建一个Spring Boot项目，并将Tess4j依赖添加到pom.xml文件中：

<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>5.4.0</version>
</dependency>

2、配置Tess4j

Tess4j需要Tesseract的安装路径以及语言数据文件的路径。通常，这些文件会在Tesseract的安装目录下找到。你可以通过Spring Boot的配置文件来指定这些路径。
在application.properties或application.yml中添加以下配置：

tesseract.data.path=C:/Program Files/Tesseract-OCR/tessdata
tesseract.language=eng

在application.yml中：

tesseract:
  data:
    path: "C:/Program Files/Tesseract-OCR/tessdata"
  language: "eng"

3、编写OCR服务

接下来，我们将创建一个简单的服务类，使用Tess4j来处理OCR任务。

import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.stereotype.Service;

import java.io.File;

@Service
public class OcrService {

    @Value("${tesseract.data.path}")
    private String tessDataPath;

    @Value("${tesseract.language}")
    private String language;

    public String extractTextFromImage(File imageFile) {
        ITesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);
        tesseract.setLanguage(language);

        try {
            return tesseract.doOCR(imageFile);
        } catch (TesseractException e) {
            throw new RuntimeException("Error while performing OCR", e);
        }
    }
}

这个OcrService类提供了一个extractTextFromImage方法，接受一个图片文件，并返回提取的文本内容。我们通过@Value注解将配置文件中的路径和语言信息注入到服务中。

4、创建控制器

为了演示如何通过HTTP请求触发OCR任务，我们可以创建一个简单的Spring MVC控制器。

import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.http.HttpStatus;
import org.springframework.http.ResponseEntity;
import org.springframework.web.bind.annotation.*;
import org.springframework.web.multipart.MultipartFile;

import java.io.File;
import java.io.IOException;

@RestController
@RequestMapping("/api/ocr")
public class OcrController {

    @Autowired
    private OcrService ocrService;

    @PostMapping("/extract-text")
    public ResponseEntity<String> extractText(@RequestParam("image") MultipartFile image) {
        try {
            File convFile = new File(System.getProperty("java.io.tmpdir") + "/" + image.getOriginalFilename());
            image.transferTo(convFile);
            String extractedText = ocrService.extractTextFromImage(convFile);
            return new ResponseEntity<>(extractedText, HttpStatus.OK);
        } catch (IOException e) {
            return new ResponseEntity<>("Failed to process image", HttpStatus.INTERNAL_SERVER_ERROR);
        }
    }
}

在这个控制器中，extractText方法接收一个Multipart件作为参数，处理上传的图片，并通过OcrService提取图片中的文本。提取的文本内容将以HTTP响应的形式返回。

5、测试集成

在启动Spring Boot应用后，你可以使用curl或Postman等工具来测试OCR功能。
使用curl命令上传图片并获取文本：

curl -F "image=@path_to_your_image.png" http://localhost:8080/api/ocr/extract-text

如果配置正确，你将看到提取的文本内容返回。

6、处理多语言与自定义字体

Tesseract支持多语言OCR。如果你需要处理不同语言的文本，只需在application.properties中修改语言配置，例如：

tesseract.language=chi_sim+eng

这个配置将同时处理简体中文和英文。此外，Tesseract还支持训练自定义字体，适用于特定需求的OCR任务。训练自定义字体超出了本文的范围，但你可以参考Tesseract的官方文档来学习如何进行训练。

7、总结

通过Spring Boot集成Tess4j，Java开发者可以轻松实现OCR功能。本文介绍了如何配置Tess4j、编写OCR服务、创建REST API，以及处理多语言OCR等内容。这种集成方式不仅简化了复杂的OCR操作，还为你提供了扩展和优化的灵活性。无论是在处理文档自动化，还是在开发智能应用，Tess4j都是一个强大且易于使用的工具。

原文地址：https://blog.csdn.net/bjzhang75/article/details/142341007

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Halcon OCR检测免训练版
下一篇：General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

Python高级编程模式和设计模式
【代码】Python高级编程模式和设计模式。
阅读更多2024-11-15
【代码随想录】刷题记录(29)-用栈实现队列
思路其实很简单，有点像那种小学益智游戏，比如那种给两个箱子，花几步把最下面的砖块搬出来的游戏。这道题其实就是类似这种动作，因为栈是遵循“先入后出”的原则，所以如果要拿出最先入栈stack_in的元素（
阅读更多2024-11-15
Jdbc学习笔记（四）--PreparedStatement对象、sql攻击（安全问题）
在需要用户输入的地方，用户输入的是SQL语句的片段，最终用户输入的SQL片段与我们DAO中写的SQL语句合成一个完整的SQL语句！例如用户在登录时输入的用户名和密码都是为SQL语句的片段！所以，建议大
阅读更多2024-11-15
Redis简介、数据结构、高性能读写、持久化机制、分布式架构
Redis简介、数据结构、高性能读写、持久化机制、分布式架构
阅读更多2024-11-15
扩散模型生成 360度场景
扩散模型生成 360度场景
阅读更多2024-11-15
css文字间距撑满横向距离
【代码】css文字间距撑满横向距离。
阅读更多2024-11-15
Python常用魔术方法（学习笔记）
Python中常用魔术方法的使用。
阅读更多2024-11-15
如何在 Ubuntu 上安装 RStudio IDE（R语言集成开发环境） ?
RStudio 是一个功能强大的 R 语言集成开发环境(IDE)，R 是一种主要用于统计计算和数据分析的编程语言。任何从事数据科学项目或任何其他涉及 R 的类似任务的人，RStudio 都可以使您的工
阅读更多2024-11-15
开源对象存储新选择：在Docker上部署MinIO并实现远程管理
开源对象存储新选择：在Docker上部署MinIO并实现远程管理
阅读更多2024-11-15
Hot100 42接雨水
根据题目描述，雨水总和就是蓝色方块加起来的总和。怎么思路很简单，为了不让水溢出，那么两边只能取最短的一截。根据当前柱子所处的位置，算出前面最高的和后面最高的柱子（因为水是流动的），这样求最小的柱子长度
阅读更多2024-11-15