java识别图片上的文字、java中语言库tessdate的使用

🕗 发布于 2024-09-20 05:51 java maven spring boot

下载语言库：tessdata语言库
下载好后，记住在本地路径：如: D:\tessdate\tessdata-main

添加 maven

<!--基于 Tesseract-OCR 封装的 OCR 识别 jar-->
<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>5.8.0</version>
</dependency>

识别代码：（识别一些简单的文字）

public static void main(String[] args) {
        // 需要识别的图片路径
        String imagePath = "C:/Users/Dell/Desktop/cc.jpg";     
        // 使用Tesseract进行OCR
        Tesseract tesseract = new Tesseract();
        // 设置Tesseract数据路径 上面下载的本地路径
        tesseract.setDatapath("D:\\tessdate\\tessdata-main");
        // 设置语言库  中文
        tesseract.setLanguage("chi_sim"); 

        try {
            // 进行文字识别
            String result = tesseract.doOCR(new File(imagePath));
            System.out.println("OCR结果：");
            System.out.println(result);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }

识别结果如下

这样只能识别一些简单的文字，还可能会识别出错，想识别复杂一点的减少出错率需要配合上opencv 使用--如下：

添加maven

 <dependency>
     <groupId>org.bytedeco</groupId>
     <artifactId>opencv-platform</artifactId>
     <version>4.5.1-1.5.5</version>
 </dependency>

处理图像（根据情况修改里面的参数，找到识别率最高的参数组。注：有的参数有最小最大值或单数双数限制，不正确时会报错，从错误信息就可以看出来）：

public static Mat preprocessImage(String imagePath) {
    // 1. 读取图像文件
    // 使用 OpenCV 的 imread 函数从指定路径读取图像，返回一个 Mat 对象。
    // Mat 是 OpenCV 中用于存储图像的基本数据结构。
    Mat src = opencv_imgcodecs.imread(imagePath);

    // 2. 转换为灰度图像
    // 使用 cvtColor 函数将读取的图像从 BGR 格式转换为灰度图像。
    // BGR 是 OpenCV 中默认的颜色格式，而灰度图像只有单一通道。
    Mat gray = new Mat();
    opencv_imgproc.cvtColor(src, gray, opencv_imgproc.COLOR_BGR2GRAY);

    // 3. 去噪
    // 使用 fastNlMeansDenoising 函数进行快速非局部均值去噪，主要用于减少图像中的噪声。
    // 这个步骤可以提高图像的清晰度，尤其是在灰度图像的情况下。
    Mat denoised = new Mat();
    opencv_photo.fastNlMeansDenoising(gray, denoised);

    // 4. 形态学操作去除背景纹路
    // 使用 getStructuringElement 创建一个形态学操作的核 (kernel)，它是一个 2x2 的矩形。
    // 在形态学处理中，核用于在图像上执行膨胀、腐蚀等操作。
    Mat morphKernel = opencv_imgproc.getStructuringElement(opencv_imgproc.MORPH_RECT, new Size(2, 2));

    // 使用 morphologyEx 进行形态学关闭操作 (MORPH_CLOSE)，这是一种先膨胀后腐蚀的操作。
    // 这种操作可以消除图像中的小空洞或细小的黑色区域，平滑图像中的边缘。
    Mat morph = new Mat();
    opencv_imgproc.morphologyEx(denoised, morph, opencv_imgproc.MORPH_CLOSE, morphKernel);

    // 5. 自适应阈值处理（二值化）
    // 使用 adaptiveThreshold 将形态学处理后的图像转换为二值图像。
    // 自适应阈值会根据图像局部区域的亮度自动调整阈值，从而对亮度不均的图像效果更好。
    // 参数说明：
    // 255 是最大值，表示超过阈值的像素值将设为 255（白色）。
    // ADAPTIVE_THRESH_GAUSSIAN_C 表示采用高斯滤波的方式来计算阈值。
    // THRESH_BINARY 表示二值化处理，像素值要么为 0（黑色），要么为 255（白色）。
    // 3 是 blockSize，表示用于计算阈值的邻域大小。
    // 2 是一个常数，会从计算出来的阈值中减去，用来调整结果。
    Mat binary = new Mat();
    opencv_imgproc.adaptiveThreshold(morph, binary, 255, opencv_imgproc.ADAPTIVE_THRESH_GAUSSIAN_C, opencv_imgproc.THRESH_BINARY, 3, 2);

    // 6. 返回处理后的二值图像
    return binary;
}

使用方法：

public static void main(String[] args) {
        // 识别的图片路径
        String imagePath = "C:/Users/Dell/Desktop/ee.jpeg";
        // 获取处理后的图片
        Mat processedImage = preprocessImage(imagePath);

        // 保存预处理后的图像以便检查
        File outputDir = new File("output");
        if (!outputDir.exists()) {
            outputDir.mkdirs();  // 创建目录及所需的父目录
        }
        // 保存处理后的图片         处理后的新图片路径
        opencv_imgcodecs.imwrite("output/processed_image.jpg", processedImage);
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath("D:\\tessdate\\tessdata-main");
        tesseract.setLanguage("chi_sim");
        try {
            //    识别保存处理后的图片
            String result = tesseract.doOCR(new File("output/processed_image.jpg"));
            System.out.println("OCR结果：");
            System.out.println(result);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }

原文地址：https://blog.csdn.net/weixin_43583693/article/details/140468214

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【SpinalHDL】Scala编程之伴生对象
下一篇：【Webpack--011】配置开发和生产模式的webpack.config.js

【stable diffusion模型】Stable diffusion模型分几种？一文详解，入门必看！
在Stable Diffusion中，模型并不只有一种，不同插件有不同的模型，分别作用于不同的功能。今天小元老师就带大家一起来学习一下～01大模型也就是stable diffusion模型，在默认界面
阅读更多2024-11-14
每日小练：Day2
题目描述：这道题主要考察B盒是不是A盒的子集，我们可以通过哈希表来做。
阅读更多2024-11-14
记录使用大模型过程中遇到的幻觉示例
我怀疑是这个应为这个模型比较新或者相关资料比较少，导致LLM并不认识它，所以再用一个知名度和流传度比较广的模型来试一下，它可以准确的回答。单开一篇，用来持续记录在使用通义千问过程中发现的幻觉问题，用来
阅读更多2024-11-14
springboot育婴经验分享平台-计算机设计毕业源码06078
随着现代社会对育儿知识的需求不断增长，家长们渴望找到一个可靠、便捷的平台来分享和获取育婴经验。为此，我们设计并实现了一个基于SpringBoot的育婴经验分享平台。该平台旨在为家长们提供一个互动交流的
阅读更多2024-11-14
Django 2024全栈开发指南（一）：框架简介、环境搭建与项目结构
本文主要介绍一下Django框架的基础知识、运行环境的搭建，以及开发工具的选择。同时，通过构建一个最基本的基于Django框架的Web应用程序（应用程序一般简称应用），帮助读者快速掌握Django框架
阅读更多2024-11-14
小试银河麒麟系统OCR软件
OCR （Optical Character Recognition，光学字符识别），最初是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形
阅读更多2024-11-14
Python3.11.9+selenium，获取图片验证码以及输入验证码数字
Python3.11.9+selenium，获取图片验证码以及输入验证码数字
阅读更多2024-11-14
【操作系统】每日 3 题（二十二）
📚专栏简介：在这个专栏中，我将会分享操作系统面试中常见的面试题给大家~
阅读更多2024-11-14
python+LLM技术栈的介绍-后端
Django 拥有活跃的开发者社区和丰富的文档资源，支持多种数据库（如 MySQL、PostgreSQL、SQLite 和 Oracle），并且兼容 WSGI 和 FastCGI 服务器。此外，Dja
阅读更多2024-11-14
Java使用Thumbnails进行图片处理
Java使用Thumbnails进行图片处理
阅读更多2024-11-14

java识别图片上的文字、java中语言库tessdate的使用

相关文章