博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【图片识别】Java中使用tess4J进行图片文字识别(支持中文)(转)
阅读量:6228 次
发布时间:2019-06-21

本文共 807 字,大约阅读时间需要 2 分钟。

http://blog.csdn.net/wsk1103/article/details/54173282

java中识别文字比较简单,使用的软件是tesseractocr(使用的版本是3.02,3以后的版本才支持中文),这个软件需要安装在本地电脑中,安装的过程中全部都按照默认进行安装(以便于Java直接调用),

下载地址。

该软件默认的识别的是英文,如果相要能识别中文,需要将中文的训练文本chi_sim.traineddata存放到C:\Program Files (x86)\Tesseract-OCR\tessdata中,其中该中文训练文本解压后39M左右,

下载地址

,遗憾的是如果想要识别中英文的话,还得继续谷歌搜索一下,在这里就不列出来了。

Java中识别的话很简单,只需要下面这几行代码就可以了(官方给出来的代码)

File imageFile=new File(path);if(!imageFile.exists()){return"图片不存在";}Tesseractinstance=Tesseract.getInstance();instance.setDatapath("C:\\ProgramFiles(x86)\\Tesseract-OCR\\tessdata");//设置训练库的位置instance.setLanguage("chi_sim");//中文识别String result=instance.doOCR(imageFile);

想要实现上面的这些代码,需要导入的包有一些,

下载地址:

关于异常

1. Exception in thread “main” java.lang.Error: Invalid memory access
这个异常表示没有设置训练库的位置
2. 不是有效的win32程序
尝试重新安装一下tesseractocr
安装的路径默认就可以了。

你可能感兴趣的文章
趋势科技CEO陈怡桦:敌人是谁?
查看>>
zabbix漏洞利用 Zabbix Server远程代码执行漏洞CVE-2017-2824 2.4.X均受影响
查看>>
带项目体会 合格的Leader 应该具备什么特质?
查看>>
Black Hat|黑客演示如何向卫星网络发送篡改信号
查看>>
揭秘中国数据库研究鲜为人知的那些事
查看>>
新年伊始你需要做的10个管理任务
查看>>
【安全课堂】七种武器把黑客拒之门外
查看>>
LaCie Mirror:科技与设计的交融
查看>>
很有意思,如何把代码看成一个犯罪现场
查看>>
10G光纤来了,收发器和线缆的变化有哪些?
查看>>
Java 9的JDK中值得期待的:不仅是模块化
查看>>
协鑫光伏:提升良品率的一小步是“中国智造”的一大步
查看>>
IoT大潮来袭 车联网行业准备好了吗?
查看>>
时空穿梭 探寻高端存储架构的前世今生
查看>>
中国企业应用数据分析大概情况和未来趋势
查看>>
阿里巴巴集团宣布60亿战略增资阿里云
查看>>
云计算Cloud Computing简介
查看>>
俄罗斯间谍黑客组织图拉劫持通信卫星链路盗取数据
查看>>
PM经验谈 项目管理工具必备的5个功能
查看>>
解读数据传输DTS技术架构及最佳实践
查看>>