Tesseract5.0 图像识别本地服务 二 【字库、训练识别模型】

不管现实多么惨不忍睹,都要持之以恒地相信,这只是黎明前短暂的黑暗而已。不要惶恐眼前的难关迈不过去,不要担心此刻的付出没有回报,别再花时间等待天降好运。真诚做人,努力做事!你想要的,岁月都会给你。Tesseract5.0 图像识别本地服务 二 【字库、训练识别模型】,希望对大家有帮助,欢迎收藏,转发!站点地址:www.bmabk.com,来源:原文

一:简介

OCR(Optical Character Recognition):光学字符识别,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后由Google进行改进、修改bug、优化,重新发布。

二:语言字库

 

书接上回,咱们先放字库地址:

1、Windows版本Tesseract各版本下载 ,https://github.com/tesseract-ocr/tesseract/wiki/Data-Files
2、懒得思考的人呐,直接来这里下载:https://tesseract-ocr.github.io/tessdoc/Data-Files
3、再放一个地址GIthub,直接来这里下载:https://github.com/tesseract-ocr/tessdata

再访问不了,那我也没办法了

链接:https://pan.baidu.com/s/1zolP6jiQFP1pABT8z9zh5Q 
提取码:cxjt

Tesseract5.0 图像识别本地服务 二 【字库、训练识别模型】

各版本对应字库要识别简体中文需要下载chi_sim.traindata字库(【注意】根据版本下载对应字库)。

下载简体中文后放入你的字体库:

我的是:C:\Program Files\Tesseract-OCR\tessdata

Tesseract5.0 图像识别本地服务 二 【字库、训练识别模型】

三:拿个图片来比划比划

Tesseract5.0 图像识别本地服务 二 【字库、训练识别模型】
books.jpg​​​​​​
执行命令如下:tesseract books.jpg result -l chi_sim

解释器:
-l chi_sim 表示用简体中文字库(需要下载中文字库文件,解压后,存放到tessdata目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata)

1、执行过程:

Tesseract5.0 图像识别本地服务 二 【字库、训练识别模型】

2、执行结果:

Tesseract5.0 图像识别本地服务 二 【字库、训练识别模型】

随机拍摄的照片,识别效果不怎么样。标准化的图片应该会很好

四:遇到的问题处理

Tesseract5.0 图像识别本地服务 二 【字库、训练识别模型】

语言库里面的简体中文有问题,解决办法就是
用命令:【tesseract --list-langs】来查看Tesseract-OCR支持语言,如果没有则自行添加对应库。

Tesseract5.0 图像识别本地服务 二 【字库、训练识别模型】

看到确实是简体中文的语言不存在,所以不能支持了。

正确情况如下:

Tesseract5.0 图像识别本地服务 二 【字库、训练识别模型】

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/160842.html

(0)
飞熊的头像飞熊bm

相关推荐

发表回复

登录后才能评论
极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!