如何在 python 中使用 pytesseract 库提取图片上的文字信息

OCR和PyTesseract库结合批量识别图片的文字

UMI-OCR 是什么?

  • UMI-OCR 是一个用于文字识别(OCR)的 Python 库,它提供了识别图像中文本的功能.

使用 UMI-OCR 的原因:

方便的文字识别功能

  • UMI-OCR 提供了简单易用的 API,可以帮助用户在图像中准确识别文本.

支持多种语言

  • 库支持多种语言文本的识别.

开源

  • UMI-OCR 是一个开源项目,用户可以根据需要自由使用和定制.

优缺点

优点:

简单易用多语言支持开源

缺点:

  • 识别精度可能受到图像质量、文本字体等因素影响

安装Tesseract-OCR引擎.


    1. Linux上,可以使用sudo apt-get install tesseract-ocr命令.

    1. Windows用户需要从Tesseract at UB Mannheim下载并安装.

安装PyTesseract Python库.

安装与基本使用:

安装 pytesseract和imageio:
pip install pytesseract

pip install imageio
如何在 python 中使用 pytesseract 库提取图片上的文字信息
  • 在任何操作系统上,都可以使用pip install pytesseract命令来安装.

安装 Tesseract-OCR 引擎

  • https://github.com/UB-Mannheim/tesseract/wiki 下载64位,下载完成后,双击安装即可-然后把安装的路径在在环境变量里面配置好即可
如何在 python 中使用 pytesseract 库提取图片上的文字信息
  • 然后用cmd 命令行 执行 tesseract.exe -v 是否成功
如何在 python 中使用 pytesseract 库提取图片上的文字信息
  • 在打印信息中可以看到对应的版本号v5.3.3 2024005以及各种依赖库文件的版本号,表示安装成功.然后把这个路径填写上去
如何在 python 中使用 pytesseract 库提取图片上的文字信息

安装语言包

  • https://github.com/tesseract-ocr/tessdata
  • 安装语言包 下载完成后解压安装即可再次进入到系统环境变量,添加一个名称为“TESSDATA PREFIX”的系统变量,输入语言包所在的路径:
如何在 python 中使用 pytesseract 库提取图片上的文字信息
  • 在完成上述步骤后,你应该能够在你的系统上的任何位置运行 tesseract 命令

  • 接下来安装语言包,在上一个步骤下载的语言包中找到需要的traineddata文件,比如表示英文和中文简体的eng.traineddata和chi sim.traineddata,复制到软件安装目录的tessdata路径下,这里语言包目录是:D:OCRtessdata

  • 设置完成后打开一个新的命令行输入“tesseract.exe –list-langs”可以检查语言包是否完成安装.

如何在 python 中使用 pytesseract 库提取图片上的文字信息
  • 拷贝了eng.traineddata和chi sim.traineddata 2个文件到tessdata目录下,输入“tesseract.exe -ist-langs”执行后看到了chi chm和eng 2种语言,说明对应的语言类型安装成功.
import pytesseract
import imageio
import os
os.environ['TESSDATA_PREFIX'] = '/pythonProject/pythonProject2/OCR/tessdata'
pytesseract.pytesseract.tesseract_cmd = r'D:OCRtesseract.exe'
image = imageio.v2.imread('picture.jpeg')
text = pytesseract.image_to_string(image, lang='chi_sim')
print(text)

打印的结果:

如何在 python 中使用 pytesseract 库提取图片上的文字信息

需注意的几点:

  1. os.environ[‘TESSDATA_PREFIX’]=’/pythonProject/pythonProject2/OCR/tessdata’这个是中文包的路径
  2. 如果出现没有安装tesseracth或者没有找到系统指定的文件的话,我们需要确保Tesseract已经被安装在你的系统上,并且Python能够找到它.
  3. 那么需要输入这行代码指定路径:
pytesseract.pytesseract.tesseract_cmd = r'D:OCRtesseract.exe'

pytesseract.pytesseract.tesseract_cmd = r'D:OCRtesseract.exe'

基本使用:

  • 在Windows用户也可以识别.
  • 通过cmd命令行也可以识别图片中的的D:OCRtessdata>tesseract.exe 图片汉字识别.png -l chi_sim 识别图片中的字母和字节数
如何在 python 中使用 pytesseract 库提取图片上的文字信息

通过cmd命令行也可以识别图片中的文字

D:OCRtessdata>tesseract.exe 图片汉字识别.png result -l chi_sim

如何在 python 中使用 pytesseract 库提取图片上的文字信息
如何在 python 中使用 pytesseract 库提取图片上的文字信息

进阶功能:

自定义配置:

  • 可以配置识别时的参数,如语言、识别区域等.

批量处理:

  • 对多个图像进行批量处理,并输出结果.

文本翻译:

  • 结合翻译 API,将识别的文本进行翻译.

  • 通过这些进阶功能,用户可以更灵活地应用 UMI-OCR 库来满足不同的需求.

总之:

  • Umi-OCR不仅是技术人员的得力利器,也为广大技术爱好者打开了探索数字化文档世界的大门.随着技术的日新月异和社区的蓬勃发展,我们有理由相信,OCR技术将在未来的数字化转型中扮演着愈发重要的角色.

  • 感谢大家的关注和支持!想了解更多Python编程精彩知识内容,请关注我的   微信公众号:python小胡子,有最新最前沿的的python知识和人工智能AI与大家共享,同时,如果你觉得这篇文章对你有帮助,不妨点个赞,并点击关注.动动你发财的手,万分感谢!!!

原文始发于微信公众号(python小胡子):如何在 python 中使用 pytesseract 库提取图片上的文字信息

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/275996.html

(0)
python学霸的头像python学霸bm

相关推荐

发表回复

登录后才能评论
极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!