架构师_程序员_码农网

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

搜索
查看: 182|回复: 0

[资料] .NET/C# 使用 Tesseract 对图片 OCR 文字识别

[复制链接]
发表于 2025-4-24 09:20:01 | 显示全部楼层 |阅读模式
需求:使用 OCR 技术对图片文字进行识别,如果包含某些文字,后端就初步通过了筛选,优先处理。需求比较简单。

回顾:

.NET/C# 使用 FastDeploy 部署 OCR 模型识别文字
https://www.itsvse.com/thread-10911-1-1.html

.NET Core 调用百度 PaddleOCR 识别图文
https://www.itsvse.com/thread-9590-1-1.html

Tesseract OCR

Tesseract 最初于 1985 年至 1994 年间在英国布里斯托尔的惠普实验室和美国科罗拉多州格里利的惠普公司开发。1996 年,为了移植到 Windows 系统,Tesseract 进行了进一步的修改,并于 1998 年进行了部分 C++ 化。2005 年,惠普将 Tesseract 开源。2006 年至 2018 年 11 月,它由谷歌开发。

Tesseract 4 新增了一个基于神经网络 (LSTM) 的OCR 引擎,该引擎专注于线条识别,但仍然支持 Tesseract 3 的旧版 Tesseract OCR 引擎,该引擎通过识别字符模式来工作。使用旧版 OCR 引擎模式 (--oem 0) 可启用与 Tesseract 3 的兼容性。它还需要支持旧版引擎的训练数据文件,例如来自tessdata存储库的文件。

Tesseract 地址:超链接登录可见。
tessdata:超链接登录可见。
文档:超链接登录可见。

C# 调用 Tesseract

关于使用 C# 调用 Tesseract,常用的有两个库:Tesseract、TesseractOCR,其中 TesseractOCR 是基于 Tesseract 库二次开发的,两个开源库的代码其实差不多,区别在于 TesseractOCR 调用的是最新版本(5.5.0)的 .dll 动态链接库,所以推荐使用 TesseractOCR

Tesseract 代码:超链接登录可见。
TesseractOCR 代码:超链接登录可见。

首先,需要在 tessdata 项目中下载简体中文(chi_sim.traineddata)的模型。(略)

代码如下:


从网上随便找一张截图进行测试,原图如下:

屏幕截图 2025-04-24 091439.png

OCR 识别结果如下:

屏幕截图 2025-04-24 091534.png

(完)




上一篇:.NET/C# 文件创建硬链接
下一篇:使用 sklearnex 加速 scikit-learn 机器学习库
码农网,只发表在实践过程中,遇到的技术难题,不误导他人。
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

免责声明:
码农网所发布的一切软件、编程资料或者文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。

Mail To:help@itsvse.com

QQ|手机版|小黑屋|架构师 ( 鲁ICP备14021824号-2 )|网站地图

GMT+8, 2025-6-15 23:55

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表