Tesseract 用户手册
本用户手册适用于 Tesseract 5.x 版本。 对于 4.x.x、3.05.02 及更早版本,请参阅旧版文档。
简介
Tesseract 是一个开源文字识别(OCR)引擎,基于 Apache 2.0 许可发布。
- 主版本 5 是当前的稳定版本,始于 2021 年 11 月 30 日发布的 5.0.0 版本。
- 较新的次要版本和错误修复版本可从 GitHub 获取。
- 最新源代码可在 GitHub 的 main 分支上找到。 未解决的问题可在问题跟踪器中找到, 以及规划文档。
Tesseract 可以通过命令行直接使用,或者(对于程序员来说)通过使用 API 从图像中提取印刷文本。它支持多种语言。Tesseract 没有内置的图形用户界面,但在 3rdParty 页面上有几个可用的界面。Tesseract 的外部工具、封装和训练项目列在 AddOns 下。
Tesseract 可以在 Apache License 2.0 的条款下在您自己的项目中使用。它有一个功能齐全的 API,可以编译用于各种目标,包括 Android 和 iPhone。请查看 3rdParty 和 AddOns 页面,了解它已经完成的一些示例。
如果您有问题,请先阅读文档, 特别是 FAQ,看看您的问题是否在那里得到解答。 如果没有,请搜索问题列表, Tesseract 用户论坛, 如果您仍然找不到所需的信息,请在 Tesseract 用户论坛 Google 群组中提出您的问题。
Tesseract 是自由软件,所以如果您想参与并提供帮助,请随时加入! 如果您发现了一个 bug 并自己修复了,最好的做法是将补丁附加到 问题列表 中的 bug 报告上。
发布和更新日志
基于 LSTM 的 Tesseract
Tesseract 4.0 添加了一个基于 LSTM 神经网络的新 OCR 引擎。它在 x86/Linux 上运行良好,官方语言模型数据可用于 100 多种语言和 35 多种文字。有关更多详细信息,请参阅 4.0x 更新日志。
5.x.x
源代码
Tesseract 5.x.x 源代码可在存储库的 main
分支中找到。
main
分支使用 5.0.0
语义版本控制,因为 C++ 代码现代化导致与 4.x 发布版本的 API 不兼容。
二进制文件
二进制文件可从以下位置获取:
训练数据文件
有关不同类型模型的详细信息,请参阅 数据文件。
版本 4.00
的模型文件可从 tessdata 标记为 4.00 获取。它包含 2016 年 11 月的模型。各个语言文件的链接可从以下链接获取。
版本 4.0.0
及更高版本的模型文件可从 tessdata 标记为 4.0.0 获取。
它包含 2017 年 9 月的旧版模型,这些模型已使用 tessdata_best
LSTM 模型的整数版本进行了更新。这组训练数据文件同时支持使用 --oem 0
的旧识别器和使用 --oem 1
的 LSTM 模型。
这些模型可从以下 Github 仓库获取。
-
tessdata 两套额外的由Google训练的"官方"traineddata在以下GitHub仓库中提供。这些数据集不包含传统模型,仅包含可与"--oem 1"一起使用的LSTM模型。
与上面列出的4.0.0版本相同的语言模型traineddata文件可用于Tesseract 5.x.x。这些文件可从以下地址获取:
编译和安装
使用
API示例
技术信息
- 历史技术文档
- Tesseract的API/ABI变更回顾
- 手册页
- 由Doxygen生成的源代码文档
- Tesseract中的神经网络
- VGSL规范
- 来自Tensorflow的VGSL规范信息
- tessdata_fast模型的网络规范
- tessdata_best模型的网络规范
- DAS 2016教程幻灯片 幻灯片 #2、 #6、 #7 包含有关Tesseract 4.0x中LSTM集成的信息。
- Tesseract OpenCL - 实验性
Tesseract 5的训练
使用tesstrain.sh
(即Tesseract 4训练)的训练方法已不受支持/被废弃。
请使用tesseract-ocr/tesstrain中的脚本进行训练。