Tesseract 用户手册

本用户手册适用于 Tesseract 5.x 版本。对于 4.x.x、3.05.02 及更早版本，请参阅旧版文档。

Tesseract 用户手册

简介

Tesseract 是一个开源文字识别（OCR）引擎，基于 Apache 2.0 许可发布。

主版本 5 是当前的稳定版本，始于 2021 年 11 月 30 日发布的 5.0.0 版本。
较新的次要版本和错误修复版本可从 GitHub 获取。
最新源代码可在 GitHub 的 main 分支上找到。未解决的问题可在问题跟踪器中找到，以及规划文档。

Tesseract 可以通过命令行直接使用，或者（对于程序员来说）通过使用 API 从图像中提取印刷文本。它支持多种语言。Tesseract 没有内置的图形用户界面，但在 3rdParty 页面上有几个可用的界面。Tesseract 的外部工具、封装和训练项目列在 AddOns 下。

Tesseract 可以在 Apache License 2.0 的条款下在您自己的项目中使用。它有一个功能齐全的 API，可以编译用于各种目标，包括 Android 和 iPhone。请查看 3rdParty 和 AddOns 页面，了解它已经完成的一些示例。

如果您有问题，请先阅读文档，特别是 FAQ，看看您的问题是否在那里得到解答。如果没有，请搜索问题列表， Tesseract 用户论坛，如果您仍然找不到所需的信息，请在 Tesseract 用户论坛 Google 群组中提出您的问题。

Tesseract 是自由软件，所以如果您想参与并提供帮助，请随时加入！如果您发现了一个 bug 并自己修复了，最好的做法是将补丁附加到问题列表中的 bug 报告上。

发布和更新日志

基于 LSTM 的 Tesseract

Tesseract 4.0 添加了一个基于 LSTM 神经网络的新 OCR 引擎。它在 x86/Linux 上运行良好，官方语言模型数据可用于 100 多种语言和 35 多种文字。有关更多详细信息，请参阅 4.0x 更新日志。

5.x.x

源代码

Tesseract 5.x.x 源代码可在存储库的 main 分支中找到。 main 分支使用 5.0.0 语义版本控制，因为 C++ 代码现代化导致与 4.x 发布版本的 API 不兼容。

二进制文件

二进制文件可从以下位置获取：

训练数据文件

有关不同类型模型的详细信息，请参阅数据文件。

版本 4.00 的模型文件可从 tessdata 标记为 4.00 获取。它包含 2016 年 11 月的模型。各个语言文件的链接可从以下链接获取。

tessdata 4.00 2016 年 11 月

版本 4.0.0 及更高版本的模型文件可从 tessdata 标记为 4.0.0 获取。它包含 2017 年 9 月的旧版模型，这些模型已使用 tessdata_best LSTM 模型的整数版本进行了更新。这组训练数据文件同时支持使用 --oem 0 的旧识别器和使用 --oem 1 的 LSTM 模型。这些模型可从以下 Github 仓库获取。