tessdata
这些语言数据文件仅适用于Tesseract 4.0.0及更新版本。它们基于GitHub上tesseract-ocr/langdata的源文件。(尚待更新至4.0.0 - 20180322)
这些文件包含传统Tesseract引擎(--oem 0)和新的基于LSTM神经网络的引擎(--oem 1)的模型。
这些文件中的LSTM模型(--oem 1)已更新为GitHub上tessdata_best的整数化版本。因此,它们应该比tessdata_best更快,但可能略微不太准确。
GitHub上的tessdata_fast提供了另一套整数化LSTM模型,这些模型使用较小的网络构建。tessdata_fast文件是Debian和Ubuntu打包使用的版本。
对于印度语系和阿拉伯语脚本语言文件,传统Tesseract模型(--oem 0)已被移除。
tessdata 3.04或3.05版本
从3.04分支获取Tesseract 3.04或3.05的语言数据文件。
更多信息和所有语言的完整列表可在Tesseract wiki中找到。
仓库中的所有数据均以Apache-2.0许可证授权,详见LICENSE文件。