tessdoc

tessdoc

多语言支持的开源文字识别引擎

Tesseract是一款功能强大的开源OCR引擎,支持100多种语言和35种以上的文字。它提供命令行和API接口,可从图像中精确提取文本。Tesseract采用LSTM神经网络技术,具有高度可定制性,并配备完善的训练测试工具。该引擎可跨平台使用,包括移动设备,为开发者提供了灵活的文字识别解决方案。

TesseractOCR文字识别开源软件机器学习Github开源项目

Tesseract 用户手册

本用户手册适用于 Tesseract 5.x 版本。 对于 4.x.x、3.05.02 及更早版本,请参阅旧版文档

简介

Tesseract 是一个开源文字识别(OCR)引擎,基于 Apache 2.0 许可发布。

Tesseract 可以通过命令行直接使用,或者(对于程序员来说)通过使用 API 从图像中提取印刷文本。它支持多种语言。Tesseract 没有内置的图形用户界面,但在 3rdParty 页面上有几个可用的界面。Tesseract 的外部工具、封装和训练项目列在 AddOns 下。

Tesseract 可以在 Apache License 2.0 的条款下在您自己的项目中使用。它有一个功能齐全的 API,可以编译用于各种目标,包括 Android 和 iPhone。请查看 3rdPartyAddOns 页面,了解它已经完成的一些示例。

如果您有问题,请先阅读文档, 特别是 FAQ,看看您的问题是否在那里得到解答。 如果没有,请搜索问题列表Tesseract 用户论坛, 如果您仍然找不到所需的信息,请在 Tesseract 用户论坛 Google 群组中提出您的问题。

Tesseract 是自由软件,所以如果您想参与并提供帮助,请随时加入! 如果您发现了一个 bug 并自己修复了,最好的做法是将补丁附加到 问题列表 中的 bug 报告上。

发布和更新日志

基于 LSTM 的 Tesseract

Tesseract 4.0 添加了一个基于 LSTM 神经网络的新 OCR 引擎。它在 x86/Linux 上运行良好,官方语言模型数据可用于 100 多种语言和 35 多种文字。有关更多详细信息,请参阅 4.0x 更新日志

5.x.x

源代码

Tesseract 5.x.x 源代码可在存储库main 分支中找到。 main 分支使用 5.0.0 语义版本控制,因为 C++ 代码现代化导致与 4.x 发布版本的 API 不兼容。

二进制文件

二进制文件可从以下位置获取:

训练数据文件

有关不同类型模型的详细信息,请参阅 数据文件

版本 4.00 的模型文件可从 tessdata 标记为 4.00 获取。它包含 2016 年 11 月的模型。各个语言文件的链接可从以下链接获取。

版本 4.0.0 及更高版本的模型文件可从 tessdata 标记为 4.0.0 获取。 它包含 2017 年 9 月的旧版模型,这些模型已使用 tessdata_best LSTM 模型的整数版本进行了更新。这组训练数据文件同时支持使用 --oem 0 的旧识别器和使用 --oem 1 的 LSTM 模型。 这些模型可从以下 Github 仓库获取。

  • tessdata 两套额外的由Google训练的"官方"traineddata在以下GitHub仓库中提供。这些数据集不包含传统模型,仅包含可与"--oem 1"一起使用的LSTM模型。

  • tessdata_best

  • tessdata_fast

与上面列出的4.0.0版本相同的语言模型traineddata文件可用于Tesseract 5.x.x。这些文件可从以下地址获取:

编译和安装

使用

API示例

技术信息

Tesseract 5的训练

使用tesstrain.sh(即Tesseract 4训练)的训练方法已不受支持/被废弃。 请使用tesseract-ocr/tesstrain中的脚本进行训练。

测试

外部项目

旧版本用户手册

编辑推荐精选

Manus

Manus

全面超越基准的 AI Agent助手

Manus 是一款通用人工智能代理平台,能够将您的创意和想法迅速转化为实际成果。无论是定制旅行规划、深入的数据分析,还是教育支持与商业决策,Manus 都能高效整合信息,提供精准解决方案。它以直观的交互体验和领先的技术,为用户开启了一个智慧驱动、轻松高效的新时代,让每个灵感都能得到完美落地。

飞书知识问答

飞书知识问答

飞书官方推出的AI知识库 上传word pdf即可部署AI私有知识库

基于DeepSeek R1大模型构建的知识管理系统,支持PDF、Word、PPT等常见文档格式解析,实现云端与本地数据的双向同步。系统具备实时网络检索能力,可自动关联外部信息源,通过语义理解技术处理结构化与非结构化数据。免费版本提供基础知识库搭建功能,适用于企业文档管理和个人学习资料整理场景。

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

TraeAI IDE协作生产力转型热门AI工具
酷表ChatExcel

酷表ChatExcel

大模型驱动的Excel数据处理工具

基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。

使用教程AI工具酷表ChatExcelAI智能客服AI营销产品
DeepEP

DeepEP

DeepSeek开源的专家并行通信优化框架

DeepEP是一个专为大规模分布式计算设计的通信库,重点解决专家并行模式中的通信瓶颈问题。其核心架构采用分层拓扑感知技术,能够自动识别节点间物理连接关系,优化数据传输路径。通过实现动态路由选择与负载均衡机制,系统在千卡级计算集群中维持稳定的低延迟特性,同时兼容主流深度学习框架的通信接口。

DeepSeek

DeepSeek

全球领先开源大模型,高效智能助手

DeepSeek是一家幻方量化创办的专注于通用人工智能的中国科技公司,主攻大模型研发与应用。DeepSeek-R1是开源的推理模型,擅长处理复杂任务且可免费商用。

KnowS

KnowS

AI医学搜索引擎 整合4000万+实时更新的全球医学文献

医学领域专用搜索引擎整合4000万+实时更新的全球医学文献,通过自主研发AI模型实现精准知识检索。系统每日更新指南、中英文文献及会议资料,搜索准确率较传统工具提升80%,同时将大模型幻觉率控制在8%以下。支持临床建议生成、文献深度解析、学术报告制作等全流程科研辅助,典型用户反馈显示每周可节省医疗工作者70%时间。

Windsurf Wave 3

Windsurf Wave 3

Windsurf Editor推出第三次重大更新Wave 3

新增模型上下文协议支持与智能编辑功能。本次更新包含五项核心改进:支持接入MCP协议扩展工具生态,Tab键智能跳转提升编码效率,Turbo模式实现自动化终端操作,图片拖拽功能优化多模态交互,以及面向付费用户的个性化图标定制。系统同步集成DeepSeek、Gemini等新模型,并通过信用点数机制实现差异化的资源调配。

AI IDE
腾讯元宝

腾讯元宝

腾讯自研的混元大模型AI助手

腾讯元宝是腾讯基于自研的混元大模型推出的一款多功能AI应用,旨在通过人工智能技术提升用户在写作、绘画、翻译、编程、搜索、阅读总结等多个领域的工作与生活效率。

AI 办公助手AI对话AI助手AI工具腾讯元宝智能体热门
Grok3

Grok3

埃隆·马斯克旗下的人工智能公司 xAI 推出的第三代大规模语言模型

Grok3 是由埃隆·马斯克旗下的人工智能公司 xAI 推出的第三代大规模语言模型,常被马斯克称为“地球上最聪明的 AI”。它不仅是在前代产品 Grok 1 和 Grok 2 基础上的一次飞跃,还在多个关键技术上实现了创新突破。

下拉加载更多