#Tesseract

Zotero OCR插件：提升PDF文档管理效率的利器

3 个月前

Zotero OCR PDF Tesseract 插件 Github 开源项目

3 个月前

Tesstrain: 深入解析Tesseract LSTM训练工具

3 个月前

Tesseract OCR 模型训练机器学习图像处理 Github 开源项目

3 个月前

GoSseract：基于Tesseract的Go语言OCR库

3 个月前

gosseract OCR Tesseract Go语言图像识别 Github 开源项目

3 个月前

Tessdata:Tesseract OCR引擎的语言训练数据

3 个月前

Tesseract OCR 语言数据 LSTM模型 tessdata Github 开源项目

3 个月前

Tesseract OCR: 强大的开源文字识别引擎

3 个月前

Tesseract OCR 文字识别开源软件机器学习 Github 开源项目

3 个月前

Tesseract OCR：强大的开源文字识别引擎

3 个月前

Tesseract OCR 文字识别开源软件机器学习 Github 开源项目

3 个月前

相关项目

llm_aided_ocr

该系统利用自然语言处理、机器学习和智能文本处理技术，将OCR输出的文本转换为高精度、格式化良好的易读文档。它解决了字符识别错误、段落结构不正确、虚构内容和格式不一致等常见OCR问题。支持从PDF到图像的转换，使用Tesseract进行OCR，并提供通过本地或API接口进行高级错误校正、智能文本分块处理和Markdown格式化等功能。此外，还采用FAISS和嵌入相似性检查进行内容过滤，确保输出文本的质量和一致性。

tessdoc

Tesseract是一款功能强大的开源OCR引擎，支持100多种语言和35种以上的文字。它提供命令行和API接口，可从图像中精确提取文本。Tesseract采用LSTM神经网络技术，具有高度可定制性，并配备完善的训练测试工具。该引擎可跨平台使用，包括移动设备，为开发者提供了灵活的文字识别解决方案。

tessdata

tessdata是Tesseract 4.0.0及更高版本的语言数据文件库。它包含传统引擎和LSTM神经网络引擎的模型，支持多语言识别。项目提供整数化处理的LSTM模型，平衡了速度和精度。tessdata还有多个版本可选，适应不同性能需求。所有数据采用Apache-2.0许可证，为OCR技术发展贡献资源。

tesstrain

tesstrain是一个基于Makefile的Tesseract 5训练工作流工具。它提供完整的OCR模型训练流程，包括数据准备、训练、评估和可视化。支持自定义模型、微调和从头训练，具有灵活的配置选项。tesstrain能生成traineddata文件和错误率图表，适用于高效开发和优化Tesseract模型。

zotero-ocr

Zotero OCR是一个开源的Zotero插件，为PDF文献提供OCR文字识别功能。该插件可为选定PDF添加识别文本，生成新的文本化PDF，或创建纯文本笔记和HTML文件。基于Tesseract OCR引擎，支持多语言识别，并提供自定义配置选项。插件安装简便，有助于提升文献管理效率。

gosseract

gosseract是一个Go语言OCR包，利用Tesseract C++库实现光学字符识别。它支持多种图像格式，提供简单API和丰富配置选项。项目包含一个可快速部署的OCR服务器应用，适用于文档数字化、图像文本提取等场景。gosseract支持多语言识别，可轻松集成到各类Go项目中。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com