Project Icon

tools-ocr

Tree Hole OCR 高效本地文本识别工具

Tree Hole OCR是一款基于Paddle OCR模型的本地文本识别工具。无需联网即可快速识别文字,支持PDF、图像和截图识别等多种功能。采用Java和JavaFX开发,具有良好的跨平台兼容性,适用于Mac OS X 12.6及以上系统。该工具依赖于DJL、PyTorch等深度学习框架,集成了OpenCV图像处理库。除基本文本识别外,还支持PDF识别和快捷键截图识别。项目开源,可在GitHub或Gitee上获取源码。

kraken - 优化历史文献和多语言文本识别的开源OCR系统
GithubOCR系统kraken历史文字识别开源项目文本识别非拉丁文识别
kraken是一个开源OCR系统,专注于历史文献和非拉丁文本识别。该系统提供可训练的布局分析、阅读顺序识别和字符识别功能,支持多种文字方向和脚本。kraken能够输出多种格式,并提供公共模型库和灵活的识别网络架构。该项目与eScriptorium密切合作,为用户提供全面的文本数字化解决方案。kraken目前支持Linux和Mac OS X平台。
manga-ocr-base - 高精度日语漫画OCR模型支持多场景文本识别
GithubHuggingfaceManga OCR图像文本转换开源项目日本漫画日语文字识别模型视觉编码器解码器
manga-ocr-base是一款专为日语漫画开发的OCR模型,采用Vision Encoder Decoder框架。它不仅能识别垂直和水平文本,还可处理带振假名的文字和图像上的叠加文字。该模型适用于多种字体和样式,并能在低质量图像中保持高识别率。除漫画外,它还可用于一般日语印刷文本识别。该开源项目已在GitHub上发布,为日语文本识别领域提供了新的解决方案。
mmocr - 一个基于 PyTorch 和 mmdetection 的用于文本检测、文本识别以及相应的下游任务,包括关键信息提取的开源工具箱
GithubMMOCROpenMMLabPyTorch开源项目文本检测文本识别
MMOCR是一个基于PyTorch和mmdetection的开源工具箱,提供全面的文本检测、文本识别及信息提取解决方案。它支持多种先进模型和模块化设计,允许用户自定义优化器、数据预处理和模型组件。最新版本v1.0.0新增支持SCUT-CTW1500、SynthText和MJSynth数据集,更新了FAQ和文档,并添加了新教程笔记本。适用于PyTorch 1.6+,欢迎研究人员和开发者贡献改进。
LaTeX-OCR - 智能数学公式图像转LaTeX代码工具
GithubLaTeX识别pix2tex图像处理开源项目数学公式机器学习
这是一个基于机器学习的系统,可以将数学公式图像转换为相应的LaTeX代码。系统支持命令行工具、图形用户界面、API和Python集成,提供多种使用方式。适用于不同分辨率的图像,自动优化处理以提高识别性能。还包括模型训练指南和数据集生成工具,适用于科研和教育用途。
Pix2Text - 开源Python工具,支持高精度数学公式检测和80多种语言的文本识别
GithubOCRPix2Text开源开源项目数学公式检测表格识别
Pix2Text是一款免费开源的Python工具,主要功能与Mathpix类似,能够将复杂布局的图像、表格、文本和数学公式转换为Markdown格式。它支持超过80种语言的文本识别,包括简体中文、繁体中文、英语和越南语。最新的V1.1.1版本引入了新的数学公式检测模型,大幅提升了识别准确性。用户也可以通过在线服务和演示来体验其强大功能。
lookscanned.io - PDF在线转扫描效果工具
GithubLook ScannedPDF处理在线工具开源项目文档扫描浏览器应用
Look Scanned是一款纯前端PDF处理工具,能够在浏览器中为PDF文档添加扫描效果,无需使用实体扫描设备。该工具支持实时预览、离线使用,并兼容主流浏览器和设备。用户可调整参数以优化扫描效果,使文档呈现更真实的扫描质感。Look Scanned为需要快速生成扫描版PDF的用户提供了便捷高效的解决方案,同时保证了数据隐私安全。
zerox - 基于视觉模型的创新文档数字化工具
AIGPTGithubMarkdownZerox OCR开源项目文档处理
Zerox OCR是一款基于视觉模型的文档处理工具,通过将PDF转换为图像并使用GPT模型生成Markdown文本,有效处理复杂布局、表格和图表。与传统OCR服务相比,Zerox在准确度和表格处理方面表现出色,同时保持价格竞争力。该工具支持多种输入方式,提供灵活配置,为文档数字化提供了简单高效的解决方案。
JamTools - 多功能跨平台工具集 助力高效工作
GithubJamTools多语言翻译开源项目录屏截屏文字识别跨平台工具
JamTools是一款开源的跨平台工具集软件,兼容Windows、macOS和Ubuntu系统。它整合了截屏、录屏、OCR识别、多语言翻译、多媒体处理、自动化操作录制、局域网传输等功能模块,旨在提高日常工作效率。该软件完全开源,为用户提供丰富实用的功能体验。
trocr-base-printed - 基于Transformer的OCR模型 专注印刷文本识别
GithubHuggingfaceTrOCRTransformer模型光学字符识别图像转文本开源项目模型自然语言处理
TrOCR是一种基于Transformer的光学字符识别模型,专门针对印刷文本设计。该模型采用图像Transformer编码器和文本Transformer解码器架构,在SROIE数据集上经过微调。TrOCR能高效处理单行文本图像,为OCR任务提供先进解决方案。这个开源项目适用于多种场景,可轻松集成到各类文本识别应用中。
tesseract.js-core - Tesseract OCR引擎的JavaScript WebAssembly实现
GithubOCRTesseract.jsWebAssembly图像识别开源项目
tesseract.js-core是tesseract.js的核心组件,将Tesseract OCR引擎从C语言编译为JavaScript WebAssembly。该项目提供跨平台的文字识别功能,适用于浏览器和Node.js环境。它包含构建脚本、JavaScript封装和第三方依赖,并对Tesseract进行了优化,增加了页面角度检测和图像旋转等功能。开发者可使用Docker构建,或运行最小示例测试其功能。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号