mindocr

基于MindSpore的开源OCR工具包实现高效文本检测与识别

MindOCR OCR工具箱 MindSpore 文本检测文字识别 Github 开源项目

MindOCR是一个基于MindSpore的开源OCR开发工具箱，集成主流文本检测和识别算法。该工具箱提供易用的训练和推理接口，加速文本检测识别模型的开发和部署。MindOCR支持DBNet、CRNN等多种算法，采用模块化设计，并提供高性能预训练模型。研究人员和开发者可以利用MindOCR快速构建OCR应用，实现高效的图像文本理解。

访问官网

Github

Huggingface

介绍相关项目

gosseract - Go语言OCR解决方案利用Tesseract C++库

GithubGo语言OCRTesseractgosseract图像识别开源项目

gosseract是一个Go语言OCR包，利用Tesseract C++库实现光学字符识别。它支持多种图像格式，提供简单API和丰富配置选项。项目包含一个可快速部署的OCR服务器应用，适用于文档数字化、图像文本提取等场景。gosseract支持多语言识别，可轻松集成到各类Go项目中。

MindSearch - 开源AI搜索引擎框架，支持深度知识探索

AI搜索引擎GithubMindSearch人类偏好开源框架开源项目知识发现

MindSearch是一个开源的AI搜索引擎框架，支持Perplexity.ai Pro性能。用户可以使用GPT、Claude等闭源LLM或InternLM2.5-7b-chat等开源LLM，轻松部署类似Perplexity.ai风格的搜索引擎。MindSearch能够解决各种问题，通过浏览数百个网页提供深入的知识，并优化用户界面体验。它通过动态图构建过程，将用户查询分解为多个子问题，逐步扩展搜索图，显著提高响应的深度、广度和准确性。

Text-Grab - 多功能OCR工具实现屏幕文本快速提取与编辑

GithubOCRWindows应用开源项目快速查找文本提取文本编辑

Text Grab是一款Windows平台的OCR工具，可从屏幕、图像和视频中提取文本。它提供全屏抓取、框选抓取、文本编辑和快速查找等功能，支持本地OCR识别，无需后台运行。该工具还具备文本处理、正则提取和批量图像OCR等功能，适用于提高文字工作效率。

ExtractThinker - 使用 LLM 从文件和文档中提取数据的库

ExtractThinkerGithubLLMs开源项目数据提取文档处理智能文档

ExtractThinker提供智能文件数据提取，支持Tesseract OCR、Azure Form Recognizer和AWS TextExtract等多种文档加载器。适用于异步处理、多种格式和ORM风格操作的模块化架构，并与LangChain生态系统兼容。专注于智能文档处理，大幅提升数据提取准确率，适用于发票、驾照等多场景。

TFT-OCR-BOT - 云顶之弈自动化智能助手

GithubOCRPythonTFT开源项目游戏辅助自动化

TFT-OCR-BOT是一个为《云顶之弈》(TFT)游戏开发的开源项目。该工具通过OCR技术识别游戏界面信息,自动执行队伍搭配、装备合成等操作。项目功能包括自动排队、智能选秀、装备管理,并提供图形化的阵容编辑器。TFT-OCR-BOT能够实时识别游戏状态,为《云顶之弈》玩家提供全方位的自动化辅助。

trocr-small-printed - 基于Transformer的印刷文本OCR模型

GithubHuggingfaceTrOCR人工智能光学字符识别图像转文本开源项目模型深度学习

trocr-small-printed是一个专为印刷文本设计的OCR模型。该模型采用图像和文本Transformer架构，在SROIE数据集上经过微调，能够从单行文本图像中准确提取文字。它适用于多种印刷文档的文本识别任务，为自动化信息提取提供了有效工具。

LLaVAR - 优化视觉指令微调的文本丰富图像理解模型

GithubLLaVAROCR能力多模态大语言模型开源项目文本丰富图像理解视觉指令微调

LLaVAR项目致力于增强大型语言模型对文本丰富图像的理解能力。通过改进视觉指令微调方法，该项目显著提升了模型在OCR相关任务上的表现。LLaVAR开源了模型权重、训练数据，并提供了环境配置、训练脚本和评估方法，为相关研究和开发提供了全面支持。

mmdetection - MMDetection：基于PyTorch的高效目标检测工具箱

GithubMM-Grounding-DINOMMDetectionOpenMMLabPyTorchRTMDet开源项目

MMDetection是一款专为目标检测、实例分割和全景分割任务设计的工具箱，采用模块化设计，支持多种检测任务，具备高效GPU运算能力。其性能与其他顶级代码库相媲美，且不断保持前沿。结合COCO挑战赛冠军经验，MMDetection提供先进的检测结果，并与MMEngine和MMCV无缝整合，进一步提升研究和应用效果。最新的RTMDet模型在参数-准确率优化及实时实例分割和旋转目标检测上表现出色。

normcap - 跨平台OCR截图工具智能提取文本信息

GithubNormCapOCR开源开源项目截图工具跨平台

NormCap是一款基于OCR技术的屏幕截图工具，适用于Linux、macOS和Windows系统。这款开源软件不仅可以捕获图像，还能智能识别并提取图像中的文本信息。NormCap支持多语言识别，界面简洁易用。无论是日常办公还是学术研究，NormCap都能协助快速获取所需的文字内容，提高工作效率。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号