Umi-OCR: 功能强大的免费开源OCR软件

Umi-OCR 文字识别 OCR软件批量识别截图OCR Github 开源项目

Ray

Umi-OCR

Umi-OCR: 功能强大的免费开源OCR软件

Umi-OCR是一款功能强大的开源OCR（光学字符识别）软件，完全免费且无需联网即可使用。它适用于Windows 7 x64及以上版本的操作系统，以及Linux x64系统。Umi-OCR采用高效的离线OCR引擎，内置多种语言识别库，可以满足用户多样化的文字识别需求。

主要特点

Umi-OCR具有以下突出特点：

免费开源：所有代码开放，用户可以免费使用和修改。
离线使用：无需联网即可进行OCR识别，保护用户隐私。
高效识别：采用高效的离线OCR引擎，识别速度快。
多语言支持：内置多国语言识别库，可识别多种语言文字。
功能丰富：支持截图OCR、批量OCR、PDF识别、二维码识别/生成等多种功能。
灵活调用：支持命令行、HTTP接口等多种外部调用方式。

主要功能

1. 截图OCR

截图OCR功能

截图OCR功能允许用户快速截取屏幕上的文字区域并进行识别。主要特点包括：

可以通过快捷键唤起截图功能
支持直接复制图片并粘贴到软件中进行识别
左侧图片预览栏可直接用鼠标划选复制
右侧识别记录栏可编辑文字，支持多选复制

此外，截图OCR还支持文本后处理功能，可以整理OCR结果的排版和顺序，使文本更适合阅读和使用。预设的排版解析方案包括：

多栏-按自然段换行：适合大部分情景，自动识别多栏布局
多栏-总是换行：每段语句都进行换行
多栏-无换行：强制将所有语句合并到同一行
单栏-按自然段换行/总是换行/无换行：与多栏类似，但不区分多栏布局
单栏-保留缩进：适用于解析代码截图，保留行首缩进和行中空格
不做处理：OCR引擎的原始输出，默认每段语句都进行换行

这些排版方案均能自动处理横排和竖排（从右到左）的排版。

2. 批量OCR

批量OCR功能

批量OCR功能用于批量识别本地图片。主要特点包括：

支持多种图片格式：jpg, jpeg, png, webp, bmp, tif等
可保存识别结果为txt, jsonl, md, csv(Excel)等格式
支持文本后处理功能，整理OCR文本的排版和顺序
无数量上限，可一次性导入几百张图片进行任务
支持任务完成后自动关机/待机
特殊功能：忽略区域

忽略区域功能允许用户排除图片中不需要识别的区域，如水印或logo。用户可以在批量识别页的右栏设置中进入忽略区域编辑器，通过绘制矩形框来标记需要忽略的区域。

3. 文档识别

文档识别功能

文档识别功能支持对PDF、XPS、EPUB、MOBI等格式的文档进行OCR识别。主要特点包括：

支持多种文档格式：pdf, xps, epub, mobi, fb2, cbz
可对扫描件进行OCR，或提取原有文本
可输出为双层可搜索PDF
支持设定忽略区域，可用于排除页眉页脚的文字
可设置任务完成后自动关机/休眠

4. 二维码功能

二维码功能

Umi-OCR还提供了二维码相关功能：

扫码：
- 支持截图/粘贴/拖入本地图片来读取二维码和条形码
- 支持一图多码
- 支持19种协议，包括QR Code、Data Matrix、EAN-13等
生成码：
- 可输入文本生成二维码图片
- 支持19种协议和纠错等级等参数设置

全局设置

全局设置

Umi-OCR提供了丰富的全局设置选项，用户可以根据自己的需求进行个性化配置：

一键添加快捷方式或设置开机自启
更改界面语言，支持简体中文、繁体中文、英语、日语等
切换界面主题，提供多个亮/暗主题选择
调整界面文字大小和字体
切换OCR插件
调整渲染器设置，解决可能出现的界面显示问题

调用接口

Umi-OCR还提供了多种外部调用接口，方便开发者集成到自己的项目中：

命令行接口：可通过命令行参数控制Umi-OCR的各项功能
HTTP接口：提供RESTful API，允许通过HTTP请求调用Umi-OCR的功能

本地化翻译

Umi-OCR支持多语言界面，目前已有多位贡献者参与了软件的本地化翻译工作。项目使用Weblate在线平台进行翻译协作，欢迎更多用户参与翻译工作，帮助Umi-OCR支持更多语言。

项目结构

Umi-OCR项目由多个仓库组成：

主仓库：包含核心代码和资源
插件库：存放各种OCR引擎插件
Windows运行库：Windows平台所需的运行环境
Linux运行库：Linux平台所需的运行环境

构建项目

对于开发者，Umi-OCR提供了详细的构建说明。用户可以从GitHub下载源码，按照指南进行本地构建和开发。

总之，Umi-OCR是一款功能丰富、性能强大的开源OCR软件，无论是普通用户还是开发者，都能从中获得高效的文字识别体验。它的开源特性也使得社区可以不断改进和扩展其功能，为用户提供更好的使用体验。

0

0

0

相关项目

Project Cover

Umi-OCR_v2

Umi-OCR是一款开源的光学字符识别软件，支持多语言识别、批量处理和自定义识别区域。项目已完成v2版本重构并发布2.0.0正式版，迁移至主仓库继续更新。Umi-OCR作为长期项目，将持续优化识别精度和用户体验。

Project Cover

Umi-OCR

Umi-OCR是一款开源的文字识别工具，适用于Windows和Linux系统。它提供离线OCR引擎，支持截图识别、批量识别、PDF识别等功能。软件还具备二维码识别和生成、公式识别等特性。Umi-OCR支持多语言界面，可通过命令行和HTTP接口调用，是一款功能全面的OCR解决方案。

相关文章

Article Cover

Umi-OCR v2: 强大灵活的开源OCR软件

2024年09月05日

最新项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能，包括文生视频、动态画面和形象生成等，帮助用户快速上手，创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台，用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品，帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型，为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能，满足事务性工作的高频需求，帮助撰稿人节省精力，提高效率，优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号