Umi-OCR: 功能强大的免费开源OCR软件

Umi-OCR

Umi-OCR: 功能强大的免费开源OCR软件

Umi-OCR是一款功能强大的开源OCR（光学字符识别）软件，完全免费且无需联网即可使用。它适用于Windows 7 x64及以上版本的操作系统，以及Linux x64系统。Umi-OCR采用高效的离线OCR引擎，内置多种语言识别库，可以满足用户多样化的文字识别需求。

主要特点

Umi-OCR具有以下突出特点：

免费开源：所有代码开放，用户可以免费使用和修改。
离线使用：无需联网即可进行OCR识别，保护用户隐私。
高效识别：采用高效的离线OCR引擎，识别速度快。
多语言支持：内置多国语言识别库，可识别多种语言文字。
功能丰富：支持截图OCR、批量OCR、PDF识别、二维码识别/生成等多种功能。
灵活调用：支持命令行、HTTP接口等多种外部调用方式。

主要功能

1. 截图OCR

截图OCR功能

截图OCR功能允许用户快速截取屏幕上的文字区域并进行识别。主要特点包括：

可以通过快捷键唤起截图功能
支持直接复制图片并粘贴到软件中进行识别
左侧图片预览栏可直接用鼠标划选复制
右侧识别记录栏可编辑文字，支持多选复制

此外，截图OCR还支持文本后处理功能，可以整理OCR结果的排版和顺序，使文本更适合阅读和使用。预设的排版解析方案包括：

多栏-按自然段换行：适合大部分情景，自动识别多栏布局
多栏-总是换行：每段语句都进行换行
多栏-无换行：强制将所有语句合并到同一行
单栏-按自然段换行/总是换行/无换行：与多栏类似，但不区分多栏布局
单栏-保留缩进：适用于解析代码截图，保留行首缩进和行中空格
不做处理：OCR引擎的原始输出，默认每段语句都进行换行

这些排版方案均能自动处理横排和竖排（从右到左）的排版。

2. 批量OCR

批量OCR功能

批量OCR功能用于批量识别本地图片。主要特点包括：

支持多种图片格式：jpg, jpeg, png, webp, bmp, tif等
可保存识别结果为txt, jsonl, md, csv(Excel)等格式
支持文本后处理功能，整理OCR文本的排版和顺序
无数量上限，可一次性导入几百张图片进行任务
支持任务完成后自动关机/待机
特殊功能：忽略区域

忽略区域功能允许用户排除图片中不需要识别的区域，如水印或logo。用户可以在批量识别页的右栏设置中进入忽略区域编辑器，通过绘制矩形框来标记需要忽略的区域。

3. 文档识别

文档识别功能

文档识别功能支持对PDF、XPS、EPUB、MOBI等格式的文档进行OCR识别。主要特点包括：

支持多种文档格式：pdf, xps, epub, mobi, fb2, cbz
可对扫描件进行OCR，或提取原有文本
可输出为双层可搜索PDF
支持设定忽略区域，可用于排除页眉页脚的文字
可设置任务完成后自动关机/休眠

4. 二维码功能

二维码功能

Umi-OCR还提供了二维码相关功能：

扫码：
- 支持截图/粘贴/拖入本地图片来读取二维码和条形码
- 支持一图多码
- 支持19种协议，包括QR Code、Data Matrix、EAN-13等
生成码：
- 可输入文本生成二维码图片
- 支持19种协议和纠错等级等参数设置

全局设置

Umi-OCR提供了丰富的全局设置选项，用户可以根据自己的需求进行个性化配置：

一键添加快捷方式或设置开机自启
更改界面语言，支持简体中文、繁体中文、英语、日语等
切换界面主题，提供多个亮/暗主题选择
调整界面文字大小和字体
切换OCR插件
调整渲染器设置，解决可能出现的界面显示问题

调用接口

Umi-OCR还提供了多种外部调用接口，方便开发者集成到自己的项目中：

命令行接口：可通过命令行参数控制Umi-OCR的各项功能
HTTP接口：提供RESTful API，允许通过HTTP请求调用Umi-OCR的功能

本地化翻译

Umi-OCR支持多语言界面，目前已有多位贡献者参与了软件的本地化翻译工作。项目使用Weblate在线平台进行翻译协作，欢迎更多用户参与翻译工作，帮助Umi-OCR支持更多语言。

项目结构

Umi-OCR项目由多个仓库组成：

主仓库：包含核心代码和资源
插件库：存放各种OCR引擎插件
Windows运行库：Windows平台所需的运行环境
Linux运行库：Linux平台所需的运行环境

构建项目

对于开发者，Umi-OCR提供了详细的构建说明。用户可以从GitHub下载源码，按照指南进行本地构建和开发。

总之，Umi-OCR是一款功能丰富、性能强大的开源OCR软件，无论是普通用户还是开发者，都能从中获得高效的文字识别体验。它的开源特性也使得社区可以不断改进和扩展其功能，为用户提供更好的使用体验。

Umi-OCR: 功能强大的免费开源OCR软件