Umi-OCR: 功能强大的免费开源OCR软件
Umi-OCR是一款功能强大的开源OCR(光学字符识别)软件,完全免费且无需联网即可使用。它适用于Windows 7 x64及以上版本的操作系统,以及Linux x64系统。Umi-OCR采用高效的离线OCR引擎,内置多种语言识别库,可以满足用户多样化的文字识别需求。
主要特点
Umi-OCR具有以下突出特点:
-
免费开源:所有代码开放,用户可以免费使用和修改。
-
离线使用:无需联网即可进行OCR识别,保护用户隐私。
-
高效识别:采用高效的离线OCR引擎,识别速度快。
-
多语言支持:内置多国语言识别库,可识别多种语言文字。
-
功能丰富:支持截图OCR、批量OCR、PDF识别、二维码识别/生成等多种功能。
-
灵活调用:支持命令行、HTTP接口等多种外部调用方式。
主要功能
1. 截图OCR
截图OCR功能允许用户快速截取屏幕上的文字区域并进行识别。主要特点包括:
- 可以通过快捷键唤起截图功能
- 支持直接复制图片并粘贴到软件中进行识别
- 左侧图片预览栏可直接用鼠标划选复制
- 右侧识别记录栏可编辑文字,支持多选复制
此外,截图OCR还支持文本后处理功能,可以整理OCR结果的排版和顺序,使文本更适合阅读和使用。预设的排版解析方案包括:
- 多栏-按自然段换行:适合大部分情景,自动识别多栏布局
- 多栏-总是换行:每段语句都进行换行
- 多栏-无换行:强制将所有语句合并到同一行
- 单栏-按自然段换行/总是换行/无换行:与多栏类似,但不区分多栏布局
- 单栏-保留缩进:适用于解析代码截图,保留行首缩进和行中空格
- 不做处理:OCR引擎的原始输出,默认每段语句都进行换行
这些排版方案均能自动处理横排和竖排(从右到左)的排版。
2. 批量OCR
批量OCR功能用于批量识别本地图片。主要特点包括:
- 支持多种图片格式:jpg, jpeg, png, webp, bmp, tif等
- 可保存识别结果为txt, jsonl, md, csv(Excel)等格式
- 支持文本后处理功能,整理OCR文本的排版和顺序
- 无数量上限,可一次性导入几百张图片进行任务
- 支持任务完成后自动关机/待机
- 特殊功能:忽略区域
忽略区域功能允许用户排除图片中不需要识别的区域,如水印或logo。用户可以在批量识别页的右栏设置中进入忽略区域编辑器,通过绘制矩形框来标记需要忽略的区域。
3. 文档识别
文档识别功能支持对PDF、XPS、EPUB、MOBI等格式的文档进行OCR识别。主要特点包括:
- 支持多种文档格式:pdf, xps, epub, mobi, fb2, cbz
- 可对扫描件进行OCR,或提取原有文本
- 可输出为双层可搜索PDF
- 支持设定忽略区域,可用于排除页眉页脚的文字
- 可设置任务完成后自动关机/休眠
4. 二维码功能
Umi-OCR还提供了二维码相关功能:
-
扫码:
- 支持截图/粘贴/拖入本地图片来读取二维码和条形码
- 支持一图多码
- 支持19种协议,包括QR Code、Data Matrix、EAN-13等
-
生成码:
- 可输入文本生成二维码图片
- 支持19种协议和纠错等级等参数设置
全局设置
Umi-OCR提供了丰富的全局设置选项,用户可以根据自己的需求进行个性化配置:
- 一键添加快捷方式或设置开机自启
- 更改界面语言,支持简体中文、繁体中文、英语、日语等
- 切换界面主题,提供多个亮/暗主题选择
- 调整界面文字大小和字体
- 切换OCR插件
- 调整渲染器设置,解决可能出现的界面显示问题
调用接口
Umi-OCR还提供了多种外部调用接口,方便开发者集成到自己的项目中:
- 命令行接口:可通过命令行参数控制Umi-OCR的各项功能
- HTTP接口:提供RESTful API,允许通过HTTP请求调用Umi-OCR的功能
本地化翻译
Umi-OCR支持多语言界面,目前已有多位贡献者参与了软件的本地化翻译工作。项目使用Weblate在线平台进行翻译协作,欢迎更多用户参与翻译工作,帮助Umi-OCR支持更多语言。
项目结构
Umi-OCR项目由多个仓库组成:
- 主仓库:包含核心代码和资源
- 插件库:存放各种OCR引擎插件
- Windows运行库:Windows平台所需的运行环境
- Linux运行库:Linux平台所需的运行环境
构建项目
对于开发者,Umi-OCR提供了详细的构建说明。用户可以从GitHub下载源码,按照指南进行本地构建和开发。
总之,Umi-OCR是一款功能丰富、性能强大的开源OCR软件,无论是普通用户还是开发者,都能从中获得高效的文字识别体验。它的开源特性也使得社区可以不断改进和扩展其功能,为用户提供更好的使用体验。