OCR数据集大全：助力文字识别研究与应用

文字识别数据集图像标注深度学习计算机视觉 Github 开源项目

Ray

OCR_DataSet

引言

光学字符识别(Optical Character Recognition, OCR)作为计算机视觉和人工智能的重要分支,在信息数字化、智能信息处理等领域发挥着越来越重要的作用。高质量、大规模的数据集是推动OCR技术进步的关键因素之一。本文全面梳理了OCR领域的各类数据集,为相关研究人员和开发者提供参考。

场景文本数据集

场景文本识别是OCR技术的一个重要应用方向,主要处理自然场景中的文字信息。以下是一些常用的场景文本数据集:

ICDAR系列数据集

ICDAR(International Conference on Document Analysis and Recognition)作为文档分析与识别领域的顶级会议,发布了多个具有影响力的数据集:

ICDAR 2003/2005: 包含258张训练图像和251张测试图像,主要用于文本检测和识别任务。
ICDAR 2011-2015 Born-Digital Images: 包含410张训练图像和141张测试图像,针对网页、邮件等数字生成的图像。
ICDAR 2013 Focused Scene Text: 包含229张训练图像和233张测试图像,聚焦于自然场景中的文本。
ICDAR 2015 Incidental Scene Text: 包含1000张训练图像和500张测试图像,难度更高,文本可能是倾斜或弯曲的。
ICDAR 2017/2019 MLT: 多语言场景文本数据集,包含中文、英文、日文等多种语言。

这些数据集涵盖了不同难度和场景的文本识别任务,是OCR领域的基准数据集。

COCO-Text

COCO-Text是基于Microsoft COCO数据集构建的大规模场景文本数据集。它包含63,686张图像,超过145,000个文本实例,涵盖了各种自然场景。

COCO-Text示例图

Total-Text

Total-Text数据集专注于弯曲文本的检测和识别。它包含1555张图像,共11,459个文本实例,文本形状多样,包括水平、多方向和弯曲文本。

SCUT-CTW1500

SCUT-CTW1500数据集包含1500张图像,专门用于任意形状文本的检测。其中包含超过10,000个文本实例,涵盖了英文和中文。

Chinese Text in the Wild (CTW)

CTW是一个大规模的中文场景文本数据集,包含32,285张图像和1,018,402个中文字符标注。它涵盖了各种复杂场景,对中文OCR研究具有重要价值。

文档文本数据集

文档文本识别是OCR的传统应用领域,主要处理扫描文档、表格等结构化文本。以下是一些常用的文档文本数据集:

FUNSD

FUNSD(Form Understanding in Noisy Scanned Documents)数据集专注于表单理解任务。它包含199份带注释的表单,共9,707个单词实例,适用于文档布局分析和信息提取任务。

SROIE

SROIE(Scanned Receipts OCR and Information Extraction)数据集包含626张收据图像,用于收据OCR和关键信息提取任务。

NAF

NAF(Name and Address Form)数据集包含682份表单,主要用于姓名地址等结构化信息的提取任务。

NAF数据集示例

DDI-100

DDI-100(Distorted Document Images)是一个包含约100,000张带有各种扭曲的文档图像的数据集,用于研究文档图像校正和OCR任务。

手写文本数据集

手写文本识别是OCR技术的一个重要分支,具有较高的应用价值。以下是一些常用的手写文本数据集:

IAM Handwriting Database

IAM是一个广泛使用的英文手写数据集,包含1539份手写文档的13353行文本。

KHATT

KHATT(KFUPM Handwritten Arabic TexT)是一个阿拉伯语手写文本数据集,包含2000多名书写者的样本,共4000多页文本。

CASIA-HWDB

中科院自动化所开发的中文手写数据库,包含超过320万个中文字符样本,是中文手写识别研究的重要数据集。

CASIA-HWDB示例

IIT-INDIC-HW-WORDS

IIT-INDIC-HW-WORDS是一个大规模的印度语系手写单词数据集,包含多种印度语言,共有872,000个单词实例。

视频文本数据集

随着视频内容的爆炸式增长,视频文本识别也成为OCR的一个重要研究方向。以下是一些视频文本数据集:

ICDAR 2013 Text in Videos

包含25个训练视频和24个测试视频,用于视频中的文本检测和识别任务。

RoadText-1K

RoadText-1K是一个用于自动驾驶场景的道路文本数据集,包含1000个视频片段,共30万帧图像。

LSVT

LSVT(Large-scale Street View Text)是一个大规模的中文街景文字数据集,包含30,000个训练样本和20,000个测试样本。

合成数据集

除了真实场景的数据集,研究人员还开发了多个合成数据集,用于扩充训练数据:

Synth90k: 包含900万张合成文本图像,常用于文本识别预训练。
SynthText: 在自然图像上合成的文本数据集,包含80万张图像。
UnrealText: 基于虚幻引擎生成的合成场景文本数据集。

这些合成数据集在提升模型泛化能力方面发挥了重要作用。

结论

本文全面介绍了OCR领域的各类数据集,涵盖了场景文本、文档文本、手写文本、视频文本等多个方向。这些数据集为OCR技术的研究与应用提供了丰富的资源。研究人员可以根据具体的应用场景和研究目标,选择合适的数据集进行模型训练和评估。

随着深度学习技术的发展,大规模高质量的数据集将继续推动OCR技术的进步。未来,我们期待看到更多针对特定场景和语言的专业数据集,以及融合多模态信息的复杂数据集,为OCR技术的进一步发展提供支持。

参考链接

0

0

0

相关项目

Project Cover

魔撰写作

魔撰写作是国内的AI写作平台，为写作者提供智能写作、文案提取、文风改写、多语言翻译等服务。利用AI技术，支持用户高效创作原创内容，润色文采，优化语句。适用于商务文案、学术文章和文艺创作，简化写作流程，提高效率。

Project Cover

OCRmyPDF

OCRmyPDF是一款开源的命令行工具，专门用于为扫描PDF文件添加OCR文本层。它支持多语言识别、页面旋转和倾斜校正，并能生成符合长期存储标准的PDF/A文件。此工具可优化PDF图像，常常生成比原文件更小的输出。OCRmyPDF利用多核处理技术，能高效处理大型文档，已在数百万PDF文件上得到验证。它为用户提供了将不可搜索的扫描文档转换为可搜索、可复制的PDF文件的简便方法。

Project Cover

OCR_DataSet

OCR_DataSet项目整合了13个知名的多语言OCR数据集，涵盖ICDAR2015、MLT2019和COCO-Text_v2等。项目特色包括数据格式统一化、便捷的百度网盘下载、详尽的数据集信息表和简化的读取脚本。此外，项目还提供了数据生成工具链接，为OCR领域的研究和开发工作提供了全面的资源支持。

Project Cover

Umi-OCR

Umi-OCR是一款开源的文字识别工具，适用于Windows和Linux系统。它提供离线OCR引擎，支持截图识别、批量识别、PDF识别等功能。软件还具备二维码识别和生成、公式识别等特性。Umi-OCR支持多语言界面，可通过命令行和HTTP接口调用，是一款功能全面的OCR解决方案。

Project Cover

wangfreexx-tianruoocr-cl-paddle

wangfreexx-tianruoocr-cl-paddle是一款开源的本地OCR识别软件，基于Chinese-lite和paddle-ocr技术。支持中文高效识别、条形码扫描和多种翻译接口，包括离线翻译功能。软件提供段落合并和自定义设置，适用于64位Windows系统，无需网络即可进行OCR识别。该项目为用户提供了一个全面的本地文字识别和翻译解决方案。

Project Cover

tessdoc

Tesseract是一款功能强大的开源OCR引擎，支持100多种语言和35种以上的文字。它提供命令行和API接口，可从图像中精确提取文本。Tesseract采用LSTM神经网络技术，具有高度可定制性，并配备完善的训练测试工具。该引擎可跨平台使用，包括移动设备，为开发者提供了灵活的文字识别解决方案。

Project Cover

GrabText

GrabText提供免费在线OCR和图像文本识别服务，专注于手写文本和数学公式的精准转换。支持多种输出格式，包括txt、LaTeX、doc和pdf。用户只需上传图片，系统即可自动进行文本识别、拼写和语法校正。借助ChatGPT功能，GrabText进一步优化了文本处理的准确度和智能化水平。这一强大的图像转文本工具适用于学生、研究人员和各行业专业人士，为文字处理提供便捷高效的解决方案。无论是在线OCR、手写识别还是数学公式转换，GrabText都能满足您的需求。

Project Cover

mindocr

MindOCR是一个基于MindSpore的开源OCR开发工具箱，集成主流文本检测和识别算法。该工具箱提供易用的训练和推理接口，加速文本检测识别模型的开发和部署。MindOCR支持DBNet、CRNN等多种算法，采用模块化设计，并提供高性能预训练模型。研究人员和开发者可以利用MindOCR快速构建OCR应用，实现高效的图像文本理解。

Project Cover

keras-ocr

keras-ocr是一个开源的文本检测和OCR工具包，集成了CRAFT检测模型和CRNN识别模型。该项目提供高级API用于训练和部署OCR流程，支持Python 3.6+和TensorFlow 2.0.0+环境。keras-ocr自带预训练模型，在COCO-Text验证集上表现接近主流云服务。它为开发者提供了一个灵活、高效且易于使用的OCR开发平台。

相关文章

Article Cover

Tesseract OCR：强大的开源文字识别引擎

2024年09月05日

Article Cover

Tesseract OCR: 强大的开源文字识别引擎

2024年09月05日

Article Cover

MindOCR: 基于 MindSpore 的强大光学字符识别工具箱

2024年09月05日

Article Cover

天若OCR开源版本的本地化实现:wangfreexx-tianruoocr-cl-paddle深度解析

2024年09月05日

Article Cover

Umi-OCR: 功能强大的免费开源OCR软件

2024年09月05日

Article Cover

keras-ocr: 一个灵活强大的OCR工具包

2024年09月05日

Article Cover

DAVAR-Lab-OCR: 海康威视研究院开源的OCR工具箱

2024年09月05日

Article Cover

JamTools: 全能跨平台工具集，提升日常效率的开源利器

2024年09月05日

Article Cover

Textln：智能文字识别的先锋

最新项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能，包括文生视频、动态画面和形象生成等，帮助用户快速上手，创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台，用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品，帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型，为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能，满足事务性工作的高频需求，帮助撰稿人节省精力，提高效率，优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号