OCR数据集大全:助力文字识别研究与应用

Ray

OCR_DataSet

引言

光学字符识别(Optical Character Recognition, OCR)作为计算机视觉和人工智能的重要分支,在信息数字化、智能信息处理等领域发挥着越来越重要的作用。高质量、大规模的数据集是推动OCR技术进步的关键因素之一。本文全面梳理了OCR领域的各类数据集,为相关研究人员和开发者提供参考。

场景文本数据集

场景文本识别是OCR技术的一个重要应用方向,主要处理自然场景中的文字信息。以下是一些常用的场景文本数据集:

ICDAR系列数据集

ICDAR(International Conference on Document Analysis and Recognition)作为文档分析与识别领域的顶级会议,发布了多个具有影响力的数据集:

  1. ICDAR 2003/2005: 包含258张训练图像和251张测试图像,主要用于文本检测和识别任务。

  2. ICDAR 2011-2015 Born-Digital Images: 包含410张训练图像和141张测试图像,针对网页、邮件等数字生成的图像。

  3. ICDAR 2013 Focused Scene Text: 包含229张训练图像和233张测试图像,聚焦于自然场景中的文本。

  4. ICDAR 2015 Incidental Scene Text: 包含1000张训练图像和500张测试图像,难度更高,文本可能是倾斜或弯曲的。

  5. ICDAR 2017/2019 MLT: 多语言场景文本数据集,包含中文、英文、日文等多种语言。

这些数据集涵盖了不同难度和场景的文本识别任务,是OCR领域的基准数据集。

COCO-Text

COCO-Text是基于Microsoft COCO数据集构建的大规模场景文本数据集。它包含63,686张图像,超过145,000个文本实例,涵盖了各种自然场景。

COCO-Text示例图

Total-Text

Total-Text数据集专注于弯曲文本的检测和识别。它包含1555张图像,共11,459个文本实例,文本形状多样,包括水平、多方向和弯曲文本。

SCUT-CTW1500

SCUT-CTW1500数据集包含1500张图像,专门用于任意形状文本的检测。其中包含超过10,000个文本实例,涵盖了英文和中文。

Chinese Text in the Wild (CTW)

CTW是一个大规模的中文场景文本数据集,包含32,285张图像和1,018,402个中文字符标注。它涵盖了各种复杂场景,对中文OCR研究具有重要价值。

文档文本数据集

文档文本识别是OCR的传统应用领域,主要处理扫描文档、表格等结构化文本。以下是一些常用的文档文本数据集:

FUNSD

FUNSD(Form Understanding in Noisy Scanned Documents)数据集专注于表单理解任务。它包含199份带注释的表单,共9,707个单词实例,适用于文档布局分析和信息提取任务。

SROIE

SROIE(Scanned Receipts OCR and Information Extraction)数据集包含626张收据图像,用于收据OCR和关键信息提取任务。

NAF

NAF(Name and Address Form)数据集包含682份表单,主要用于姓名地址等结构化信息的提取任务。

NAF数据集示例

DDI-100

DDI-100(Distorted Document Images)是一个包含约100,000张带有各种扭曲的文档图像的数据集,用于研究文档图像校正和OCR任务。

手写文本数据集

手写文本识别是OCR技术的一个重要分支,具有较高的应用价值。以下是一些常用的手写文本数据集:

IAM Handwriting Database

IAM是一个广泛使用的英文手写数据集,包含1539份手写文档的13353行文本。

KHATT

KHATT(KFUPM Handwritten Arabic TexT)是一个阿拉伯语手写文本数据集,包含2000多名书写者的样本,共4000多页文本。

CASIA-HWDB

中科院自动化所开发的中文手写数据库,包含超过320万个中文字符样本,是中文手写识别研究的重要数据集。

CASIA-HWDB示例

IIT-INDIC-HW-WORDS

IIT-INDIC-HW-WORDS是一个大规模的印度语系手写单词数据集,包含多种印度语言,共有872,000个单词实例。

视频文本数据集

随着视频内容的爆炸式增长,视频文本识别也成为OCR的一个重要研究方向。以下是一些视频文本数据集:

ICDAR 2013 Text in Videos

包含25个训练视频和24个测试视频,用于视频中的文本检测和识别任务。

RoadText-1K

RoadText-1K是一个用于自动驾驶场景的道路文本数据集,包含1000个视频片段,共30万帧图像。

LSVT

LSVT(Large-scale Street View Text)是一个大规模的中文街景文字数据集,包含30,000个训练样本和20,000个测试样本。

合成数据集

除了真实场景的数据集,研究人员还开发了多个合成数据集,用于扩充训练数据:

  1. Synth90k: 包含900万张合成文本图像,常用于文本识别预训练。

  2. SynthText: 在自然图像上合成的文本数据集,包含80万张图像。

  3. UnrealText: 基于虚幻引擎生成的合成场景文本数据集。

这些合成数据集在提升模型泛化能力方面发挥了重要作用。

结论

本文全面介绍了OCR领域的各类数据集,涵盖了场景文本、文档文本、手写文本、视频文本等多个方向。这些数据集为OCR技术的研究与应用提供了丰富的资源。研究人员可以根据具体的应用场景和研究目标,选择合适的数据集进行模型训练和评估。

随着深度学习技术的发展,大规模高质量的数据集将继续推动OCR技术的进步。未来,我们期待看到更多针对特定场景和语言的专业数据集,以及融合多模态信息的复杂数据集,为OCR技术的进一步发展提供支持。

参考链接

  1. OCR Datasets GitHub仓库
  2. ICDAR竞赛官网
  3. COCO-Text项目主页
  4. 中科院手写数据库
avatar
0
0
0
相关项目
Project Cover

魔撰写作

魔撰写作是国内的AI写作平台,为写作者提供智能写作、文案提取、文风改写、多语言翻译等服务。利用AI技术,支持用户高效创作原创内容,润色文采,优化语句。适用于商务文案、学术文章和文艺创作,简化写作流程,提高效率。

Project Cover

OCRmyPDF

OCRmyPDF是一款开源的命令行工具,专门用于为扫描PDF文件添加OCR文本层。它支持多语言识别、页面旋转和倾斜校正,并能生成符合长期存储标准的PDF/A文件。此工具可优化PDF图像,常常生成比原文件更小的输出。OCRmyPDF利用多核处理技术,能高效处理大型文档,已在数百万PDF文件上得到验证。它为用户提供了将不可搜索的扫描文档转换为可搜索、可复制的PDF文件的简便方法。

Project Cover

OCR_DataSet

OCR_DataSet项目整合了13个知名的多语言OCR数据集,涵盖ICDAR2015、MLT2019和COCO-Text_v2等。项目特色包括数据格式统一化、便捷的百度网盘下载、详尽的数据集信息表和简化的读取脚本。此外,项目还提供了数据生成工具链接,为OCR领域的研究和开发工作提供了全面的资源支持。

Project Cover

Umi-OCR

Umi-OCR是一款开源的文字识别工具,适用于Windows和Linux系统。它提供离线OCR引擎,支持截图识别、批量识别、PDF识别等功能。软件还具备二维码识别和生成、公式识别等特性。Umi-OCR支持多语言界面,可通过命令行和HTTP接口调用,是一款功能全面的OCR解决方案。

Project Cover

wangfreexx-tianruoocr-cl-paddle

wangfreexx-tianruoocr-cl-paddle是一款开源的本地OCR识别软件,基于Chinese-lite和paddle-ocr技术。支持中文高效识别、条形码扫描和多种翻译接口,包括离线翻译功能。软件提供段落合并和自定义设置,适用于64位Windows系统,无需网络即可进行OCR识别。该项目为用户提供了一个全面的本地文字识别和翻译解决方案。

Project Cover

tessdoc

Tesseract是一款功能强大的开源OCR引擎,支持100多种语言和35种以上的文字。它提供命令行和API接口,可从图像中精确提取文本。Tesseract采用LSTM神经网络技术,具有高度可定制性,并配备完善的训练测试工具。该引擎可跨平台使用,包括移动设备,为开发者提供了灵活的文字识别解决方案。

Project Cover

GrabText

GrabText提供免费在线OCR和图像文本识别服务,专注于手写文本和数学公式的精准转换。支持多种输出格式,包括txt、LaTeX、doc和pdf。用户只需上传图片,系统即可自动进行文本识别、拼写和语法校正。借助ChatGPT功能,GrabText进一步优化了文本处理的准确度和智能化水平。这一强大的图像转文本工具适用于学生、研究人员和各行业专业人士,为文字处理提供便捷高效的解决方案。无论是在线OCR、手写识别还是数学公式转换,GrabText都能满足您的需求。

Project Cover

mindocr

MindOCR是一个基于MindSpore的开源OCR开发工具箱,集成主流文本检测和识别算法。该工具箱提供易用的训练和推理接口,加速文本检测识别模型的开发和部署。MindOCR支持DBNet、CRNN等多种算法,采用模块化设计,并提供高性能预训练模型。研究人员和开发者可以利用MindOCR快速构建OCR应用,实现高效的图像文本理解。

Project Cover

keras-ocr

keras-ocr是一个开源的文本检测和OCR工具包,集成了CRAFT检测模型和CRNN识别模型。该项目提供高级API用于训练和部署OCR流程,支持Python 3.6+和TensorFlow 2.0.0+环境。keras-ocr自带预训练模型,在COCO-Text验证集上表现接近主流云服务。它为开发者提供了一个灵活、高效且易于使用的OCR开发平台。

最新项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号