trocr-base-stage1

以Transformer为基础的图像文字识别预训练模型

Hugging Face 文本Transformer 开源项目光学字符识别 TrOCR 模型 Huggingface 图像Transformer Github

此预训练模型使用Transformer进行光学字符识别（OCR），为TrOCR模型的一部分。其图像编码器采用BEiT权重初始化，文本解码器则使用RoBERTa权重，处理图像为固定大小的16x16像素块并线性嵌入。适用于单行文本图像的OCR任务，并支持针对特定任务进行微调，兼容PyTorch实现。

InternViT-6B-448px-V1-5 - 提升视觉模型分辨率及多语言OCR精度

GithubHuggingfaceInternViT-6B-448px-V1-5OCR能力图像特征提取开源项目模型视觉基础模型高分辨率处理

InternViT-6B-448px-V1-5在InternViT-6B-448px-V1-2的基础上，通过动态调整训练图像分辨率和强化数据集质量来提高模型的高分辨率处理和OCR能力。该模型具有5540M参数，使用1到12块瓦片进行训练，并通过PaddleOCR进行了中英文OCR处理，增强了多语言OCR性能。建议在构建视觉语言模型时，使用最后一层的特征。

deep-text-recognition-benchmark - 基于深度学习方法的文本识别

GithubPyTorch场景文本识别开源项目数据集模型分析深度学习

该项目是一个开源的场景文本识别框架，通过四阶段的官方PyTorch实现，支持现有大多数STR模型。它允许在统一的数据集上，评估各个模块的性能表现，包括准确性、速度和内存需求，并已被多个国际竞赛验证。用户可使用预训练模型进行测试，或进行更深入研究。

pytorch-openai-transformer-lm - 基于PyTorch的OpenAI Transformer语言模型实现

GithubOpenAIPyTorchTransformer Language Model开源项目模型预训练

该项目实现了OpenAI Transformer语言模型在PyTorch中的复现，提供了预训练权重加载脚本及模型类。采用固定权重衰减和调度学习率优化模型，支持对ROCStories Cloze任务进行微调，效果接近原始TensorFlow实现。适用于深度学习研究和语言模型的生成与分类任务。

Florence-2-base-ft - 基于Transformers.js的图像识别文本生成引擎

Florence-2GithubHuggingfaceTransformers.js图像识别开源项目模型模型转换深度学习

Florence-2-base-ft是一个基于ONNX权重的图像识别模型，专门针对Web环境优化。通过Transformers.js框架，该模型能够实现图像描述生成等功能。开发者可以通过JavaScript API将图像分析能力集成到Web应用中，项目提供在线演示展示具体应用效果。

vit_base_r50_s16_384.orig_in21k_ft_in1k - ResNet-Vision Transformer混合模型用于高精度图像分类

GithubHuggingfaceImageNetResNetVision Transformertimm图像分类开源项目模型

本模型结合ResNet与Vision Transformer优势，在大规模ImageNet-21k数据集上预训练，并在ImageNet-1k上微调，实现高效准确的图像分类。具备9900万参数，支持384x384像素输入，可用于分类任务和特征提取。研究人员可通过timm库轻松应用此模型，进行推理或深入研究。

roberta-base - RoBERTa预训练语言模型用于多种自然语言处理任务

GithubHuggingfaceRoBERTa人工智能开源项目机器学习模型自然语言处理预训练模型

RoBERTa是基于Transformer架构的预训练语言模型，在大规模英文语料上使用掩码语言建模进行训练。它采用动态掩码和大批量训练等优化策略，在GLUE基准测试中表现出色。RoBERTa适用于序列分类、命名实体识别等任务的微调，能学习双向上下文表示，为NLP应用提供强大的特征提取能力。

keras-ocr - 基于Keras的开源文本检测和OCR解决方案

Githubkeras-ocr图像处理开源项目文字识别深度学习计算机视觉

keras-ocr是一个开源的文本检测和OCR工具包，集成了CRAFT检测模型和CRNN识别模型。该项目提供高级API用于训练和部署OCR流程，支持Python 3.6+和TensorFlow 2.0.0+环境。keras-ocr自带预训练模型，在COCO-Text验证集上表现接近主流云服务。它为开发者提供了一个灵活、高效且易于使用的OCR开发平台。

bigbird-roberta-base - 高性能长序列文本处理的稀疏注意力Transformer模型

BigBirdGithubHuggingfacetransformer模型开源项目模型深度学习自然语言处理长序列处理

BigBird-RoBERTa-base是一种基于块稀疏注意力机制的Transformer模型，可处理长达4096个token的序列。该模型在Books、CC-News、Stories和Wikipedia等大规模数据集上预训练，大幅降低了计算成本。在长文档摘要和长上下文问答等任务中，BigBird-RoBERTa-base展现出优秀性能。模型支持灵活配置注意力类型，可在默认的块稀疏模式和全注意力模式间切换，为超长序列文本处理提供了高效方案。

SimpleHTR - TensorFlow手写文本识别系统，支持单词和整行文本识别

CTC解码GithubIAM数据集TensorFlow字束搜索解码开源项目手写文字识别

本手写文本识别系统使用TensorFlow实现，并训练于IAM数据集。其能够识别单词和整行文本，验证集中3/4的单词被正确识别，字符错误率约为10%。系统提供预训练模型下载和多种解码器选项，包括适用于Windows的word beam search解码器。此外，还支持快速数据加载和训练设置，适合快速开发与部署文本识别应用。

surya_rec2 - Surya项目专用的光学字符识别模型

GithubHuggingfaceOCRSuryatransformers开源开源项目模型

surya_rec2是Surya项目的光学字符识别（OCR）组件，基于Transformers库开发。该模型旨在从图像中提取文本，可处理各种文档和图像场景。作为Surya项目的一部分，这个OCR模型致力于提高文本识别的准确性和效率。该模型采用CC-BY-NC-SA-4.0许可证发布，供非商业用途使用。

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com