parseq

创新的场景文本识别统一模型

场景文本识别 PARSeq 深度学习计算机视觉 ECCV Github 开源项目

PARSeq是一种创新的场景文本识别模型，采用置换自回归序列方法，实现了上下文无关和上下文感知推理及迭代预测细化。该模型统一了现有STR解码方法，无需独立语言模型，在多个基准数据集上展现出优异性能，同时保持较低计算成本。PARSeq支持灵活的字符集训练和多种评估配置，为OCR应用提供了高效而强大的解决方案。

访问官网

Github

Huggingface

介绍相关项目

tr - 高效的离线OCR文本识别与文档理解SDK

CRNNGithubOCRTransformertr多模态大模型开源项目

tr是一款离线OCR文本识别SDK，核心采用C++开发并提供Python接口，支持多行文本识别和多模态大模型集成。tr结合CRNN与TransformerEncoder，提供高效且资源占用低的OCR解决方案，适用于如弯曲文本和图表等复杂场景。最新版本优化了C++接口、支持Python2、多线程功能，并去除了对opencv-python和Pillow的依赖。提供简洁的下载与安装指引，及详细的示例代码便于快速部署和测试。

awesome-ocr - 综合OCR工具和技术资源库

GithubOCR图像处理开源项目文本检测文档分析深度学习

该项目整合了OCR领域的多种前沿工具和技术，涵盖图像校正、文本检测、表格识别和手写识别等方面。它提供了从预处理到后处理的完整OCR解决方案，包含大量开源实现和相关研究论文链接。这个资源库对从事文档分析和文本提取的开发者及研究人员具有重要参考价值。

image-text-localization-recognition - 场景文本检测与识别研究进展资源汇总

Github人工智能场景文本检测开源项目文本识别深度学习计算机视觉

该项目汇总了场景文本检测与识别领域的最新研究成果,包含牛津大学、深圳先进技术研究院、华南理工大学等机构发表的论文和开源代码。内容覆盖文本检测、文本识别、端到端文本识别等方向,为相关研究提供全面参考。项目保持更新,持续跟踪领域进展,是场景文本分析研究的重要资源库。

ParroT - 利用人工翻译和反馈优化的大语言模型对话翻译框架

GithubParroT人工反馈大语言模型开源项目指令微调翻译

ParroT是一个开源对话翻译框架，融合大语言模型与人工翻译数据，提升翻译质量。该框架将翻译任务转化为指令跟随形式，并通过'提示'字段引入额外要求，实现更精准的翻译控制。项目包含预训练模型、指令数据集和训练脚本，并采用闪存注意力机制和LoRA等优化技术，以提高模型效率。这一创新方法为改进机器翻译和对话系统提供了新思路。

parrot_paraphraser_on_T5 - Parrot：多功能文本复述框架优化NLU训练

GithubHuggingfaceParrot开源项目改写文本增强机器学习模型自然语言理解

Parrot是一个基于T5模型的文本复述框架，旨在加速自然语言理解（NLU）模型的训练过程。这个工具提供了可调节的参数来控制复述的充分性、流畅性和多样性，不仅能生成高质量的复述，还能保持原始意图和实体。Parrot易于安装和使用，适用于对话系统和语音助手等场景的NLU数据增强。其灵活性和效果使其成为NLU模型开发中的实用工具。

bert-base-parsbert-uncased - 基于BERT的波斯语自然语言处理模型ParsBERT

BERTGithubHuggingfaceParsBERT开源项目模型波斯语言模型深度学习自然语言处理

ParsBERT是一个基于BERT架构的波斯语预训练模型，使用超过200万份多样化文档构建而成。该模型在情感分析、文本分类和命名实体识别等任务中表现卓越，优于多语言BERT等其他模型。ParsBERT采用全词遮蔽策略，为波斯语自然语言处理研究奠定了坚实基础，推动了相关技术的发展。

Open-MAGVIT2 - 自回归视觉生成新突破大幅提升图像分词性能

GithubOpen-MAGVIT2图像分词器大规模词表开源项目自回归模型视觉生成

Open-MAGVIT2是一个创新的自回归视觉生成项目，采用无查找技术和262144大小的码本，克服了VQGAN的局限性。该项目用PyTorch重新实现MAGVIT2分词器，在图像分词方面取得显著进展，8倍下采样时rFID达到0.39。项目致力于推动自回归视觉生成领域发展，目前处于积极开发阶段，未来计划拓展至视频生成领域。

llava-interleave-qwen-0.5b-hf - 多模态模型中的图像到文本生成的应用与研究

GithubHuggingfaceLLaVA Interleave图像文本转换多模态模型开源项目机器学习模型自然语言处理

LLaVA Interleave是基于变换器架构进行优化的开源自回归语言模型，专注于多模态大模型和聊天机器人的研究，支持多图像和多提示生成，适用于计算机视觉和自然语言处理领域的研究人员和爱好者。在遵循开放许可证要求的前提下，模型提升了图像到文本的生成能力。通过4比特量化和Flash Attention 2优化策略，显著提高了生成效率。

bart-paraphrase - BART大型语言模型文本释义转换工具

BARTGithubHuggingface开源项目文本生成机器翻译模型模型微调自然语言处理

BART文本释义模型基于序列到序列架构开发,整合了BERT双向编码器与GPT单向解码器技术,通过Quora、PAWS和MSR数据集训练,实现文本的变换与释义功能。模型提供简洁的API接口,便于集成到自然语言处理应用中。

parrots - 支持多语言的语音识别与语音合成工具套件

GithubParrots多语言支持开源项目自动化语音合成语音识别

Parrots工具套件整合了先进的多语言语音识别与语音合成技术，提供中文、英文及日文支持。其功能强大的ASR与TTS模型旨在为开发者打造快速、高效的语音交互体验。安装简便，适合处理多种语言的语音数据。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号