#文本解码器

pix2struct-base - Pix2Struct预训练模型，实现多语言视觉-文本任务

文本解码器开源项目模型GithubHuggingfacePix2Struct视觉语言理解图像编码器预训练

Pix2Struct是一种预训练的图像-文本模型，专用于多种任务，如图像字幕生成和视觉问答。该模型通过解析网页截图为简化HTML进行预训练，在文档、插图、用户界面和自然图像领域实现出色性能，灵活整合语言和视觉输入。

nougat-small - 神经网络驱动的学术PDF到Markdown转换模型

学术文档识别开源项目Huggingface模型视觉编码器PDF转MarkdownGithub文本解码器Nougat

Nougat-small是一个专门用于将学术PDF转换为Markdown格式的开源模型。它结合了Swin Transformer视觉编码器和mBART文本解码器，通过分析PDF图像像素来生成对应的Markdown内容。作为Nougat项目的轻量级版本，该模型旨在提升学术文献处理的效率。它为研究人员提供了一种简化PDF文档转换和分析的工具，有助于提高学术工作流程的效率。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号