#文本解码器
pix2struct-base - Pix2Struct预训练模型,实现多语言视觉-文本任务
文本解码器开源项目模型GithubHuggingfacePix2Struct视觉语言理解图像编码器预训练
Pix2Struct是一种预训练的图像-文本模型,专用于多种任务,如图像字幕生成和视觉问答。该模型通过解析网页截图为简化HTML进行预训练,在文档、插图、用户界面和自然图像领域实现出色性能,灵活整合语言和视觉输入。
nougat-small - 神经网络驱动的学术PDF到Markdown转换模型
学术文档识别开源项目Huggingface模型视觉编码器PDF转MarkdownGithub文本解码器Nougat
Nougat-small是一个专门用于将学术PDF转换为Markdown格式的开源模型。它结合了Swin Transformer视觉编码器和mBART文本解码器,通过分析PDF图像像素来生成对应的Markdown内容。作为Nougat项目的轻量级版本,该模型旨在提升学术文献处理的效率。它为研究人员提供了一种简化PDF文档转换和分析的工具,有助于提高学术工作流程的效率。