热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#RVL-CDIP
dit-base-finetuned-rvlcdip - 基于自监督学习的文档图像转换模型应用
文档分类
自我监督学习
视觉编码器
Document Image Transformer
RVL-CDIP
Huggingface
Github
开源项目
模型
Document Image Transformer 是一种基于 Transformer 的模型,专为自监督学习而设计,通过大量文档图像来学习图像的内在表示。经过 RVL-CDIP 数据集的细调,该模型适用于文档图像分类、表格检测和文档布局分析等任务。通过在预训练编码器上添加线性层,可以灵活实现不同任务的目标。模型将图像划分为16x16像素固定块,并使用离散 VAE 编码器的视觉 token 进行预测。该技术解决方案在灰度图像分类中表现出色,尤其是在细分类别的文档图像任务中。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号