热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#图像到文本模型
pix2struct-large - 融合图像和文本的开创性AI预训练模型
模型
多任务学习
开源项目
Huggingface
图像到文本模型
Pix2Struct
Github
预训练
视觉语言理解
Pix2Struct是一款突破性的图像到文本预训练模型,专注于视觉语言理解。其独特之处在于通过解析网页截图为简化HTML进行预训练,有效整合了OCR、语言建模和图像描述等关键技术。在文档、插图、用户界面和自然图像四大领域的九项任务评估中,Pix2Struct在六项中表现卓越,展现了其强大的通用性。这一创新模型为视觉语言相关任务奠定了坚实基础,可通过微调适应多样化的应用场景。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号