#图像文本数据

CapsFusion - 创新的大规模图像描述生成框架

CapsFusion图像文本数据大型多模态模型大语言模型数据集Github开源项目

CapsFusion是一个用于生成高质量图像描述的创新框架。该项目结合大型语言模型，融合真实和合成图像-文本对，解决了大规模多模态模型训练中的可扩展性和知识保留问题。CapsFusion提供120M数据集、模型和分布式推理代码，为多模态预训练研究提供重要资源。

falcon-11B-vlm - 11B参数增强型视觉语言模型，提升细节图像理解与文本生成

视觉语言模型PyTorch 2.0大规模语言模型图像文本数据模型Github开源项目Falcon2-11B-vlmHuggingface

Falcon2-11B-vlm是一款11B参数的模型，通过超过5000B RefinedWeb数据训练，结合预训练的CLIP ViT-L/14视觉编码器，专注于增强小物件细节感知及高分辨率图像处理。该模型适用于多种视觉语言研究，特别是在细节复杂的图像理解任务中表现出色。其使用TII Falcon License 2.0许可，提倡负责任的AI使用。

相关文章

Article Cover

CapsFusion: 重新思考大规模图像-文本数据

2024年09月05日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号