#图像文本数据

CapsFusion: 重新思考大规模图像-文本数据

2024年09月05日

CapsFusion 图像文本数据大型多模态模型大语言模型数据集 Github 开源项目

2024年09月05日

相关项目

CapsFusion

CapsFusion是一个用于生成高质量图像描述的创新框架。该项目结合大型语言模型，融合真实和合成图像-文本对，解决了大规模多模态模型训练中的可扩展性和知识保留问题。CapsFusion提供120M数据集、模型和分布式推理代码，为多模态预训练研究提供重要资源。

falcon-11B-vlm

Falcon2-11B-vlm是一款11B参数的模型，通过超过5000B RefinedWeb数据训练，结合预训练的CLIP ViT-L/14视觉编码器，专注于增强小物件细节感知及高分辨率图像处理。该模型适用于多种视觉语言研究，特别是在细节复杂的图像理解任务中表现出色。其使用TII Falcon License 2.0许可，提倡负责任的AI使用。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com