#图像文本数据
CapsFusion - 创新的大规模图像描述生成框架
CapsFusion图像文本数据大型多模态模型大语言模型数据集Github开源项目
CapsFusion是一个用于生成高质量图像描述的创新框架。该项目结合大型语言模型,融合真实和合成图像-文本对,解决了大规模多模态模型训练中的可扩展性和知识保留问题。CapsFusion提供120M数据集、模型和分布式推理代码,为多模态预训练研究提供重要资源。
falcon-11B-vlm - 11B参数增强型视觉语言模型,提升细节图像理解与文本生成
视觉语言模型PyTorch 2.0大规模语言模型图像文本数据模型Github开源项目Falcon2-11B-vlmHuggingface
Falcon2-11B-vlm是一款11B参数的模型,通过超过5000B RefinedWeb数据训练,结合预训练的CLIP ViT-L/14视觉编码器,专注于增强小物件细节感知及高分辨率图像处理。该模型适用于多种视觉语言研究,特别是在细节复杂的图像理解任务中表现出色。其使用TII Falcon License 2.0许可,提倡负责任的AI使用。