#多模态嵌入

ImageBind: 融合多模态数据的统一嵌入空间

3 个月前

ImageBind 多模态嵌入跨模态检索零样本分类 CVPR 2023 Github 开源项目

3 个月前

相关项目

ImageBind

ImageBind是由Meta AI研发的AI模型，可将图像、文本、音频、深度、热感和IMU数据统一到单一嵌入空间。该模型支持跨模态检索、模态组合运算、检测和生成等应用，在多个零样本分类任务中表现良好。ImageBind为多模态AI研究提供了新思路，研究者可通过其开源的PyTorch实现和预训练模型进行进一步探索。

multi_token

multi_token是一个开源项目，旨在扩展大语言模型的多模态处理能力。该框架支持将图像、音频、文档和视频等多种模态编码为统一格式，并嵌入到单个模型中。它提供了简便的实现方法，使开发者能够轻松构建支持长文档、图像、音频和视频等多模态输入的语言模型。

VLM2Vec-Full

VLM2Vec在Phi-3.5-V模型中引入EOS标记，实现跨多模态输入的统一嵌入表达，高效结合文本与图像。通过对比学习在MMEB-train数据集上训练，并在36个数据集上进行评估，Lora训练方式表现最佳。项目提供模型检查点及完整训练记录，供用户在GitHub仓库克隆下载，通过代码实现文本与图像的嵌入和相似度计算，助力模型运用。

jina-clip-v1

jina-clip-v1是Jina AI开发的英语多模态嵌入模型，支持高效文本-图像和文本-文本检索。它结合了传统文本嵌入和跨模态模型的优势，适用于多模态检索增强生成应用。该模型在Flickr和MSCOCO跨模态检索任务中表现出色，文本相似度评估能力也与专业文本嵌入模型相当。

e5-v

E5-V框架通过调整多模态大型语言模型，有效实现多模态嵌入，提高不同输入之间的连接能力，即便不进行微调。其提出的单模态训练方法，仅训练文本对，表现超过多模态训练。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com