#多模态嵌入
ImageBind - 跨模态AI模型实现六种感官数据的统一嵌入
ImageBind多模态嵌入跨模态检索零样本分类CVPR 2023Github开源项目
ImageBind是由Meta AI研发的AI模型,可将图像、文本、音频、深度、热感和IMU数据统一到单一嵌入空间。该模型支持跨模态检索、模态组合运算、检测和生成等应用,在多个零样本分类任务中表现良好。ImageBind为多模态AI研究提供了新思路,研究者可通过其开源的PyTorch实现和预训练模型进行进一步探索。
multi_token - 将多模态嵌入到大语言模型的开源框架
multi_token多模态嵌入大语言模型图像识别语音识别Github开源项目
multi_token是一个开源项目,旨在扩展大语言模型的多模态处理能力。该框架支持将图像、音频、文档和视频等多种模态编码为统一格式,并嵌入到单个模型中。它提供了简便的实现方法,使开发者能够轻松构建支持长文档、图像、音频和视频等多模态输入的语言模型。
VLM2Vec-Full - 视觉语言模型VLM2Vec的多模态嵌入训练方法
Github开源项目VLM2Vec模型TIGER-Lab对比学习Huggingface视觉语言模型多模态嵌入
VLM2Vec在Phi-3.5-V模型中引入EOS标记,实现跨多模态输入的统一嵌入表达,高效结合文本与图像。通过对比学习在MMEB-train数据集上训练,并在36个数据集上进行评估,Lora训练方式表现最佳。项目提供模型检查点及完整训练记录,供用户在GitHub仓库克隆下载,通过代码实现文本与图像的嵌入和相似度计算,助力模型运用。
e5-v - 多模态嵌入优化框架与单模态训练策略
Github开源项目单模态训练模型E5-VtransformersHuggingface图像文本处理多模态嵌入
E5-V框架通过调整多模态大型语言模型,有效实现多模态嵌入,提高不同输入之间的连接能力,即便不进行微调。其提出的单模态训练方法,仅训练文本对,表现超过多模态训练。