nomic-embed-vision-v1.5项目介绍
项目概述
nomic-embed-vision-v1.5是一个高性能的视觉嵌入模型,它与nomic-embed-text-v1.5共享相同的嵌入空间。这个项目使所有的Nomic Embed Text模型都具备了多模态能力,实现了视觉和文本的统一表示。
性能表现
nomic-embed-vision-v1.5在多个基准测试中表现出色:
- Imagenet 0-shot测试中达到71.0的准确率
- Datacomp (平均38个数据集)测试中达到56.8的分数
- MTEB测试中达到62.28的分数
这些成绩超越了包括OpenAI CLIP ViT B/16和Jina CLIP v1在内的多个知名模型。
使用方法
用户可以通过Nomic提供的嵌入API轻松使用这个模型。只需几行Python代码,就能生成图像的嵌入表示:
from nomic import embed
import numpy as np
output = embed.image(
images=["image_path_1.jpeg", "image_path_2.png"],
model='nomic-embed-vision-v1.5',
)
embeddings = np.array(output['embeddings'])
技术细节
nomic-embed-vision-v1.5采用了类似于LiT(Learning in Transformers)的技术,但创新性地锁定了文本嵌入器。这种方法使视觉嵌入器能够与文本嵌入保持一致,从而实现多模态表示。
数据可视化
项目提供了一个互动式的Nomic Atlas地图,展示了10万个CC3M样本在视觉和文本嵌入空间中的分布。这种可视化方式直观地展示了模型的嵌入能力。
多模态检索
nomic-embed-vision-v1.5支持多模态检索,用户可以使用文本查询来检索相关图像。在使用时,需要注意在文本查询前添加"search_query: "前缀。
开源与社区
项目的训练代码已在GitHub上开源,研究者和开发者可以深入了解其实现细节。Nomic还通过多个社交平台与用户保持互动,包括官网、Discord和Twitter。
总结
nomic-embed-vision-v1.5是一个强大的视觉嵌入模型,它不仅在各项基准测试中表现出色,还提供了便捷的API和丰富的使用案例。通过与文本嵌入空间的统一,该模型为多模态AI应用开辟了新的可能性。无论是研究人员还是开发者,都可以利用这个模型来探索视觉和文本之间的深层联系。