#跨模态检索
Chinese-CLIP - 中文多模态嵌入和检索性能优化的领先方案
Chinese-CLIP跨模态检索零样本图像分类图文特征提取模型下载Github开源项目
Chinese-CLIP项目,基于大规模中文图文对数据,专门针对中文领域的特点进行优化,提供高效的图文特征计算与相似度测算,实现零样本分类和跨模态检索。该项目改进了多个模型,包括ViT与ResNet结构,并在多个公开数据集上展示了显著的性能提升,为中文处理场景下的企业和研究者提供强大工具。
ImageBind - 跨模态AI模型实现六种感官数据的统一嵌入
ImageBind多模态嵌入跨模态检索零样本分类CVPR 2023Github开源项目
ImageBind是由Meta AI研发的AI模型,可将图像、文本、音频、深度、热感和IMU数据统一到单一嵌入空间。该模型支持跨模态检索、模态组合运算、检测和生成等应用,在多个零样本分类任务中表现良好。ImageBind为多模态AI研究提供了新思路,研究者可通过其开源的PyTorch实现和预训练模型进行进一步探索。
相关文章