#向量相似度
ColBERT - 基于BERT的快速大规模文本检索模型
ColBERT信息检索BERT向量相似度自然语言处理Github开源项目
ColBERT是一种基于BERT的检索模型,能在数十毫秒内实现大规模文本集合的高效搜索。该模型采用细粒度的上下文后期交互技术,将段落编码为令牌级嵌入矩阵,在保持检索质量的同时提高效率。ColBERT具备索引、检索和训练功能,适用于多种信息检索任务。模型提供预训练checkpoint和Python API,方便研究人员和开发者在实际项目中快速应用。
cocodr-base-msmarco - 零样本文本检索与分布鲁棒学习模型
向量相似度开源项目模型Github模型预训练自然语言处理BEIRHuggingfaceCOCO-DR
COCODR是一个基于BERT-base架构的文本检索模型,通过BEIR语料库预训练和MS MARCO数据集微调而成。模型采用对比学习和分布鲁棒学习方法,解决零样本密集检索中的分布偏移问题。借助HuggingFace transformers框架,模型可用于文本嵌入和相似度计算。