#MSMARCO
jina-colbert-v1-en - JinaBERT基础的长文档检索用ColBERT模型
Github开源项目模型Huggingface长上下文检索性能MSMARCO对比结果Jina-ColBERT
Jina-ColBERT是一个基于JinaBERT的ColBERT模型,它能处理8k的上下文长度,实现快速准确的检索。与ColBERTv2相比,使用了jina-bert-v2-base-en为主干,并在MSMARCO数据集上训练,表现优于部分基准模型,尤其在长上下文环境中表现更佳,适用于长文档检索场景。
distilbert-dot-tas_b-b256-msmarco - 基于平衡主题感知采样的高效密集检索方案
Github开源项目模型知识蒸馏Huggingface文本检索DistilBertMSMARCOBERT_Dot
本项目提供了一个基于DistilBERT的密集文本检索模型,采用双编码器结构和点积评分机制。该模型使用平衡主题感知采样(TAS-B)方法在MS MARCO数据集上训练,可用于候选集重排序或直接进行向量索引密集检索。模型在多个测试集上展现出优于BM25基线的检索性能。其特点包括高效训练(单GPU 48小时内完成)和保留原始DistilBERT的6层架构。这一方案为高效密集检索提供了新的解决思路。