#MSMARCO

jina-colbert-v1-en - JinaBERT基础的长文档检索用ColBERT模型

Github开源项目模型Huggingface长上下文检索性能MSMARCO对比结果Jina-ColBERT

Jina-ColBERT是一个基于JinaBERT的ColBERT模型，它能处理8k的上下文长度，实现快速准确的检索。与ColBERTv2相比，使用了jina-bert-v2-base-en为主干，并在MSMARCO数据集上训练，表现优于部分基准模型，尤其在长上下文环境中表现更佳，适用于长文档检索场景。

distilbert-dot-tas_b-b256-msmarco - 基于平衡主题感知采样的高效密集检索方案

Github开源项目模型知识蒸馏Huggingface文本检索DistilBertMSMARCOBERT_Dot

本项目提供了一个基于DistilBERT的密集文本检索模型，采用双编码器结构和点积评分机制。该模型使用平衡主题感知采样(TAS-B)方法在MS MARCO数据集上训练，可用于候选集重排序或直接进行向量索引密集检索。模型在多个测试集上展现出优于BM25基线的检索性能。其特点包括高效训练（单GPU 48小时内完成）和保留原始DistilBERT的6层架构。这一方案为高效密集检索提供了新的解决思路。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号