#MS MARCO
anserini - 开源可复现信息检索研究工具包
Anserini信息检索Lucene回归实验MS MARCOGithub开源项目
Anserini是基于Lucene开发的开源信息检索工具包,致力于推动可复现的学术研究。该工具包提供从索引构建到结果评估的端到端实验支持,实现了BM25、doc2query-T5、SPLADE等多种先进检索模型。Anserini可应用于各类标准IR测试集,有助于缩小信息检索研究与实际搜索应用之间的差距。
monot5-base-msmarco - MS MARCO数据集优化的T5-base重排模型
文档Huggingface训练开源项目模型T5-baseGithubMS MARCO重排序
这个T5-base模型经过在MS MARCO段落数据集上的10万步微调,以提高排序性能。虽然主要适用于MS MARCO数据集,但在其他数据集上进行无监督推理时,建议使用castorini/monot5-base-msmarco-10k版本。可以通过提供的链接查看使用示例,包括简单的重排序示例,以及在MS MARCO和Robust04上的应用。该预训练序列到序列模型在文档排名中的应用已在相关论文中详细描述。
msmarco-distilbert-dot-v5 - 用于语义搜索的句子嵌入模型
模型Github开源项目HuggingfaceMS MARCO句子转换器sentence-transformers语义搜索DistilBERT
msmarco-distilbert-dot-v5是一个基于sentence-transformers的语义搜索模型。它将文本映射到768维向量空间,在MS MARCO数据集上训练。支持sentence-transformers和HuggingFace Transformers库,可进行文本编码和相似度计算。该模型在语义搜索任务中表现优秀,为自然语言处理提供有力支持。
msmarco-MiniLM-L12-cos-v5 - 用于语义搜索的句子转换和嵌入模型
MiniLMHuggingface模型MS MARCOGithub开源项目自然语言处理句子转换器语义搜索
msmarco-MiniLM-L12-cos-v5是一个专为语义搜索设计的句子转换模型,能将文本映射到768维向量空间。该模型在MS MARCO数据集上训练,支持通过sentence-transformers和HuggingFace Transformers两种方式使用。它生成规范化嵌入,适用于多种相似度计算方法,可用于开发高效的语义搜索应用。
cocodr-large-msmarco - BERT-large基础的高性能密集检索模型
Huggingface模型MS MARCOGithub预训练模型开源项目HuggingFaceCOCO-DR零样本检索
cocodr-large-msmarco是一个基于BERT-large架构的密集检索模型,参数量达3.35亿。该模型在BEIR语料库上预训练后,在MS MARCO数据集上微调,采用对比学习和分布鲁棒性学习技术解决零样本密集检索中的分布偏移问题。模型可通过Hugging Face transformers库轻松加载,为信息检索任务提供有力支持。
monot5-large-msmarco - MSMarco文本重排序优化版T5-large模型
GithubHuggingface模型训练数据集MS MARCO开源项目模型T5-large文档排序
MonoT5-large是一个在MS MARCO数据集上训练的文本重排序模型,主要用于优化搜索结果的排序。模型支持MS MARCO passages和Robust04文档处理,能有效提升文本搜索的准确性,适用于各类文档重排序场景。
msmarco-MiniLM-L6-en-de-v1 - MSMARCO跨语言文本重排序模型 支持英德双向检索
Github开源项目信息检索搜索排序HuggingfaceMS MARCO跨语言模型性能评估模型
这是一个基于MS MARCO数据集训练的跨语言文本重排序模型,支持英语和德语文本的相关性排序。模型可处理英语-英语、德语-英语和德语-德语的文本匹配任务。在TREC-DL19和GermanDPR基准测试中表现出色,处理速度可达每秒1600个文档对。兼容SentenceTransformers和Transformers框架,为跨语言信息检索应用提供了高效方案。