MS MARCO Web搜索数据集
简介
MS MARCO Web搜索是一个大规模信息丰富的Web数据集,包含数百万个真实的点击查询-文档标签。该数据集密切模仿真实世界的网页文档和查询分布,为各种下游任务提供丰富信息。它将最大的开放网页文档数据集ClueWeb22作为文档集。ClueWeb22包含约100亿个高质量网页,规模足以代表网络规模数据。它还包含来自网页的丰富信息,如网页浏览器渲染的视觉表示、原始HTML结构、干净文本、语义注释、由行业文档理解系统标注的语言和主题标签等。MS MARCO Web搜索还包含来自93种语言的1000万个独特查询,以及从微软必应搜索引擎的搜索日志中收集的数百万个相关标记的查询-文档对,作为查询集。
它提供了一个基于1亿文档集的检索基准,包含三个网络检索挑战任务,要求在机器学习和信息检索系统研究领域进行创新:嵌入模型、嵌入检索和端到端检索挑战。排行榜的主要目标是研究在大量数据可用时,哪些检索方法最有效,哪些检索方法最具成本效益。
此外,MS MARCO Web搜索还为整个100亿文档集提供了5倍于原有的真实点击标签。研究人员可以使用这个数据集来验证在小数据上有效的方法是否也适用于大数据。
引用
如果您使用MS MARCO Web搜索数据集或其衍生数据集,请引用论文:
@article{XXX,
title={MS MARCO Web Search: A Large-scale Information-rich Web Dataset with Millions of Real Click Labels},
author={Qi Chen, Xiubo Geng, Corby Rosset, Carolyn Buractaon, Jingwen Lu, Tao Shen, Kun Zhou, Chenyan Xiong, Yeyun Gong1, Paul Bennett, Nick Craswell, Xing Xie, Fan Yang, Bryan Tower, Nikhil Rao, Anlei Dong, Wenqi Jiang, Zheng Liu,
Mingqin Li, Chuanjie Liu, Jason Li, Rangan Majumder, Jennifer Neville, Andy Oakley, Knut Magne Risvik, Harsha Vardhan Simhadri, Manik Varma, Yujing Wang, Linjun Yang, Mao Yang, Ce Zhang},
journal={arXiv preprint arXiv:XXX},
year={2024}
}
任务
有三个任务:嵌入模型、嵌入检索和端到端检索排名。
嵌入模型排名任务
第一个任务专注于嵌入模型排名。大规模网络数据量需要大型嵌入模型来保证足够的知识覆盖。它要求平衡以下两个目标:良好的模型泛化能力和高效的训练/推理速度。给定一个查询,您需要根据文档与查询的相关性对全集合中的文档进行排名。您可以为此任务提交最多100个文档。它对嵌入模型质量进行建模。我们评估的指标包括:
- 平均倒数排名(MRR):第一个正确结果排名的倒数的平均值,广泛用于评估模型质量。
- 召回率:搜索过程中召回的地面真实项目(测试查询-文档标签)的平均百分比。
- 吞吐量(QPS):所有查询同时提供,我们测量从向量摄入到使用机器上所有线程输出所有结果之间的挂钟时间。然后将吞吐量计算为每秒处理的查询数(QPS)。
- 延迟:我们测量在特定QPS下的50、90和99百分位查询延迟。
基线 | MRR@10 | recall@1 | recall@5 | recall@10 | recall@20 | recall@100 | QPS | P50延迟 | P90延迟 | P99延迟 |
---|---|---|---|---|---|---|---|---|---|---|
DPR | 0.542 | 45.12% | 66.04% | 72.10% | 76.80% | 87.54% | 698 | 9.896 ms | 10.018 ms | 11.430 ms |
ANCE | 0.633 | 54.18% | 75.53% | 80.53% | 84.17% | 91.17% | 698 | 9.896 ms | 10.018 ms | 11.430 ms |
SimANS | 0.649 | 55.86% | 76.84% | 81.78% | 85.23% | 91.98% | 698 | 9.896 ms | 10.018 ms | 11.430 ms |
嵌入检索排名任务
嵌入模型需要与嵌入检索系统协同工作以服务于网络规模数据集。第二个任务专注于嵌入检索算法/系统性能和准确性。我们将一个基线模型生成的嵌入向量作为ANN向量集。这个挑战的目标是呼吁ANN算法创新,以最小化近似搜索和暴力搜索之间的准确性差距,同时仍保持良好的系统性能。在这个任务中,我们只评估ANN召回率(将暴力向量搜索结果作为地面真实值)、吞吐量和延迟。
基线系统 | ANN召回率@1 | ANN召回率@10 | ANN召回率@100 | 每秒查询数 | P50延迟 | P90延迟 | P99延迟 |
---|---|---|---|---|---|---|---|
SPANN | 87.97% | 80.55% | 69.84% | 625 | 10.411毫秒 | 10.873毫秒 | 11.334毫秒 |
DiskANN | 91.46% | 87.07% | 69.73% | 2691 | 21.968毫秒 | 37.841毫秒 | 69.462毫秒 |
端到端检索排序任务
在网络场景中,端到端检索系统的结果质量和系统性能是比较不同解决方案时最重要的指标。此挑战任务鼓励各种解决方案,包括嵌入模型加ANN系统、倒排索引解决方案、混合解决方案、神经索引器和大型语言模型等。
基线系统 | MRR@10 | 召回率@1 | 召回率@5 | 召回率@10 | 召回率@20 | 召回率@100 | 每秒查询数 | P50延迟 | P90延迟 | P99延迟 |
---|---|---|---|---|---|---|---|---|---|---|
Elasticsearch BM25 | 0.296 | 22.30% | 39.04% | 46.00% | 52.42% | 63.87% | 149 | 312.025毫秒 | 1065.141毫秒 | 3745.546毫秒 |
DPR + SPANN | 0.467 | 39.21% | 56.66% | 61.27% | 64.69% | 70.28% | 625 | 21.924毫秒 | 23.017毫秒 | 34.217毫秒 |
ANCE+ SPANN | 0.580 | 49.87% | 68.59% | 72.94% | 75.86% | 80.18% | 625 | 21.924毫秒 | 23.017毫秒 | 34.217毫秒 |
SimANS + SPANN | 0.585 | 50.63% | 68.79% | 73.14% | 75.85% | 79.82% | 625 | 21.924毫秒 | 23.017毫秒 | 34.217毫秒 |
数据集
我确认接受条款和许可。点击查看数据集下载链接
1亿数据集
类型 | 文件名 | 文件大小 | 记录数量 | 格式 |
---|---|---|---|---|
ClueWeb22 集合 | https://lemurproject.org/clueweb22.php/ | --- | 100亿 | --- |
ClueWeb22 中的文档ID | doc_hash_mapping.tsv | 8.34 GB | 210,894,832 | tsv: ClueWeb22中的文档id, 文档id |
训练集 | queries_train.tsv | 678.36 MB | 9,206,475 | tsv: 查询id, 查询, 语言 |
训练集 | qrels_train.tsv | 194.93 MB | 9,346,695 | TREC qrels格式 |
开发集 | queries_dev.tsv | 675.2 KB | 9,253 | tsv: 查询id, 查询, 语言 |
开发集 | qrels_dev.tsv | 173.19 KB | 9,402 | TREC qrels格式 |
测试集 | queries_test.tsv | 734.33 KB | 9,374 | tsv: 查询id, 查询, 语言 |
测试集 | qrels_test.tsv | 180.32 KB | 9,374 | TREC qrels格式 |
文档嵌入向量 | vectors.bin, metaidx.bin, meta.bin | 289.16GB | 100,924,960 | 二进制格式 |
查询嵌入向量 | vectors.bin, metaidx.bin, meta.bin | 27.47 MB | 9,374 | 二进制格式 |
嵌入检索真值 | truth.txt | 7.97 MB | 9,374 | 真值格式 |
100亿数据集
描述 | 文件名 | 文件大小 | 记录数量 | 格式 |
---|---|---|---|---|
ClueWeb22 集合 | https://lemurproject.org/clueweb22.php/ | --- | 100亿 | --- |
训练集 | queries_train.tsv | 678.36 MB | 9,206,475 | tsv: 查询id, 查询, 语言 |
训练集 | qrels_train.tsv | 2.43 GB | 62,302,553 | TREC qrels格式 |
开发集 | queries_dev.tsv | 675.2 KB | 9,253 | tsv: 查询id, 查询, 语言 |
开发集 | qrels_dev.tsv | 2.35 MB | 63,314 | TREC qrels格式 |
测试集 | queries_test.tsv | 734.33 KB | 9,374 | tsv: 查询id, 查询, 语言 |
测试集 | qrels_test.tsv | 2.65 MB | 40,511 | TREC qrels格式 |
外部信息的使用
重要提示:在开发您的运行时,您可以使用外部信息。 然而,除了上面列出的数据集外,禁止在您的提交中使用任何其他数据集。 原始的MS MARCO网络搜索数据集揭示了数据集构建方式的一些细微细节,这些细节在真实世界的搜索引擎中是不可用的;因此,应当避免使用。
注意事项
条款和条件
MS MARCO网络搜索数据集仅供非商业研究目的使用,旨在促进人工智能及相关领域的发展,免费提供且不延伸任何许可或其他知识产权。 数据集按"原样"提供,不作任何保证,使用数据存在风险,因为我们可能不拥有文档中的基础权利。 我们不对使用数据集相关的任何损害承担责任。 反馈是自愿提供的,我们可以按我们认为合适的方式使用。 使用任何数据集即表示您自动同意遵守这些条款和条件。 一旦违反任何这些条款,您使用数据集的权利将自动终止。
如果您拥有任何已公开的文档但不希望它们出现在此数据集中,请通过ms-marco-web@microsoft.com与我们联系。 我们将相应地删除数据。 如果您对在产品或服务中使用数据集或任何研究成果有疑问,我们建议您进行独立的法律审查。 如有其他问题,请随时与我们联系。
贡献
本项目欢迎贡献和建议。大多数贡献需要您同意贡献者许可协议(CLA),声明您有权利,并实际授予我们使用您贡献的权利。详情请访问https://cla.opensource.microsoft.com。
当您提交拉取请求时,CLA机器人将自动确定您是否需要提供CLA,并适当装饰PR(例如,状态检查、评论)。只需按照机器人提供的说明操作即可。您只需在所有使用我们CLA的仓库中执行一次此操作。
本项目已采用Microsoft开源行为准则。 有关更多信息,请参阅行为准则常见问题解答或联系opencode@microsoft.com获取任何其他问题或意见。
法律声明
Microsoft和任何贡献者根据知识共享署名4.0国际公共许可证授予您使用本仓库中Microsoft文档和其他内容的许可,请参阅LICENSE-CCA文件,并根据MIT许可证授予您使用仓库中任何代码的许可,请参阅LICENSE文件。
Microsoft "按原样"许可MS MARCO网络搜索标记,不做任何明示或暗示的非侵权声明或保证。您必须在Microsoft要求时立即删除对该标记的所有使用。
文档中提到的Microsoft、Windows、Microsoft Azure和/或其他Microsoft产品和服务可能是Microsoft在美国和/或其他国家的商标或注册商标。 本项目的许可不授予您使用任何Microsoft名称、标志或商标的权利。 Microsoft的一般商标指南可在http://go.microsoft.com/fwlink/?LinkID=254653找到。
隐私信息可在https://privacy.microsoft.com/en-us/找到。
Microsoft和任何贡献者保留所有其他权利,无论是各自的版权、专利或商标下的权利,无论是通过暗示、禁止反言还是其他方式。