Project Icon

MS-MARCO-Web-Search

大规模网络数据集推动搜索与机器学习研究进展

MS-MARCO-Web-Search是一个基于ClueWeb22的大规模网络数据集,包含数百万真实查询点击标签。它提供丰富的文本、视觉和语义信息,设置了嵌入模型、嵌入检索和端到端检索三个挑战任务。该数据集旨在推动机器学习和信息检索系统研究,并验证方法在大规模数据上的有效性。

MS MARCO Web搜索数据集

简介

MS MARCO Web搜索是一个大规模信息丰富的Web数据集,包含数百万个真实的点击查询-文档标签。该数据集密切模仿真实世界的网页文档和查询分布,为各种下游任务提供丰富信息。它将最大的开放网页文档数据集ClueWeb22作为文档集。ClueWeb22包含约100亿个高质量网页,规模足以代表网络规模数据。它还包含来自网页的丰富信息,如网页浏览器渲染的视觉表示、原始HTML结构、干净文本、语义注释、由行业文档理解系统标注的语言和主题标签等。MS MARCO Web搜索还包含来自93种语言的1000万个独特查询,以及从微软必应搜索引擎的搜索日志中收集的数百万个相关标记的查询-文档对,作为查询集。

它提供了一个基于1亿文档集的检索基准,包含三个网络检索挑战任务,要求在机器学习和信息检索系统研究领域进行创新:嵌入模型、嵌入检索和端到端检索挑战。排行榜的主要目标是研究在大量数据可用时,哪些检索方法最有效,哪些检索方法最具成本效益。

此外,MS MARCO Web搜索还为整个100亿文档集提供了5倍于原有的真实点击标签。研究人员可以使用这个数据集来验证在小数据上有效的方法是否也适用于大数据。

引用

如果您使用MS MARCO Web搜索数据集或其衍生数据集,请引用论文

@article{XXX,
title={MS MARCO Web Search: A Large-scale Information-rich Web Dataset with Millions of Real Click Labels},
author={Qi Chen, Xiubo Geng, Corby Rosset, Carolyn Buractaon, Jingwen Lu, Tao Shen, Kun Zhou, Chenyan Xiong, Yeyun Gong1, Paul Bennett, Nick Craswell, Xing Xie, Fan Yang, Bryan Tower, Nikhil Rao, Anlei Dong, Wenqi Jiang, Zheng Liu, Mingqin Li, Chuanjie Liu, Jason Li, Rangan Majumder, Jennifer Neville, Andy Oakley, Knut Magne Risvik, Harsha Vardhan Simhadri, Manik Varma, Yujing Wang, Linjun Yang, Mao Yang, Ce Zhang},
journal={arXiv preprint arXiv:XXX},
year={2024}
}

任务

有三个任务:嵌入模型、嵌入检索和端到端检索排名。

嵌入模型排名任务

第一个任务专注于嵌入模型排名。大规模网络数据量需要大型嵌入模型来保证足够的知识覆盖。它要求平衡以下两个目标:良好的模型泛化能力和高效的训练/推理速度。给定一个查询,您需要根据文档与查询的相关性对全集合中的文档进行排名。您可以为此任务提交最多100个文档。它对嵌入模型质量进行建模。我们评估的指标包括:

  • 平均倒数排名(MRR):第一个正确结果排名的倒数的平均值,广泛用于评估模型质量。
  • 召回率:搜索过程中召回的地面真实项目(测试查询-文档标签)的平均百分比。
  • 吞吐量(QPS):所有查询同时提供,我们测量从向量摄入到使用机器上所有线程输出所有结果之间的挂钟时间。然后将吞吐量计算为每秒处理的查询数(QPS)。
  • 延迟:我们测量在特定QPS下的50、90和99百分位查询延迟。
基线MRR@10recall@1recall@5recall@10recall@20recall@100QPSP50延迟P90延迟P99延迟
DPR0.54245.12%66.04%72.10%76.80%87.54%6989.896 ms10.018 ms11.430 ms
ANCE0.63354.18%75.53%80.53%84.17%91.17%6989.896 ms10.018 ms11.430 ms
SimANS0.64955.86%76.84%81.78%85.23%91.98%6989.896 ms10.018 ms11.430 ms

嵌入检索排名任务

嵌入模型需要与嵌入检索系统协同工作以服务于网络规模数据集。第二个任务专注于嵌入检索算法/系统性能和准确性。我们将一个基线模型生成的嵌入向量作为ANN向量集。这个挑战的目标是呼吁ANN算法创新,以最小化近似搜索和暴力搜索之间的准确性差距,同时仍保持良好的系统性能。在这个任务中,我们只评估ANN召回率(将暴力向量搜索结果作为地面真实值)、吞吐量和延迟。

基线系统ANN召回率@1ANN召回率@10ANN召回率@100每秒查询数P50延迟P90延迟P99延迟
SPANN87.97%80.55%69.84%62510.411毫秒10.873毫秒11.334毫秒
DiskANN91.46%87.07%69.73%269121.968毫秒37.841毫秒69.462毫秒

端到端检索排序任务

在网络场景中,端到端检索系统的结果质量和系统性能是比较不同解决方案时最重要的指标。此挑战任务鼓励各种解决方案,包括嵌入模型加ANN系统、倒排索引解决方案、混合解决方案、神经索引器和大型语言模型等。

基线系统MRR@10召回率@1召回率@5召回率@10召回率@20召回率@100每秒查询数P50延迟P90延迟P99延迟
Elasticsearch BM250.29622.30%39.04%46.00%52.42%63.87%149312.025毫秒1065.141毫秒3745.546毫秒
DPR + SPANN0.46739.21%56.66%61.27%64.69%70.28%62521.924毫秒23.017毫秒34.217毫秒
ANCE+ SPANN0.58049.87%68.59%72.94%75.86%80.18%62521.924毫秒23.017毫秒34.217毫秒
SimANS + SPANN0.58550.63%68.79%73.14%75.85%79.82%62521.924毫秒23.017毫秒34.217毫秒

数据集

我确认接受条款和许可。点击查看数据集下载链接

1亿数据集

类型文件名文件大小记录数量格式
ClueWeb22 集合https://lemurproject.org/clueweb22.php/---100亿---
ClueWeb22 中的文档IDdoc_hash_mapping.tsv8.34 GB210,894,832tsv: ClueWeb22中的文档id, 文档id
训练集queries_train.tsv678.36 MB9,206,475tsv: 查询id, 查询, 语言
训练集qrels_train.tsv194.93 MB9,346,695TREC qrels格式
开发集queries_dev.tsv675.2 KB9,253tsv: 查询id, 查询, 语言
开发集qrels_dev.tsv173.19 KB9,402TREC qrels格式
测试集queries_test.tsv734.33 KB9,374tsv: 查询id, 查询, 语言
测试集qrels_test.tsv180.32 KB9,374TREC qrels格式
文档嵌入向量vectors.bin, metaidx.bin, meta.bin289.16GB100,924,960二进制格式
查询嵌入向量vectors.bin, metaidx.bin, meta.bin27.47 MB9,374二进制格式
嵌入检索真值truth.txt7.97 MB9,374真值格式

100亿数据集

描述文件名文件大小记录数量格式
ClueWeb22 集合https://lemurproject.org/clueweb22.php/---100亿---
训练集queries_train.tsv678.36 MB9,206,475tsv: 查询id, 查询, 语言
训练集qrels_train.tsv2.43 GB62,302,553TREC qrels格式
开发集queries_dev.tsv675.2 KB9,253tsv: 查询id, 查询, 语言
开发集qrels_dev.tsv2.35 MB63,314TREC qrels格式
测试集queries_test.tsv734.33 KB9,374tsv: 查询id, 查询, 语言
测试集qrels_test.tsv2.65 MB40,511TREC qrels格式

外部信息的使用

重要提示:在开发您的运行时,您可以使用外部信息。 然而,除了上面列出的数据集外,禁止在您的提交中使用任何其他数据集。 原始的MS MARCO网络搜索数据集揭示了数据集构建方式的一些细微细节,这些细节在真实世界的搜索引擎中是不可用的;因此,应当避免使用。

注意事项

条款和条件

MS MARCO网络搜索数据集仅供非商业研究目的使用,旨在促进人工智能及相关领域的发展,免费提供且不延伸任何许可或其他知识产权。 数据集按"原样"提供,不作任何保证,使用数据存在风险,因为我们可能不拥有文档中的基础权利。 我们不对使用数据集相关的任何损害承担责任。 反馈是自愿提供的,我们可以按我们认为合适的方式使用。 使用任何数据集即表示您自动同意遵守这些条款和条件。 一旦违反任何这些条款,您使用数据集的权利将自动终止。

如果您拥有任何已公开的文档但不希望它们出现在此数据集中,请通过ms-marco-web@microsoft.com与我们联系。 我们将相应地删除数据。 如果您对在产品或服务中使用数据集或任何研究成果有疑问,我们建议您进行独立的法律审查。 如有其他问题,请随时与我们联系。

贡献

本项目欢迎贡献和建议。大多数贡献需要您同意贡献者许可协议(CLA),声明您有权利,并实际授予我们使用您贡献的权利。详情请访问https://cla.opensource.microsoft.com。

当您提交拉取请求时,CLA机器人将自动确定您是否需要提供CLA,并适当装饰PR(例如,状态检查、评论)。只需按照机器人提供的说明操作即可。您只需在所有使用我们CLA的仓库中执行一次此操作。

本项目已采用Microsoft开源行为准则。 有关更多信息,请参阅行为准则常见问题解答或联系opencode@microsoft.com获取任何其他问题或意见。

法律声明

Microsoft和任何贡献者根据知识共享署名4.0国际公共许可证授予您使用本仓库中Microsoft文档和其他内容的许可,请参阅LICENSE-CCA文件,并根据MIT许可证授予您使用仓库中任何代码的许可,请参阅LICENSE文件。

Microsoft "按原样"许可MS MARCO网络搜索标记,不做任何明示或暗示的非侵权声明或保证。您必须在Microsoft要求时立即删除对该标记的所有使用。

文档中提到的Microsoft、Windows、Microsoft Azure和/或其他Microsoft产品和服务可能是Microsoft在美国和/或其他国家的商标或注册商标。 本项目的许可不授予您使用任何Microsoft名称、标志或商标的权利。 Microsoft的一般商标指南可在http://go.microsoft.com/fwlink/?LinkID=254653找到。

隐私信息可在https://privacy.microsoft.com/en-us/找到。

Microsoft和任何贡献者保留所有其他权利,无论是各自的版权、专利或商标下的权利,无论是通过暗示、禁止反言还是其他方式。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号