miracl - 跨18语言的多语言信息检索数据集

论文 | 基准 | HuggingFace | 排行榜

🙌 MIRACL

MIRACL 🌍🙌🌏（多语言信息检索跨语言连续体）是WSDM 2023杯挑战赛，专注于18种不同语言的搜索，这些语言覆盖了全球超过30亿的母语使用者。活动网站可在miracl.ai找到。本仓库提供了访问实际数据集的指引。

欲了解更多详情，请查看我们的arXiv论文：创造奇迹：跨语言连续体的多语言信息检索。

与我们联系！

🙌 语料库

MIRACL使用的维基百科语料库可作为HuggingFace数据集获取。目前，我们已发布了16种"已知语言"的语料库；剩余2种"惊喜语言"将在稍后公布！

🤗 = 直接链接到HuggingFace数据集
🌏 = 链接到原始维基转储 | 语言 | 段落数 | 文章数 | 链接 | |:----------------|------------:|------------:|:------| | 阿拉伯语 (ar) | 2,061,414 | 656,982 | 🤗 🌏 | 孟加拉语 (bn) | 297,265 | 63,762 | 🤗 🌏 | 英语 (en) | 32,893,221 | 5,758,285 | 🤗 🌏 | 西班牙语 (es) | 10,373,953 | 1,669,181 | 🤗 🌏 | 波斯语 (fa) | 2,207,172 | 857,827 | 🤗 🌏 | 芬兰语 (fi) | 1,883,509 | 447,815 | 🤗 🌏 | 法语 (fr) | 14,636,953 | 2,325,608 | 🤗 🌏 | 印地语 (hi) | 506,264 | 148,107 | 🤗 🌏 | 印度尼西亚语 (id) | 1,446,315 | 446,330 | 🤗 🌏 | 日语 (ja) | 6,953,614 | 1,133,444 | 🤗 🌏 | 韩语 (ko) | 1,486,752 | 437,373 | 🤗 🌏 | 俄语 (ru) | 9,543,918 | 1,476,045 | 🤗 🌏 | 斯瓦希里语 (sw) | 131,924 | 47,793 | 🤗 🌏 | 泰卢固语 (te) | 518,079 | 66,353 | 🤗 🌏 | 泰语 (th) | 542,166 | 128,179 | 🤗 🌏 | 中文 (zh) | 4,934,368 | 1,246,389 | 🤗 🌏 每种语言的语料库都是从维基百科转储中准备的，我们只保留纯文本，丢弃图片、表格等内容。每篇文章都使用WikiExtractor根据自然话语单位（例如维基标记中的\n\n）分割成多个段落。这些段落中的每一个都构成一个"文档"或检索单位。我们保留每个段落的维基百科文章标题。

语料库数据文件采用JSON lines格式，并用gzip压缩。文件中的每一行对应一个段落。以英语语料库中的一个例子为例：

{
    "docid": "39#0",
    "title": "Albedo", 
    "text": "Albedo（意为"白度"）是天体（如地球等行星）接收的总太阳辐射中漫反射太阳辐射的度量。它是无量纲的，以0到1的比例尺度测量（0对应于吸收所有入射辐射的黑体，1对应于反射所有入射辐射的物体）。"
}

docid的格式为X#Y，其中所有具有相同X的段落来自同一篇维基百科文章，而Y表示该文章中的段落，按顺序编号。 text字段包含段落的文本。 title字段包含该段落所属文章的名称。

🙌 主题和相关性判断

MIRACL训练集和开发集中16种已知语言的主题（= 查询）和相关性判断（= 相关性标签）可在HuggingFace Dataset上获得！

🤗 = 直接链接到HuggingFace Dataset

	训练集		开发集
语言	问题数	判断数	问题数	判断数	链接
阿拉伯语 (ar)	3,495	25,382	2,896	29,197	🤗
孟加拉语 (bn)	1,631	16,754	411	4,206	🤗
英语 (en)	2,863	29,416	799	8,350	🤗
西班牙语 (es)	2,162	21,531	648	6,443	🤗
波斯语 (fa)	2,107	21,844	632	6,571	🤗
芬兰语 (fi)	2,897	20,350	1,271	12,008	🤗
法语 (fr)	1,143	11,426	343	3,429	🤗
印地语 (hi)	1,169	11,668	350	3,494	🤗
印度尼西亚语 (id)	4,071	41,358	960	9,668	🤗
日语 (ja)	3,477	34,387	860	8,354	🤗
韩语 (ko)	868	12,767	213	3,057	🤗
俄语 (ru)	4,683	33,921	1,252	13,100	🤗
斯瓦希里语 (sw)	1,901	9,359	482	5,092	🤗
泰卢固语 (te)	3,452	18,608	828	1,606	🤗
泰语 (th)	2,972	21,293	733	7,573	🤗
中文 (zh)	1,312	13,113	393	3,928	🤗
总计	40,203	343,177	13,071	126,076

上表显示了每种（语言，数据集划分）组合中的查询数量（#Q）和判断数量（#J），其中判断包括正面和负面标签。

主题以TSV格式呈现，每行按以下方式组织：

qid\t查询

相关性判断采用标准TREC qrels格式，如下所示：

qid Q0 文档id 相关性

🙌 基线模型

使用Pyserini复现结果:

我们已发布了使用BM25、mDPR以及两者混合的基线模型，详见我们的arXiv论文。 BM25和mDPR的结果可以使用Pyserini复现。

复现我们的基线模型步骤如下：

按照这些说明安装Pyserini的开发版本。(要在surprise语言上运行基线，您需要重新构建Anserini和Pyserini)
手动将所有主题和qrels文件放在tools/topics-and-qrels下。主题和qrels文件可在HuggingFace数据集的miracl-v1.0-${lang}/topics和miracl-v1.0-${lang}/qrels下找到。
```
git clone https://huggingface.co/datasets/miracl/miracl
mv miracl/*/*/* $PYSERINI_PATH/tools/topics-and-qrels/
```
按照我们的两步复现(2CR)网站上的命令操作。

请注意，上述2CR仅用于复现搜索阶段，其中索引是预先计算好并由Pyserini自动加载的。如果您想复现索引构建阶段，请参考此文档。

密集模型的检查点:

mDPR (未在MIRACL上微调): castorini/mdpr-tied-pft-msmarco
mContriever (未在MIRACL上微调): facebook/mcontriever-msmarco
mDPR (在MIRACL上微调): castorini/mdpr-tied-pft-msmarco-ft-miracl-{lang}，其中{lang}为两字母ISO代码（如ar、bn等）

🙌 引用

如果您发现这个数据集和仓库有帮助，请按如下方式引用MIRACL：

@article{10.1162/tacl_a_00595,
    author = {Zhang, Xinyu and Thakur, Nandan and Ogundepo, Odunayo and Kamalloo, Ehsan and Alfonso-Hermelo, David and Li, Xiaoguang and Liu, Qun and Rezagholizadeh, Mehdi and Lin, Jimmy},
    title = "{MIRACL: A Multilingual Retrieval Dataset Covering 18 Diverse Languages}",
    journal = {Transactions of the Association for Computational Linguistics},
    volume = {11},
    pages = {1114-1131},
    year = {2023},
    month = {09},
    issn = {2307-387X},
    doi = {10.1162/tacl_a_00595},
    url = {https://doi.org/10.1162/tacl\_a\_00595},
    eprint = {https://direct.mit.edu/tacl/article-pdf/doi/10.1162/tacl\_a\_00595/2157340/tacl\_a\_00595.pdf},
}

🙌 联系方式

如果您有任何问题，欢迎发送电子邮件至project.miracl [at] gmail.com或在此仓库下提出Github问题。