热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#维基百科语料库
MIRACL: 跨18种语言的大规模多语言信息检索数据集
2 个月前
MIRACL是一个覆盖18种多样化语言的大规模多语言信息检索数据集,为跨语言搜索和检索研究提供了宝贵的资源。本文将详细介绍MIRACL数据集的构建、特点及其在多语言信息检索领域的重要意义。
MIRACL
多语言信息检索
维基百科语料库
基准测试
跨语言搜索
Github
开源项目
2 个月前
相关项目
miracl
MIRACL项目提供了一个跨18种语言的多语言信息检索数据集,涵盖全球超过30亿母语使用者。该数据集包含16种已知语言的Wikipedia语料库,并提供相应的训练和开发数据。项目还包括基于BM25和mDPR的基线系统,以及使用Pyserini复现结果的指南。这一资源为多语言信息检索研究提供了有价值的支持。
查看
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号