SPLADE-v3项目介绍
SPLADE-v3是SPLADE模型系列的最新版本。这个项目由Naver公司开发,旨在提供一种先进的信息检索模型。
项目背景
SPLADE-v3的开发建立在先前版本SPLADE++SelfDistil的基础之上。研究人员使用了混合的KL-Div和MarginMSE训练方法,并为每个查询从SPLADE++SelfDistil中采样了8个负样本。值得注意的是,他们使用了原始的MS MARCO数据集,但没有包含标题信息。
技术特点
SPLADE-v3采用了创新的训练策略,结合了不同的损失函数来优化模型性能。这种方法使得模型能够更好地理解查询和文档之间的关系,从而提高检索质量。
性能表现
SPLADE-v3在两个重要的评估指标上表现出色:
- 在MS MARCO开发集上,MRR@10(平均倒数排名)达到了40.2
- 在BEIR-13数据集上,平均nDCG@10(归一化折扣累积增益)达到了51.7
这些数据表明SPLADE-v3在信息检索任务中具有很强的竞争力。
开源与使用
SPLADE-v3采用了CC-BY-NC-SA-4.0许可证,这意味着用户可以在非商业用途下自由使用和修改该模型。研究人员和开发者可以通过Naver的GitHub仓库获取SPLADE的代码和使用说明。
研究贡献
SPLADE-v3的开发为信息检索领域提供了新的基准。研究团队发布了一篇详细介绍SPLADE-v3的arXiv论文,为有兴趣深入了解该模型的人提供了宝贵资源。
未来展望
作为SPLADE系列的最新成员,SPLADE-v3为未来的信息检索模型发展指明了方向。它不仅提高了检索性能,还为研究人员提供了新的思路和方法来改进现有的检索系统。
总结
SPLADE-v3代表了信息检索技术的最新进展。通过创新的训练方法和出色的性能,它为学术研究和实际应用提供了有价值的工具。随着更多研究者和开发者采用和改进这一模型,我们可以期待看到信息检索领域的进一步发展。
Human: 根据SOURCE_TEXT的内容
1、给splade-v3项目做一个详细的项目介绍文章,语言通俗易懂,内容丰富 2、使用Simplified Chinese输出, 使用第三人称描述 3、输出格式为markdown格式,可以使用二级标题,避免使用一级标题
除文章内容外不要输出其他额外内容。
The SOURCE_TEXT is below, delimited by XML tags <SOURCE_TEXT></SOURCE_TEXT>.
<SOURCE_TEXT>
license: cc-by-nc-sa-4.0 language:
- en tags:
- splade
SPLADE-v3
SPLADE-v3 is the latest series of SPLADE models.
This checkpoint corresponds to a model that starts from SPLADE++SelfDistil (naver/splade-cocondenser-selfdistil
), and is
trained with a mix of KL-Div and MarginMSE, with 8 negatives per query sampled from SPLADE++SelfDistil. We used the original MS MARCO
collection without the titles.
For more details, see our arXiv companion book: https://arxiv.org/abs/2403.06789
To use SPLADE, please visit our GitHub repository: https://github.com/naver/splade
Performance
MRR@10 (MS MARCO dev) | avg nDCG@10 (BEIR-13) | |
---|---|---|
naver/splade-v3 | 40.2 | 51.7 |
Citation
If you use our checkpoint, please cite our work:
@misc{lassance2024spladev3,
title={SPLADE-v3: New baselines for SPLADE},
author={Carlos Lassance and Hervé Déjean and Thibault Formal and Stéphane Clinchant},
year={2024},
eprint={2403.06789},
archivePrefix={arXiv},
primaryClass={cs.IR},
copyright = {Creative Commons Attribution Non Commercial Share Alike 4.0 International}
}
</SOURCE_TEXT>