项目介绍
opensearch-neural-sparse-encoding-doc-v2-distill是一个专门为OpenSearch开发的神经稀疏编码模型。这个项目旨在提高搜索的相关性和效率,为用户提供更准确、更快速的搜索体验。
模型概述
该模型是一种学习型稀疏检索模型。它将文档编码为30522维的稀疏向量。对于查询,它只使用一个分词器和一个权重查找表来生成稀疏向量。非零维度索引表示词汇表中相应的标记,而权重则表示该标记的重要性。相似度分数是通过查询和文档稀疏向量的内积计算得出的。
性能特点
在实际应用中,opensearch-neural-sparse-encoding-doc-v2-distill的搜索性能可与BM25相媲美。相比于v1系列模型,v2系列在搜索相关性、效率和推理速度方面都有所提升。具体而言:
- 模型参数量为67M,比v1版本的133M减少了近一半。
- 在NDCG@10指标上,平均得分为0.504,高于v1版本的0.490。
- 平均FLOPS(每秒浮点运算次数)为1.8,低于v1版本的2.3,意味着更高的计算效率。
应用场景
该模型主要设计用于OpenSearch集群内运行,但也可以在集群外通过Hugging Face的模型API使用。它支持使用Lucene倒排索引进行学习型稀疏检索,可以通过OpenSearch的高级API进行索引和搜索操作。
训练数据
模型的训练数据集包括MS MARCO、eli5问答、squad配对、WikiAnswers、yahoo问答标题问题等多个来源,涵盖了广泛的领域和问答类型,有助于提高模型的通用性和适应性。
使用方法
使用时,用户可以通过简单的Python代码来加载模型、对查询和文档进行编码,并计算相似度分数。即使查询和文档之间没有重叠的词,该模型仍能实现良好的匹配效果。
许可证和版权
该项目采用Apache v2.0许可证,版权归OpenSearch贡献者所有。这意味着用户可以自由使用、修改和分发该模型,同时需要遵守相关的开源协议规定。
总的来说,opensearch-neural-sparse-encoding-doc-v2-distill代表了神经搜索领域的一个重要进展,为提升搜索质量和效率提供了有力的工具。
markdown
## 项目介绍
opensearch-neural-sparse-encoding-doc-v2-distill是一个专门为OpenSearch开发的神经稀疏编码模型。这个项目旨在提高搜索的相关性和效率,为用户提供更准确、更快速的搜索体验。
### 模型概述
该模型是一种学习型稀疏检索模型。它将文档编码为30522维的稀疏向量。对于查询,它只使用一个分词器和一个权重查找表来生成稀疏向量。非零维度索引表示词汇表中相应的标记,而权重则表示该标记的重要性。相似度分数是通过查询和文档稀疏向量的内积计算得出的。
### 性能特点
在实际应用中,opensearch-neural-sparse-encoding-doc-v2-distill的搜索性能可与BM25相媲美。相比于v1系列模型,v2系列在搜索相关性、效率和推理速度方面都有所提升。具体而言:
1. 模型参数量为67M,比v1版本的133M减少了近一半。
2. 在NDCG@10指标上,平均得分为0.504,高于v1版本的0.490。
3. 平均FLOPS(每秒浮点运算次数)为1.8,低于v1版本的2.3,意味着更高的计算效率。
### 应用场景
该模型主要设计用于OpenSearch集群内运行,但也可以在集群外通过Hugging Face的模型API使用。它支持使用Lucene倒排索引进行学习型稀疏检索,可以通过OpenSearch的高级API进行索引和搜索操作。
### 训练数据
模型的训练数据集包括MS MARCO、eli5问答、squad配对、WikiAnswers、yahoo问答标题问题等多个来源,涵盖了广泛的领域和问答类型,有助于提高模型的通用性和适应性。
### 使用方法
使用时,用户可以通过简单的Python代码来加载模型、对查询和文档进行编码,并计算相似度分数。即使查询和文档之间没有重叠的词,该模型仍能实现良好的匹配效果。
### 许可证和版权
该项目采用Apache v2.0许可证,版权归OpenSearch贡献者所有。这意味着用户可以自由使用、修改和分发该模型,同时需要遵守相关的开源协议规定。
总的来说,opensearch-neural-sparse-encoding-doc-v2-distill代表了神经搜索领域的一个重要进展,为提升搜索质量和效率提供了有力的工具。