项目介绍
这是一个名为"bert-multilingual-passage-reranking-msmarco"的多语言段落重排序模型项目。该项目旨在提高搜索引擎的相关性,可以将搜索结果的相关性提升高达100%。
模型描述
该模型基于BERT(Bidirectional Encoder Representations from Transformers)架构,在其上增加了一个密集连接的神经网络。它支持超过100种语言的输入,可以处理搜索查询和文本段落,计算两者之间的匹配程度。
模型的输入包括:
- 搜索查询
- 文本段落
模型的输出是一个介于-10到10之间的单一数值,数值越高表示查询和段落的匹配程度越高。
使用方法与限制
使用时需注意:
- 查询和段落的总长度不能超过512个token。
- 通常用于重新排序几十个搜索结果,每次查询的推理时间约为300毫秒。
该模型可以作为Nboost库的即插即用替代品,直接用于改善Elasticsearch的搜索结果。
训练数据与过程
模型使用Microsoft MS Marco数据集进行训练,包含约4亿对查询、相关段落和不相关段落的数据。训练过程参考了NYU的相关论文,但将英语BERT模型替换为多语言无大小写BERT模型。训练持续了40万步,耗时12小时,使用了TPU V3-8。
评估结果
在英语Bing查询数据集上,该模型的性能与仅支持英语的模型相近。内部测试显示,它在德语上的准确率远高于其他可用模型。与基准ElasticSearch相比,该模型可将搜索结果相关性提高61%。
总结
这是一个强大的多语言搜索优化工具,可显著提升搜索引擎的性能。它支持广泛的语言,适用于各种搜索场景,尤其适合需要处理多语言内容的应用。