#重排序
FlashRank
FlashRank是一款极速、超轻量的Python库,专为优化搜索和检索流程设计。基于最新的SoTA大规模语言模型和交叉编码器,支持多种再排序模式并能在常规CPU上运行。模型轻至4MB,适合AWS Lambda等无服务器环境,有效减低运行成本,提升处理效率。适合多样化的部署场景和搜索策略,是提升搜索效率的优选工具。
LLM4IR-Survey
LLM4IR-Survey项目汇集了大语言模型在信息检索领域应用的相关研究论文。项目涵盖查询重写、检索、重排序、阅读理解和搜索代理等方向,全面展示大语言模型在信息检索各环节的应用。 该资源持续更新,反映最新研究进展和创新应用,为该领域的研究人员和从业者提供重要参考。
RankGPT
RankGPT项目研究如何利用ChatGPT等大语言模型改进信息检索排序。该项目提出指令排列生成技术和滑动窗口策略,解决了长文本排序问题。实验表明,这种方法在多个基准测试中性能显著。项目还开发了模型蒸馏技术,将大语言模型能力迁移到小型模型,提高了实用性。
monot5-base-msmarco
这个T5-base模型经过在MS MARCO段落数据集上的10万步微调,以提高排序性能。虽然主要适用于MS MARCO数据集,但在其他数据集上进行无监督推理时,建议使用castorini/monot5-base-msmarco-10k版本。可以通过提供的链接查看使用示例,包括简单的重排序示例,以及在MS MARCO和Robust04上的应用。该预训练序列到序列模型在文档排名中的应用已在相关论文中详细描述。
Dmeta-embedding-zh
此开源项目专注于实现多语言特征提取与文本分类的多任务模型,适用于多种MTEB数据集场景。模型实现句子相似度的有效评估,并在分类、聚类、再排序和检索任务中展现出良好的性能。采用多种数学计算方法,如余弦相似度、曼哈顿距离、欧氏距离等,确保结果的精确性与适应性。项目支持中英文文本处理,适用于学术研究及商业应用中的多种场景。