#检索系统

stark - 大规模半结构化检索基准，推动LLM性能提升

STaRK知识基查询数据集检索系统大规模Github开源项目

STaRK提供一个大规模的半结构化检索基准，涵盖产品搜索、学术论文检索和生物医学查询，旨在评估和提升LLM在文本与关系型知识库中的检索效果。该基准含有多样化和现实的查询，要求上下文相关推理，为未来研究提供有力支持。STaRK已在Hugging Face平台发布，并可以通过pip包直接加载，支持用户互动查询的探索性界面。更多详情请访问官方网站。

open-metric-learning - 开源的PyTorch度量学习框架支持多模态嵌入训练

open-metric-learning度量学习嵌入向量PyTorch检索系统Github开源项目

open-metric-learning是一个基于PyTorch的开源度量学习框架，用于训练和验证高质量嵌入模型。它提供端到端流水线、实用案例和预训练模型库，支持图像和文本等多种模态。该框架具有统一的检索结果处理和评估方法，适用于人脸识别、商品搜索等嵌入学习任务。已被多家知名公司和机构采用，是一个功能丰富、易于上手的度量学习工具。

GLuCoSE-base-ja-v2 - 专为日本文本检索及句子相似度设计的嵌入模型

开源项目句子相似性模型对比学习HuggingfaceGLuCoSE v2检索系统日语文本处理Github

模型专注于日本文本处理，可在CPU上运行，提升检索任务性能。通过蒸馏大规模嵌入及多阶段对比学习，GLuCoSE v2在MIRACL等任务中的表现出色。其支持语义相似度测量，适用于查询和段落检索，使用余弦相似度函数，支持512标记的输入，生成768维输出。

efficient-splade-VI-BT-large-query - SPLADE模型优化文档检索速度和精确度

Huggingface模型SPLADE信息检索Github开源项目效率优化检索系统神经网络模型

efficient-splade-VI-BT-large-query是一款高效的文档检索SPLADE模型。该模型采用查询和文档推理分离架构，在MS MARCO数据集上实现38.0 MRR@10和97.8 R@1000的性能，查询推理延迟仅0.7毫秒。通过L1正则化和FLOPS正则化等技术，模型在保持接近先进单阶段神经排序器性能的同时，将延迟控制在与BM25相近水平，实现了效率与性能的平衡。

相关文章

Article Cover

STaRK: 在文本和关系型知识库上评估大语言模型检索能力的基准

Article Cover

OpenMetricLearning:开源度量学习框架的新时代

Article Cover

STaRK学习资料汇总 - 大规模半结构化检索基准

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号