#密集检索

retriv: 一款面向人类的Python搜索引擎

2024年09月05日

retriv 搜索引擎信息检索稀疏检索密集检索 Github 开源项目

2024年09月05日

相关项目

retriv

retriv是一个Python搜索引擎库，支持稀疏、密集和混合检索模式。它利用Numba进行向量运算加速，整合了PyTorch、Transformers和Faiss等工具，实现了高效的检索功能。该库提供自动调优，支持多语言处理，并可通过简单的API快速构建搜索系统。

dragon-plus-context-encoder

dragon-plus-context-encoder是一个基于BERT的密集检索器，由RetroMAE初始化并在MS MARCO语料库上进行了进一步训练。该模型使用非对称双编码器结构，在MARCO Dev和BEIR基准测试中分别达到39.0和47.4的得分。通过HuggingFace Transformers，研究人员可以轻松使用该模型进行查询和上下文编码，实现文本相似度计算和文档检索。此外，项目还提供了基于RoBERTa的变体，为不同需求的用户提供了选择。

dragon-plus-query-encoder

DRAGON+是一个基于BERT的先进密集检索模型，采用非对称双编码器结构。该模型从RetroMAE初始化，并在MS MARCO语料库的增强数据上进行训练。在MARCO Dev和BEIR基准测试中，DRAGON+展现出卓越性能，适用于文本检索和特征提取任务。研究人员和开发者可通过HuggingFace Transformers库轻松使用DRAGON+进行查询和上下文编码。

tct_colbert-v2-hnp-msmarco

该项目旨在再现 TCT-ColBERT-V2 的变体，通过知识蒸馏与批内负例实现高效密集检索。详细的实验报告已发布在 Pyserini 上，为研究人员提供再现过程和结果分析。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com