热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#文本检索
bm25s
BM25S为基于Python的文本检索排名函数,使用Scipy稀疏矩阵实现快速响应。其性能显著优于传统库,支持多种BM25变体,提供灵活API及Hugging Face集成,适合大规模数据的内存效率处理。
loft
LOFT是一个长文本处理基准,包含6类30多个数据集,涵盖检索、多跳推理等任务。该项目提供多模态数据、评估代码和数据集重生成工具,旨在测试大规模语言模型的长文本处理能力。LOFT为研究人员提供了标准化平台,用于全面评估长文本语言模型性能,有助于推动自然语言处理技术发展。
terrier-core
terrier-core是一个开源搜索引擎平台,专为大规模文档集合设计。它提供先进的索引和检索功能,支持快速开发和评估大规模检索应用。该平台兼容TREC和CLEF测试集,适用于文本检索研究。最新版本集成Python接口PyTerrier,便于在Jupyter或Colab环境中进行实验。
pisa
PISA是一款开源的高性能文本搜索引擎,专门面向大规模文档集合。该引擎使用C++开发,具备解析、索引和分片等功能,并实现了多种索引压缩方法和查询处理算法。PISA支持构建倒排索引、执行布尔查询和文档排序,适用于信息检索研究及通用搜索系统。它可以处理包含5000万网页文档的大型语料库,并在毫秒级别内返回搜索结果,为研究人员提供了高效的实验平台。
相关文章
BM25S: 基于稀疏矩阵的超快速文本检索库
2 个月前
LOFT: 一个百万级长文本处理基准测试平台
2 个月前
PISA: 全球学生评估项目与高性能搜索引擎的融合
2 个月前
Terrier-core: 强大灵活的开源信息检索平台
2 个月前
BM25S入门指南 - 快速高效的Python词法搜索库
1 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号