#BM25
bm25s - 为文本检索提供极速Python BM25实现
BM25文本检索PythonScipyElasticsearchGithub开源项目
BM25S为基于Python的文本检索排名函数,使用Scipy稀疏矩阵实现快速响应。其性能显著优于传统库,支持多种BM25变体,提供灵活API及Hugging Face集成,适合大规模数据的内存效率处理。
neural-cherche - 专注于神经搜索模型微调和快速推理的工具库
Neural-ChercheColBERTSpladeSparseEmbedBM25Github开源项目
Neural-Cherche 是一个专为微调和推理神经搜索模型(如 Splade、ColBERT 和 SparseEmbed)设计的库,兼容多种设备。通过该库,用户可以高效地进行模型微调,并在离线和在线环境中执行推理。此外,Neural-Cherche 提供多种检索器和排序器,支持保存嵌入以避免重复计算,适用于多种信息检索任务,并附有便捷的安装步骤和详细文档。
rank_bm25 - Python实现的BM25文本检索算法库
BM25搜索引擎文档排序相关性算法文本处理Github开源项目
Rank-BM25是一个开源的Python文本检索库,实现了多种BM25算法变体,如Okapi BM25、BM25L和BM25+。该项目提供简洁的API,支持文档索引、评分和排序。用户可自行处理文本预处理,灵活应用于各类检索任务。Rank-BM25适合构建小型搜索引擎或用于信息检索研究,具有易用性和可扩展性。
searcharray - 将Pandas字符串列转换为搜索索引的Python工具
SearchArrayPandasBM25全文搜索词项索引Github开源项目
SearchArray是一个Python库,用于将Pandas字符串列转换为词项索引。它支持BM25和TFIDF评分,实现高效的词和短语搜索。该工具提供自定义分词器、内存映射和相似度计算功能,简化了Python数据处理中的词法搜索。SearchArray适用于搜索相关性实验和结果重排序,可与其他数据处理任务无缝集成。
相关文章