#文本检索

bm25s - 为文本检索提供极速Python BM25实现

Github开源项目PythonBM25文本检索ScipyElasticsearch

BM25S为基于Python的文本检索排名函数，使用Scipy稀疏矩阵实现快速响应。其性能显著优于传统库，支持多种BM25变体，提供灵活API及Hugging Face集成，适合大规模数据的内存效率处理。

loft - 探索百万级token长文本处理的前沿基准

Github开源项目语言模型文本检索LOFT长上下文基准多模态任务

LOFT是一个长文本处理基准，包含6类30多个数据集，涵盖检索、多跳推理等任务。该项目提供多模态数据、评估代码和数据集重生成工具，旨在测试大规模语言模型的长文本处理能力。LOFT为研究人员提供了标准化平台，用于全面评估长文本语言模型性能，有助于推动自然语言处理技术发展。

terrier-core - 开源大规模文档检索引擎平台

Github开源项目开源软件搜索引擎文本检索信息检索Terrier

terrier-core是一个开源搜索引擎平台，专为大规模文档集合设计。它提供先进的索引和检索功能，支持快速开发和评估大规模检索应用。该平台兼容TREC和CLEF测试集，适用于文本检索研究。最新版本集成Python接口PyTerrier，便于在Jupyter或Colab环境中进行实验。

pisa - 高效率大规模文本搜索引擎

Github开源项目搜索引擎文本检索信息检索PISA倒排索引

PISA是一款开源的高性能文本搜索引擎，专门面向大规模文档集合。该引擎使用C++开发，具备解析、索引和分片等功能，并实现了多种索引压缩方法和查询处理算法。PISA支持构建倒排索引、执行布尔查询和文档排序，适用于信息检索研究及通用搜索系统。它可以处理包含5000万网页文档的大型语料库，并在毫秒级别内返回搜索结果，为研究人员提供了高效的实验平台。

KoE5 - 一种新颖的多语言模型，专注于增强韩文文本检索性能

Github开源项目模型Huggingface文本检索多语言嵌入KoreanSentenceTransformerKoE5

KoE5是一个开源项目，旨在优化韩文文本检索，具有卓越的特征提取能力。模型在intfloat/multilingual-e5-large的基础上进行了微调，并利用ko-triplet-v1.0数据集进行优化，使其适合于复杂文本检索任务，例如信息检索和语义相似性分析。客观上，它在韩文查询处理方面表现出色，广泛应用于多语言嵌入模型的挑战中。

clip-japanese-base - 日语CLIP模型，支持图像和文本的零样本分类与检索

Github开源项目BERT模型CLIP图像分类Huggingface文本检索视觉任务

该日语CLIP模型由LY Corporation开发，通过大约10亿对图文数据进行训练，适用于图像和文本的零样本分类与检索。该模型采用Eva02-B作为图像编码器，并使用12层BERT作为文本编码器。模型在图像分类中的准确率达到0.89，检索召回率为0.30。在评估中，使用了STAIR Captions和ImageNet-1K等数据集，表现优秀。模型已开源，遵循Apache 2.0协议。

splade-v3 - SPLADE-v3稀疏神经信息检索模型的最新进展

Github开源项目自然语言处理机器学习模型HuggingfaceSPLADE文本检索信息检索

SPLADE-v3是SPLADE系列的最新稀疏神经信息检索模型，基于SPLADE++SelfDistil优化而来。该模型采用KL散度和MarginMSE混合损失函数，每次查询选取8个负样本进行训练。在性能方面，SPLADE-v3在MS MARCO开发集上达到40.2的MRR@10分数，BEIR-13测试中获得51.7的平均nDCG@10。这一成果为稀疏神经信息检索领域树立了新标准。研究人员可以通过GitHub平台获取并应用SPLADE-v3模型，以提升信息检索效果。

jina-clip-v1 - 集成文本图像检索与文本相似度分析的多模态嵌入模型

Github开源项目模型CLIPHuggingfaceJina AI文本检索图像检索多模态嵌入

jina-clip-v1是Jina AI开发的英语多模态嵌入模型，支持高效文本-图像和文本-文本检索。它结合了传统文本嵌入和跨模态模型的优势，适用于多模态检索增强生成应用。该模型在Flickr和MSCOCO跨模态检索任务中表现出色，文本相似度评估能力也与专业文本嵌入模型相当。

distilbert-dot-tas_b-b256-msmarco - 基于平衡主题感知采样的高效密集检索方案

Github开源项目模型知识蒸馏Huggingface文本检索DistilBertMSMARCOBERT_Dot

本项目提供了一个基于DistilBERT的密集文本检索模型，采用双编码器结构和点积评分机制。该模型使用平衡主题感知采样(TAS-B)方法在MS MARCO数据集上训练，可用于候选集重排序或直接进行向量索引密集检索。模型在多个测试集上展现出优于BM25基线的检索性能。其特点包括高效训练（单GPU 48小时内完成）和保留原始DistilBERT的6层架构。这一方案为高效密集检索提供了新的解决思路。

LLM2Vec-Meta-Llama-3-8B-Instruct-mntp-supervised - LLM2Vec-Meta-Llama-3-8B模型——文本嵌入与语义相似度的高效工具

Github开源项目模型分类Huggingface文本检索特征提取句子相似度LLM2Vec-Meta-Llama-3-supervised

LLM2Vec-Meta-Llama-3-8B-Instruct-mntp项目提供了创新的文本嵌入技术，支持文本分类、信息检索、重排序和聚类等多种任务。通过其监督模型，有效提升精度和召回率，如在Amazon反事实分类任务中准确率达79.94%，在ArguAna数据集的检索任务中各项指标优异。此项目在多种自然语言处理中展现出显著应用潜力，是评价文本语义相似度的关键工具。

相关文章

Article Cover

BM25S: 基于稀疏矩阵的超快速文本检索库

Article Cover

LOFT: 一个百万级长文本处理基准测试平台

Article Cover

PISA: 全球学生评估项目与高性能搜索引擎的融合

Article Cover

Terrier-core: 强大灵活的开源信息检索平台

Article Cover

BM25S入门指南 - 快速高效的Python词法搜索库

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号