#信息检索

msmarco-MiniLM-L12-en-de-v1 - 基于MS MARCO的英德双语文本重排序模型
Github模型自然语言处理跨语言检索模型Huggingface德英翻译信息检索开源项目MS Marco
基于MS MARCO数据集开发的英德双语跨编码器模型,主要用于文本段落重排序。模型在TREC-DL19评测中NDCG@10分别达到72.94(英-英)和66.07(德-英),在GermanDPR数据集上MRR@10为49.91。支持SentenceTransformers和Transformers框架,处理速度为900对文档/秒,适用于跨语言信息检索场景。
MedEmbed-small-v0.1 - 模型在医疗信息检索和分类中的应用
开源项目MedEmbed模型信息检索Huggingface医疗嵌入句子变换器Github临床嵌入
项目专注于利用组合数据集进行信息检索与分类操作,如MedicalQARetrieval、NFCorpus和PublicHealthQA等。模型的评估指标包括精确率、召回率和F1-分数,在多任务如医疗问答和亚马逊评论分类中展现了良好性能。分类和检索任务测试结果显示,该模型在精度和性能上表现优异,为医疗嵌入和临床信息检索提供了有效的解决方案。
cross-encoder-russian-msmarco - 高效的俄文跨编码器模型用于信息检索
GithubDiTy/cross-encoder-russian-msmarco开源项目DeepPavlov/rubert-base-casedHuggingface信息检索模型句子嵌入文本分类
此开源模型基于DeepPavlov/rubert-base-cased,并经过MS-MARCO数据集优化,专用于俄语信息检索,支持高效的查询和段落相关性排序。通过安装sentence-transformers可直接使用,也可通过HuggingFace Transformers扩展文本分类功能,适合需处理俄语复杂文本的用户。
msmarco-MiniLM-L6-en-de-v1 - MSMARCO跨语言文本重排序模型 支持英德双向检索
Github开源项目信息检索搜索排序HuggingfaceMS MARCO跨语言模型性能评估模型
这是一个基于MS MARCO数据集训练的跨语言文本重排序模型,支持英语和德语文本的相关性排序。模型可处理英语-英语、德语-英语和德语-德语的文本匹配任务。在TREC-DL19和GermanDPR基准测试中表现出色,处理速度可达每秒1600个文档对。兼容SentenceTransformers和Transformers框架,为跨语言信息检索应用提供了高效方案。
tct_colbert-msmarco - 知识蒸馏技术驱动的密集文档检索深度学习模型
模型训练深度学习信息检索HuggingfaceTCT-ColBERT排序优化Github开源项目模型
TCT-ColBERT是一个采用知识蒸馏技术的密集文档检索模型。该模型通过教师模型紧耦合方法,实现了BERT模型的轻量化,在维持检索效果的同时提高了运行效率。项目支持Pyserini框架集成,提供完整的模型实现代码。
InRanker-base - 增强跨领域场景信息检索的AI解决方案
InRanker信息检索无监督学习模型蒸馏HuggingfaceGithub开源项目模型语言模型
InRanker通过语言模型和重排序技术,在无需额外查询或人工标注的情况下提升跨领域信息检索能力。其双重蒸馏训练策略有效生成训练数据,从而优化了模型性能,并保持易用特性。
LLM2Vec-Sheared-LLaMA-mntp-unsup-simcse - 基于LLaMA的无监督语言模型嵌入技术
Github信息检索模型句子相似度文本分类开源项目Huggingface文本嵌入MTEB
LLM2Vec-Sheared-LLaMA-mntp-unsup-simcse 是一种基于LLaMA模型的无监督语言模型嵌入技术。该项目通过剪枝和对比学习等方法优化模型,在文本分类、信息检索、聚类等多种NLP任务中表现优异。项目进行了广泛的评估,为自然语言处理领域提供了一种高效的文本表示学习方法。
ms-marco-TinyBERT-L-6 - 跨编码器在信息检索与重排序中的应用
SentenceTransformers信息检索HuggingfaceGithub开源项目模型模型性能MS MarcoCross-Encoder
TinyBERT-L-6模型在MS Marco Passage Ranking任务中进行了优化,解决信息检索中的查询与段落排序问题。该模型通过交叉编码器实现高效的信息检索,提升查准率并缩短排序时间。支持Transformers与SentenceTransformers工具使用,简化实现流程,展示良好性能。项目提供详尽的训练代码和性能评估,助力深度学习场景下的信息处理任务优化。
mmarco-mMiniLMv2-L12-H384-v1 - 支持多语言的MMARCO跨编码器模型
Google翻译模型训练开源项目Cross-Encoder模型多语言信息检索HuggingfaceGithub
MMARCO-MiniLMv2-L12-H384-v1模型使用MMARCO数据集,以Google Translate翻译为14种语言,基于多语言MiniLMv2训练,主要用于信息检索。借助SentenceTransformers工具,用户可以对查询进行编码和排序,实现高效的信息检索。详细信息和训练代码可在SBERT.net及GitHub上查看,适用于多语言环境的信息检索。
halong_embedding - 优化的信息检索与越南文本嵌入模型
越南语余弦相似度信息检索开源项目模型GithubHalong Embedding句子转换器Huggingface
这个模型专注于越南语文本嵌入,利用RAG以提高生产效率,并采用Matryoshka损失来实现嵌入截断,从而加快比较速度。微调于intfloat/multilingual-e5-base模型,该模型适用于语义文本相似性、搜索和文本分类等任务,映射到784维密集向量空间,支持多语种处理。在多个余弦相似度指标中具有卓越表现,如cosine accuracy@10达到0.9687,提供高效的信息检索和分类解决方案。