#句子嵌入
SimCSE - 简单便捷的句子嵌入对比学习工具
Github开源项目对比学习SimCSE句子嵌入无监督学习有监督学习
SimCSE项目提供一个简单的句子嵌入对比学习框架,支持有标签和无标签数据。无监督模型使用标准dropout通过输入句子预测自身,有监督模型利用NLI数据集的注释对进行对比学习。用户可以轻松安装并使用SimCSE进行句子嵌入、相似性计算和句子检索。该项目支持HuggingFace集成和faiss相似性搜索库,并提供全面的模型评估和训练脚本。详细信息和代码请参阅SimCSE仓库。
SONAR - 先进的多语言多模态句子表示模型
Github开源项目多语言多模态机器翻译句子嵌入SONAR
SONAR是Meta AI推出的开源多语言多模态句子表示模型。它支持200种语言的文本处理和37种语言的语音处理,在多语言相似性搜索任务中性能优异。SONAR可用于文本和语音嵌入、文本重构、跨语言翻译等多种自然语言处理任务,为多语言多模态AI应用提供了强大的基础。
bert-base-nli-stsb-mean-tokens - 句子嵌入与语义搜索的基础模型
Github开源项目模型Huggingfacesentence-transformers句子嵌入BERT模型句子相似性变形金刚
此模型能将句子和段落映射为768维向量,适用于分类和语义搜索。但由于其生成的嵌入质量不佳,已被弃用。建议使用最新的模型以提升效果。通过安装sentence-transformers库或使用HuggingFace Transformers,都能实现向量转换功能。
amd-partial-phonetree-v1 - 融合句子转换器和对比学习的高效文本分类模型
Github开源项目模型Huggingface文本分类句子嵌入SetFit少样本学习Logistic回归
SetFit模型结合sentence-transformers/paraphrase-mpnet-base-v2,通过高效的少样本学习实现文本分类。模型采用对比学习微调句子转换器和训练LogisticRegression分类头,具有优异的分类性能。支持最大512标记长度,适用于电话语音邮件和电话树分类需求。模型适合需要高效文本分类的研发人员和数据科学家使用。
allenai-specter - 基于Sentence-Transformers的科学文献相似度建模
Github开源项目模型Huggingface句子嵌入特征提取句子相似性科学出版物AllenAI SPECTER
该模型将AllenAI SPECTER转化为Sentence-Transformers框架,可用于将科学文献的标题和摘要映射至向量空间以计算相似度。在安装Sentence-Transformers库后,用户能轻松进行相似度计算,同时也支持从HuggingFace Transformers加载模型。本文档还展示了如何使用池化操作聚合上下文词嵌入。
all-MiniLM-L6-v2 - 高性能句子嵌入模型实现多种NLP任务
Github开源项目自然语言处理语义搜索模型Huggingface迁移学习sentence-transformers句子嵌入
all-MiniLM-L6-v2是一个基于sentence-transformers的句子嵌入模型。它能将文本映射至384维向量空间,在超11亿对句子上微调而成。该模型适用于语义搜索、聚类等多种NLP任务,采用对比学习方法生成高质量嵌入。通过sentence-transformers或Hugging Face Transformers库,可轻松集成到各类应用中。在多项基准测试中,all-MiniLM-L6-v2展现出优异性能。
bge-large-en-v1.5 - Transformers.js适配的ONNX模型及其应用简介
Github开源项目模型ONNXHuggingface余弦相似度句子嵌入特征提取Transformers.js
该开源项目使用ONNX权重,以在Transformers.js环境下实现模型兼容。通过特征提取管道,用户能够高效计算句子嵌入,实现文本语义分析与快速检索,提升JavaScript环境下的文本处理效率。
xiaobu-embedding-v2 - 中文语义嵌入模型适用于广泛NLP任务
Github开源项目模型Huggingface信息检索MTEB文本分类句子嵌入语义相似度
xiaobu-embedding-v2是一款中文语义嵌入模型,在多项自然语言处理任务中表现出色。该模型在文本相似度、分类、聚类、重排序和检索等方面均有良好表现,尤其在MTEB基准测试中成绩突出。这个模型可应用于问答系统、搜索优化和情感分析等多种实际场景。
ATTACK-BERT - ATT&CK BERT网络安全语义分析模型
Github开源项目语言模型模型网络安全Huggingface句子嵌入语义相似度ATT&CK BERT
ATT&CK BERT是一个专门针对网络安全领域的语言模型,基于sentence-transformers框架开发。该模型能够将描述攻击行为的句子转化为语义嵌入向量,有效分析句子间的语义相似度。ATT&CK BERT通过sentence-transformers库实现简单部署,还可与SMET工具配合使用,实现文本到ATT&CK技术的映射,为网络安全分析提供有力支持。
all_datasets_v4_MiniLM-L6 - 大规模数据集训练的高效句向量模型用于多语言语义表示
Github开源项目模型NLPHuggingface对比学习Flax句子嵌入语义相似度
all_datasets_v4_MiniLM-L6是一个基于MiniLM-L6预训练模型的句向量模型,通过10亿句对数据集微调而成。该模型采用对比学习方法,可生成捕捉句子语义信息的向量表示。适用于信息检索、聚类和句子相似度等任务,可通过SentenceTransformers库使用。模型在TPU上训练540k步,批量大小为1024,性能优异,应用范围广泛。
stsb-roberta-large - 已弃用的1024维句子嵌入模型
Github开源项目自然语言处理模型RoBERTaHuggingfacesentence-transformers句子嵌入语义相似度
stsb-roberta-large是一个基于sentence-transformers的已弃用模型,可将句子和段落映射到1024维向量空间。虽不再推荐使用,但它仍可用于聚类和语义搜索任务,并为理解句子嵌入技术提供参考。该模型基于RoBERTa架构,使用平均池化生成句子嵌入,可通过sentence-transformers或HuggingFace Transformers库轻松实现。
sentence-transformers-e5-large-v2 - 句子向量化模型实现文本相似度检索和聚类
Github开源项目自然语言处理语义搜索模型Huggingfacesentence-transformers句子嵌入embaas API
sentence-transformers-e5-large-v2模型是intfloat/e5-large-v2的改进版本,能将文本映射至1024维向量空间。该模型在聚类和语义搜索方面表现出色,支持通过sentence-transformers库或embaas API快速集成。模型在MTEB评测中获得优异成绩,为文本嵌入和相似度计算提供了有力支持。
multi-qa-MiniLM-L6-dot-v1 - 多语言句子相似度模型,支持语义搜索
Github开源项目语义搜索模型Huggingface句子嵌入句子相似度multi-qa-MiniLM-L6-dot-v1自监督对比学习
multi-qa-MiniLM-L6-dot-v1是一个专为语义搜索设计的句子嵌入模型,将文本转化为384维的密集向量。此模型训练于215M个问题和答案对,可处理多种数据来源。用户可通过sentence-transformers轻松加载模型进行查询和文档编码,从而计算点积相似度分数,实现相关性排序。除了基础功能外,该模型同样支持HuggingFace Transformers的复杂上下文嵌入处理,能有效提升语义搜索效率,适用于不超过512词片的文本。
stsb-distilbert-base - 语义搜索与聚类任务的句子嵌入模型
Github开源项目自然语言处理语义搜索模型机器学习模型Huggingfacesentence-transformers句子嵌入
此模型将句子和段落转换为768维的稠密向量,适用于语义搜索和聚类任务。然而,由于其性能已不再是最优,建议选择更优质的句子嵌入模型。如需使用,可通过安装sentence-transformers库轻松实现,或使用HuggingFace Transformers进行更高级的处理,如加入注意力掩码的平均池化。尽管模型效能下降,其架构仍有参考价值。
sbert_large_mt_nlu_ru - 大规模多任务俄语句子嵌入模型
Github开源项目自然语言处理BERT模型Huggingface多任务学习句子嵌入俄语模型
这是一个基于BERT架构的大规模多任务模型,用于生成俄语句子嵌入。模型采用平均池化策略处理token embeddings,已完成Russian SuperGLUE基准测试验证。通过HuggingFace模型库可实现多句俄语文本的嵌入计算。该模型由SberDevices团队开发,致力于提升俄语自然语言处理能力。
multi-qa-mpnet-base-dot-v1 - 基于自监督对比学习的句子语义搜索模型
Github开源项目语义搜索模型Huggingface对比学习sentence-transformers句子嵌入句子相似度
该模型用于提升语义搜索能力,将句子和段落映射至768维向量空间,达成高效信息检索。训练依托逾2.15亿问答对,覆盖丰富数据集与平台。模型应用CLS池化与点积相似度评估,适合处理有限文本语义匹配,同时支持sentence-transformers与HuggingFace Transformers两种使用方式,满足不同开发者需求。
paraphrase-TinyBERT-L6-v2 - 轻量级句子嵌入模型支持语义搜索与文本聚类
Github开源项目自然语言处理语义搜索模型Huggingfacesentence-transformers句子嵌入TinyBERT
paraphrase-TinyBERT-L6-v2是基于sentence-transformers的句子嵌入模型,将句子和段落映射到768维密集向量空间。模型采用轻量级架构,主要应用于语义搜索和文本聚类。支持通过sentence-transformers或HuggingFace Transformers库进行调用,适用于计算资源受限的应用场景。
cross-encoder-russian-msmarco - 高效的俄文跨编码器模型用于信息检索
Github开源项目模型Huggingface信息检索文本分类句子嵌入DiTy/cross-encoder-russian-msmarcoDeepPavlov/rubert-base-cased
此开源模型基于DeepPavlov/rubert-base-cased,并经过MS-MARCO数据集优化,专用于俄语信息检索,支持高效的查询和段落相关性排序。通过安装sentence-transformers可直接使用,也可通过HuggingFace Transformers扩展文本分类功能,适合需处理俄语复杂文本的用户。
sentence-bert-base-italian-xxl-uncased - 提升语义分析与聚类效果的意大利语句子相似度模型
Github开源项目自然语言处理模型训练模型Huggingfacesentence-transformers句子嵌入句子相似性
这个意大利语句子相似度模型能将文本映射到768维度的密集向量空间,适用于语义搜索和语句聚类。其基于dbmdz/bert-base-italian-xxl-uncased构建,为文本理解与分析提供支持。在sentence-transformers库的支持下,模型的安装与使用变得极为简便,即使不使用该库,也可通过HuggingFace Transformers实现。其性能在Sentence Embeddings Benchmark中经过自动化评估,可供参考。
USER-bge-m3 - 专为俄语优化的高性能文本嵌入模型
Github开源项目自然语言处理模型Huggingface句子嵌入语义相似度俄语句向量USER-bge-m3
USER-bge-m3是一个为俄语优化的文本嵌入模型,基于bge-m3架构开发。该模型能将俄语句子和段落转换为1024维向量表示,适用于聚类和语义搜索等任务。通过创新的训练方法,如数据对称性微调和LM-Cocktail模型融合,USER-bge-m3在多个俄语基准测试中表现出色,超越了原始bge-m3模型的性能。
labse_bert - 多语言BERT句子嵌入模型及其应用
Github开源项目自然语言处理多语言处理模型Huggingface句子嵌入LABSE BERT模型应用
LaBSE BERT是一种语言无关的句子嵌入模型,由Fangxiaoyu Feng等人开发并在TensorFlow Hub上提供。该模型能够将文本转换为高效的向量表示,适用于多语言文本处理。利用AutoTokenizer和AutoModel加载模型,并通过mean_pooling方法获取句子嵌入,以增强文本分析和信息检索等领域的性能。使用PyTorch实现编码和处理,多语言文本分析更加轻松。
LaBSE - 基于BERT的多语言句子编码引擎 助力跨语言语义检索
Github开源项目自然语言处理多语言BERT模型Huggingface句子嵌入LaBSE
作为Google开源的多语言句子编码模型,LaBSE整合掩码语言建模与翻译语言建模技术,实现109种语言的高效句子嵌入。经CommonCrawl和维基百科数据集训练,可用于跨语言语义相似度计算和双语文本检索,并支持完整Python接口调用
unsup-simcse-bert-base-uncased - 无监督对比学习的BERT句向量提取模型
Github开源项目自然语言处理BERT模型HuggingfaceSimCSE句子嵌入特征提取
Princeton NLP小组开发的SimCSE模型采用BERT架构和无监督对比学习方法,通过英文维基百科数据训练而成。该模型能够有效提取文本特征,在保持语义对齐的同时优化了向量分布,主要应用于句子相似度计算和自然语言处理任务。
cde-small-v1 - 增强文本分类与信息检索能力的多任务模型
Github开源项目模型分类HuggingfaceMTEB句子嵌入聚类检索
该项目在多任务环境下表现优异,尤其在文本分类与检索任务中。模型在多个数据集上表现出高准确率与精度,广泛适用于商业、教育与研究领域。其卓越的性能满足了对高精确度的需求,提供了一致而可靠的结果。
ko-sroberta-nli - 韩语句子语义嵌入的开源模型
Github开源项目语义搜索模型Huggingface句子嵌入句子相似度韩国语ko-sroberta-nli
ko-sroberta-nli模型通过将韩语文本转换为768维向量,支持多种自然语言处理任务如聚类和语义搜索。它在KorNLI和KorSTS数据集上的评估结果值得关注,且允许在不使用sentence-transformers时结合Hugging Face Transformers进行操作,实现灵活的词嵌入应用。这款工具具备便捷的安装和操作,可高效提升韩语语义处理能力。
bert-large-nli-mean-tokens - 句子相似性嵌入与聚类应用
Github开源项目预训练模型BERT模型Huggingfacesentence-transformers句子嵌入句子相似性
该模型为sentence-transformers的一部分,能够将句子和段落转化为1024维的密集向量空间,用于聚类和语义搜索。虽然该模型已被标记为弃用且句子嵌入质量较低,推荐选择其他更优质的模型。适用的工具可以通过pip安装,并提供Python实现的代码示例。尽管如此,该模型仍作为一种句子嵌入学习方法的参考,对自然语言处理技术爱好者具有借鉴意义。
multi-sentence-BERTino - 意大利语句子嵌入模型的功能与应用
Github开源项目语义搜索模型Huggingface句子嵌入句子相似性意大利语multi-sentence-BERTino
multi-sentence-BERTino是专为意大利语设计的句子嵌入模型,依托sentence-transformers实现高效的建模。该模型使用mmarco italian和stsb italian数据集进行训练,可用于语义搜索和聚类,支持两种操作方式:使用sentence-transformers库或HuggingFace Transformers。文档包含训练参数和评估结果,详细描述了完整模型架构,适合各种自然语言处理任务。
sentence-camembert-base - 提供法语句子嵌入的先进方法,有效提升文本相似度
Github开源项目模型模型评估Huggingface句子嵌入句子相似性法语sentence-camembert-base
该模型利用预训练的Camembert-base和Siamese BERT-Networks微调,为法语句子嵌入提供了先进的方法,通过训练在stsb_multi_mt数据集上,有效提升文本相似度精确性。测试中Pearson相关系数达到82.36,适合从事法语内容分析的开发者,助力提高自然语言处理任务的准确性和效率。
nq-distilbert-base-v1 - 句子向量化提升语义搜索与聚类效率
Github开源项目Transformer模型模型评估Huggingfacesentence-transformers句子嵌入句子相似度
nq-distilbert-base-v1模型以sentence-transformers为基础,将句子和段落转换为768维向量,以支持聚类和语义搜索任务。通过安装sentence-transformers库可轻松使用,具备丰富的使用选项,包括通过HuggingFace Transformers实现上下文嵌入和均值池化等应用,广泛适用于文本相似性评估、内容聚类和语义检索等自然语言处理任务,提供可靠性能与灵活应用场景。