#句子嵌入
SimCSE - 简单便捷的句子嵌入对比学习工具
SimCSE句子嵌入对比学习无监督学习有监督学习Github开源项目
SimCSE项目提供一个简单的句子嵌入对比学习框架,支持有标签和无标签数据。无监督模型使用标准dropout通过输入句子预测自身,有监督模型利用NLI数据集的注释对进行对比学习。用户可以轻松安装并使用SimCSE进行句子嵌入、相似性计算和句子检索。该项目支持HuggingFace集成和faiss相似性搜索库,并提供全面的模型评估和训练脚本。详细信息和代码请参阅SimCSE仓库。
SONAR - 先进的多语言多模态句子表示模型
SONAR多语言多模态句子嵌入机器翻译Github开源项目
SONAR是Meta AI推出的开源多语言多模态句子表示模型。它支持200种语言的文本处理和37种语言的语音处理,在多语言相似性搜索任务中性能优异。SONAR可用于文本和语音嵌入、文本重构、跨语言翻译等多种自然语言处理任务,为多语言多模态AI应用提供了强大的基础。
bert-base-nli-stsb-mean-tokens - 句子嵌入与语义搜索的基础模型
变形金刚HuggingfaceBERT模型开源项目模型句子嵌入Githubsentence-transformers句子相似性
此模型能将句子和段落映射为768维向量,适用于分类和语义搜索。但由于其生成的嵌入质量不佳,已被弃用。建议使用最新的模型以提升效果。通过安装sentence-transformers库或使用HuggingFace Transformers,都能实现向量转换功能。
amd-partial-phonetree-v1 - 融合句子转换器和对比学习的高效文本分类模型
Github模型文本分类句子嵌入开源项目SetFit少样本学习Logistic回归Huggingface
SetFit模型结合sentence-transformers/paraphrase-mpnet-base-v2,通过高效的少样本学习实现文本分类。模型采用对比学习微调句子转换器和训练LogisticRegression分类头,具有优异的分类性能。支持最大512标记长度,适用于电话语音邮件和电话树分类需求。模型适合需要高效文本分类的研发人员和数据科学家使用。
allenai-specter - 基于Sentence-Transformers的科学文献相似度建模
Github科学出版物模型句子嵌入开源项目句子相似性Huggingface特征提取AllenAI SPECTER
该模型将AllenAI SPECTER转化为Sentence-Transformers框架,可用于将科学文献的标题和摘要映射至向量空间以计算相似度。在安装Sentence-Transformers库后,用户能轻松进行相似度计算,同时也支持从HuggingFace Transformers加载模型。本文档还展示了如何使用池化操作聚合上下文词嵌入。
all-MiniLM-L6-v2 - 高性能句子嵌入模型实现多种NLP任务
自然语言处理sentence-transformers语义搜索开源项目句子嵌入Github迁移学习Huggingface模型
all-MiniLM-L6-v2是一个基于sentence-transformers的句子嵌入模型。它能将文本映射至384维向量空间,在超11亿对句子上微调而成。该模型适用于语义搜索、聚类等多种NLP任务,采用对比学习方法生成高质量嵌入。通过sentence-transformers或Hugging Face Transformers库,可轻松集成到各类应用中。在多项基准测试中,all-MiniLM-L6-v2展现出优异性能。
distiluse-base-multilingual-cased-v1 - 多语言句子嵌入模型实现跨语言语义相似度分析
模型多语言句子嵌入Githubsentence-transformers开源项目特征提取语义相似度Huggingface
distiluse-base-multilingual-cased-v1是一个基于sentence-transformers框架的多语言句子嵌入模型。它能将句子和段落映射到512维密集向量空间,支持15种语言的语义处理。模型采用DistilBERT架构,通过平均池化和全连接层生成嵌入,适用于聚类、语义搜索等任务。借助sentence-transformers库,开发者可便捷地实现句子编码和跨语言相似度计算。
all-MiniLM-L12-v2 - 基于自监督学习的高效句子嵌入模型
Huggingface模型句子嵌入Github开源项目句子相似性对比学习sentence-transformers微调
采用自监督对比学习技术,all-MiniLM-L12-v2模型专注于高效编码句子和短段落,利用超过11亿句对进行训练,加强语义搜索和信息检索性能。结合TPU与JAX/Flax技术优化,模型方便集成在sentence-transformers或HuggingFace Transformers中,适合多种文本处理应用。
all-distilroberta-v1 - 针对语义搜索和句子相似度优化的句子嵌入模型
模型Github开源项目Huggingface自监督学习自然语言处理sentence-transformers语义搜索句子嵌入
all-distilroberta-v1是一个基于sentence-transformers的句子嵌入模型,将句子和段落映射到768维向量空间。该模型在超10亿对句子上微调,采用对比学习方法,有效捕捉语义信息。适用于语义搜索、聚类、句子相似度计算等NLP任务,为应用提供高质量的句子表示。
paraphrase-mpnet-base-v2 - 高维度句子嵌入模型助力语义分析
特征提取Huggingface模型句子嵌入Github语义相似度开源项目sentence-transformers自然语言处理
paraphrase-mpnet-base-v2是基于sentence-transformers框架的句子嵌入模型,可将文本映射至768维向量空间。此模型适用于文本聚类和语义搜索,支持通过sentence-transformers或HuggingFace Transformers库集成。在多项基准测试中表现优异,为自然语言处理提供高质量语义表示。
distilbert-base-nli-stsb-mean-tokens - 基于DistilBERT的句子向量生成模型
特征提取Huggingface模型句子嵌入Github语义相似度开源项目sentence-transformers自然语言处理
distilbert-base-nli-stsb-mean-tokens是一个基于DistilBERT的句子转换模型,可将文本映射到768维向量空间。它主要用于聚类和语义搜索,通过sentence-transformers库易于使用。虽然已被标记为过时,但对理解句子嵌入技术仍有参考价值。该模型能将句子和段落转化为密集向量,为自然语言处理任务提供基础。
paraphrase-albert-small-v2 - ALBERT轻量级句子嵌入模型实现语义相似度分析
模型Github开源项目HuggingfaceALBERT自然语言处理sentence-transformers语义搜索句子嵌入
paraphrase-albert-small-v2是一个基于ALBERT架构的轻量级句子嵌入模型。它将句子转换为768维向量表示,可用于语义搜索、聚类等自然语言处理任务。该模型支持Python等多种编程接口,便于集成到各类应用中。在句子相似度基准测试中表现优异,为文本语义分析提供了高效可靠的解决方案。
cross-en-de-roberta-sentence-transformer - RoBERTa跨语言句向量模型实现德英文本语义匹配
Sentence TransformersHuggingface模型RoBERTa句子嵌入Github语义相似度开源项目跨语言模型
cross-en-de-roberta-sentence-transformer是一个基于RoBERTa的跨语言句向量模型,专门针对德语和英语文本进行优化。该模型通过多语言微调和语言交叉训练,在语义相似度计算、语义搜索和释义挖掘等任务中表现优异。它不仅在德语和英语单语环境下表现出色,在跨语言场景中也展现了卓越性能,为双语自然语言处理应用提供了有力支持。
sbert_large_nlu_ru - 俄语句子嵌入专用的大型BERT模型
模型PyTorch俄语句子嵌入BERTGithubHuggingface开源项目自然语言处理
sbert_large_nlu_ru是SberDevices团队开发的俄语句子嵌入模型。这个基于BERT的大型模型可通过HuggingFace库直接调用,支持平均池化以提升嵌入质量。项目提供了Python示例代码,方便用户快速实现句子嵌入计算。该模型为俄语自然语言处理任务提供了高质量的句子表示,是处理俄语文本的有力工具。
bert-base-nli-mean-tokens - BERT模型用于句子嵌入和语义分析
模型BERT开源项目Huggingface特征提取语义相似度sentence-transformersGithub句子嵌入
bert-base-nli-mean-tokens是一个句子嵌入模型,基于BERT架构开发。该模型将文本映射至768维向量空间,主要应用于聚类和语义搜索。通过sentence-transformers库可轻松调用,支持最大128个token输入,采用平均池化策略。虽然已被更新的模型替代,但其实现方法对研究句子嵌入技术仍有参考价值。
rubert-tiny2 - 优化的俄语自然语言处理模型
文本相似度Huggingface模型BERT俄语模型句子嵌入Github开源项目自然语言处理
作为rubert-tiny的改进版本,rubert-tiny2是一个精简的俄语BERT编码器。它拥有更大的词汇表和更长的序列支持,能更好地逼近LaBSE嵌入效果。该模型可直接用于生成句子嵌入或进行下游任务微调,适用于短文本KNN分类等应用场景。通过与transformers和sentence_transformers库的无缝集成,rubert-tiny2为俄语自然语言处理任务提供了简便而强大的工具。
contriever-msmarco - 基于对比学习的无监督密集信息检索模型
模型Contriever句子嵌入Github预训练模型平均池化特征提取开源项目Huggingface
contriever-msmarco是Facebook开发的无监督密集信息检索模型,基于对比学习方法。作为facebook/contriever的微调版本,它遵循了'Towards Unsupervised Dense Information Retrieval with Contrastive Learning'论文的方法。该模型能够生成高质量的句子嵌入,适用于多种信息检索任务。通过HuggingFace Transformers库,研究者可以方便地加载模型并使用均值池化操作获取句子嵌入。
xlm-r-bert-base-nli-stsb-mean-tokens - XLM-RoBERTa句子嵌入模型支持多语言语义相似度和文本聚类
模型句子嵌入Githubsentence-transformers开源项目特征提取语义相似度Huggingface自然语言处理
这是一个基于XLM-RoBERTa的句子嵌入模型,将句子和段落映射到768维密集向量空间。支持多语言,适用于语义搜索和文本聚类等任务。可通过sentence-transformers或Hugging Face Transformers库轻松使用。需注意,该模型已被弃用,建议使用更新的句子嵌入模型以获得更好性能。
text2vec-base-chinese-paraphrase - 中文语义匹配模型实现句子和段落的向量表示
模型text2vec句子嵌入语义匹配GithubCoSENTHuggingface开源项目ernie-3.0-base-zh
text2vec-base-chinese-paraphrase模型采用CoSENT方法训练,将句子映射至768维向量空间。该模型在中文自然语言推理测试中表现出色,适用于句子嵌入、文本匹配和语义搜索等任务。它基于ERNIE 3.0模型微调,使用精选中文STS数据集训练,尤其擅长句子与段落间的语义匹配。模型支持最大256个token的输入,为中文文本处理提供了高效的语义表示工具。
bge-large-en-v1.5 - Transformers.js适配的ONNX模型及其应用简介
Github模型ONNX句子嵌入开源项目余弦相似度Transformers.jsHuggingface特征提取
该开源项目使用ONNX权重,以在Transformers.js环境下实现模型兼容。通过特征提取管道,用户能够高效计算句子嵌入,实现文本语义分析与快速检索,提升JavaScript环境下的文本处理效率。
xiaobu-embedding-v2 - 中文语义嵌入模型适用于广泛NLP任务
模型开源项目Huggingface信息检索语义相似度GithubMTEB句子嵌入文本分类
xiaobu-embedding-v2是一款中文语义嵌入模型,在多项自然语言处理任务中表现出色。该模型在文本相似度、分类、聚类、重排序和检索等方面均有良好表现,尤其在MTEB基准测试中成绩突出。这个模型可应用于问答系统、搜索优化和情感分析等多种实际场景。
ATTACK-BERT - ATT&CK BERT网络安全语义分析模型
模型网络安全开源项目语言模型ATT&CK BERTHuggingface语义相似度Github句子嵌入
ATT&CK BERT是一个专门针对网络安全领域的语言模型,基于sentence-transformers框架开发。该模型能够将描述攻击行为的句子转化为语义嵌入向量,有效分析句子间的语义相似度。ATT&CK BERT通过sentence-transformers库实现简单部署,还可与SMET工具配合使用,实现文本到ATT&CK技术的映射,为网络安全分析提供有力支持。
all_datasets_v4_MiniLM-L6 - 大规模数据集训练的高效句向量模型用于多语言语义表示
模型句子嵌入GithubNLPFlax开源项目Huggingface语义相似度对比学习
all_datasets_v4_MiniLM-L6是一个基于MiniLM-L6预训练模型的句向量模型,通过10亿句对数据集微调而成。该模型采用对比学习方法,可生成捕捉句子语义信息的向量表示。适用于信息检索、聚类和句子相似度等任务,可通过SentenceTransformers库使用。模型在TPU上训练540k步,批量大小为1024,性能优异,应用范围广泛。
stsb-roberta-large - 已弃用的1024维句子嵌入模型
Huggingface模型句子嵌入Github语义相似度开源项目sentence-transformers自然语言处理RoBERTa
stsb-roberta-large是一个基于sentence-transformers的已弃用模型,可将句子和段落映射到1024维向量空间。虽不再推荐使用,但它仍可用于聚类和语义搜索任务,并为理解句子嵌入技术提供参考。该模型基于RoBERTa架构,使用平均池化生成句子嵌入,可通过sentence-transformers或HuggingFace Transformers库轻松实现。
sentence-transformers-e5-large-v2 - 句子向量化模型实现文本相似度检索和聚类
Huggingface模型句子嵌入embaas APIGithub开源项目sentence-transformers自然语言处理语义搜索
sentence-transformers-e5-large-v2模型是intfloat/e5-large-v2的改进版本,能将文本映射至1024维向量空间。该模型在聚类和语义搜索方面表现出色,支持通过sentence-transformers库或embaas API快速集成。模型在MTEB评测中获得优异成绩,为文本嵌入和相似度计算提供了有力支持。
multi-qa-MiniLM-L6-dot-v1 - 多语言句子相似度模型,支持语义搜索
multi-qa-MiniLM-L6-dot-v1Huggingface句子嵌入Github自监督对比学习语义搜索开源项目模型句子相似度
multi-qa-MiniLM-L6-dot-v1是一个专为语义搜索设计的句子嵌入模型,将文本转化为384维的密集向量。此模型训练于215M个问题和答案对,可处理多种数据来源。用户可通过sentence-transformers轻松加载模型进行查询和文档编码,从而计算点积相似度分数,实现相关性排序。除了基础功能外,该模型同样支持HuggingFace Transformers的复杂上下文嵌入处理,能有效提升语义搜索效率,适用于不超过512词片的文本。
stsb-distilbert-base - 语义搜索与聚类任务的句子嵌入模型
语义搜索句子嵌入开源项目机器学习模型自然语言处理模型Huggingfacesentence-transformersGithub
此模型将句子和段落转换为768维的稠密向量,适用于语义搜索和聚类任务。然而,由于其性能已不再是最优,建议选择更优质的句子嵌入模型。如需使用,可通过安装sentence-transformers库轻松实现,或使用HuggingFace Transformers进行更高级的处理,如加入注意力掩码的平均池化。尽管模型效能下降,其架构仍有参考价值。
sbert_large_mt_nlu_ru - 大规模多任务俄语句子嵌入模型
BERT多任务学习开源项目模型句子嵌入Github自然语言处理俄语模型Huggingface
这是一个基于BERT架构的大规模多任务模型,用于生成俄语句子嵌入。模型采用平均池化策略处理token embeddings,已完成Russian SuperGLUE基准测试验证。通过HuggingFace模型库可实现多句俄语文本的嵌入计算。该模型由SberDevices团队开发,致力于提升俄语自然语言处理能力。
multi-qa-mpnet-base-dot-v1 - 基于自监督对比学习的句子语义搜索模型
句子嵌入对比学习开源项目sentence-transformersGithub模型Huggingface语义搜索句子相似度
该模型用于提升语义搜索能力,将句子和段落映射至768维向量空间,达成高效信息检索。训练依托逾2.15亿问答对,覆盖丰富数据集与平台。模型应用CLS池化与点积相似度评估,适合处理有限文本语义匹配,同时支持sentence-transformers与HuggingFace Transformers两种使用方式,满足不同开发者需求。
paraphrase-TinyBERT-L6-v2 - 轻量级句子嵌入模型支持语义搜索与文本聚类
TinyBERTGithub模型自然语言处理sentence-transformers语义搜索Huggingface开源项目句子嵌入
paraphrase-TinyBERT-L6-v2是基于sentence-transformers的句子嵌入模型,将句子和段落映射到768维密集向量空间。模型采用轻量级架构,主要应用于语义搜索和文本聚类。支持通过sentence-transformers或HuggingFace Transformers库进行调用,适用于计算资源受限的应用场景。
cross-encoder-russian-msmarco - 高效的俄文跨编码器模型用于信息检索
GithubDiTy/cross-encoder-russian-msmarco开源项目DeepPavlov/rubert-base-casedHuggingface信息检索模型句子嵌入文本分类
此开源模型基于DeepPavlov/rubert-base-cased,并经过MS-MARCO数据集优化,专用于俄语信息检索,支持高效的查询和段落相关性排序。通过安装sentence-transformers可直接使用,也可通过HuggingFace Transformers扩展文本分类功能,适合需处理俄语复杂文本的用户。
sentence-bert-base-italian-xxl-uncased - 提升语义分析与聚类效果的意大利语句子相似度模型
句子嵌入模型训练开源项目自然语言处理句子相似性模型Huggingfacesentence-transformersGithub
这个意大利语句子相似度模型能将文本映射到768维度的密集向量空间,适用于语义搜索和语句聚类。其基于dbmdz/bert-base-italian-xxl-uncased构建,为文本理解与分析提供支持。在sentence-transformers库的支持下,模型的安装与使用变得极为简便,即使不使用该库,也可通过HuggingFace Transformers实现。其性能在Sentence Embeddings Benchmark中经过自动化评估,可供参考。
USER-bge-m3 - 专为俄语优化的高性能文本嵌入模型
语义相似度句子嵌入开源项目自然语言处理俄语句向量模型HuggingfaceGithubUSER-bge-m3
USER-bge-m3是一个为俄语优化的文本嵌入模型,基于bge-m3架构开发。该模型能将俄语句子和段落转换为1024维向量表示,适用于聚类和语义搜索等任务。通过创新的训练方法,如数据对称性微调和LM-Cocktail模型融合,USER-bge-m3在多个俄语基准测试中表现出色,超越了原始bge-m3模型的性能。
labse_bert - 多语言BERT句子嵌入模型及其应用
句子嵌入Github开源项目LABSE BERT模型应用自然语言处理Huggingface多语言处理模型
LaBSE BERT是一种语言无关的句子嵌入模型,由Fangxiaoyu Feng等人开发并在TensorFlow Hub上提供。该模型能够将文本转换为高效的向量表示,适用于多语言文本处理。利用AutoTokenizer和AutoModel加载模型,并通过mean_pooling方法获取句子嵌入,以增强文本分析和信息检索等领域的性能。使用PyTorch实现编码和处理,多语言文本分析更加轻松。
LaBSE - 基于BERT的多语言句子编码引擎 助力跨语言语义检索
LaBSEBERT自然语言处理句子嵌入HuggingfaceGithub开源项目模型多语言
作为Google开源的多语言句子编码模型,LaBSE整合掩码语言建模与翻译语言建模技术,实现109种语言的高效句子嵌入。经CommonCrawl和维基百科数据集训练,可用于跨语言语义相似度计算和双语文本检索,并支持完整Python接口调用
unsup-simcse-bert-base-uncased - 无监督对比学习的BERT句向量提取模型
Github模型句子嵌入开源项目SimCSEHuggingface特征提取BERT自然语言处理
Princeton NLP小组开发的SimCSE模型采用BERT架构和无监督对比学习方法,通过英文维基百科数据训练而成。该模型能够有效提取文本特征,在保持语义对齐的同时优化了向量分布,主要应用于句子相似度计算和自然语言处理任务。