#语义相似度
ATTACK-BERT - ATT&CK BERT网络安全语义分析模型
模型网络安全开源项目语言模型ATT&CK BERTHuggingface语义相似度Github句子嵌入
ATT&CK BERT是一个专门针对网络安全领域的语言模型,基于sentence-transformers框架开发。该模型能够将描述攻击行为的句子转化为语义嵌入向量,有效分析句子间的语义相似度。ATT&CK BERT通过sentence-transformers库实现简单部署,还可与SMET工具配合使用,实现文本到ATT&CK技术的映射,为网络安全分析提供有力支持。
bge-small-en-v1.5-onnx-Q - BGE小型英文模型的量化ONNX版本用于文本分类和相似度搜索
模型Github开源项目文本嵌入Huggingface语义相似度FastEmbed自然语言处理ONNX
bge-small-en-v1.5-onnx-Q是BAAI/bge-small-en-v1.5模型的量化ONNX版本,专门用于文本分类和相似度搜索。该模型提供高效的文本嵌入功能,可快速生成文档向量表示。借助FastEmbed库,开发者能轻松使用此模型进行文本嵌入,为信息检索和文本聚类等任务奠定基础。这个小巧高效的模型适用于多种应用场景,可满足不同的文本处理需求。
stsb-roberta-base - 基于RoBERTa的句对语义相似度预测模型
模型交叉编码器SentenceTransformers模型训练Github开源项目Huggingface语义相似度自然语言处理
stsb-roberta-base是一个基于SentenceTransformers的Cross-Encoder模型,专门用于预测句对语义相似度。该模型在STS benchmark数据集上训练,可为句对相似性给出0到1之间的分数。模型支持通过sentence_transformers库或Transformers的AutoModel类调用,为NLP任务提供语义分析功能。模型采用Apache-2.0开源许可,使用简单,只需几行代码即可实现句对相似度预测。它不仅可用于语义相似度任务,还可应用于问答系统、文本匹配等多种NLP场景,为开发者提供了便捷的语义分析解决方案。
roberta-base-nli-stsb-mean-tokens - RoBERTa句子嵌入模型实现语义搜索与文本聚类
模型向量嵌入Github开源项目Huggingface特征提取语义相似度sentence-transformers自然语言处理
roberta-base-nli-stsb-mean-tokens是一个基于RoBERTa的句子嵌入模型,可将文本映射至768维向量空间。该模型适用于语义搜索和文本聚类等任务,支持通过sentence-transformers或Hugging Face Transformers库调用。虽然已被更新模型取代,但它仍展示了句子嵌入技术的核心原理和应用场景。
sentence-transformers-multilingual-e5-large - 多语言句子嵌入模型适用于语义搜索和文本相似度分析
模型Github多语言模型开源项目Huggingface语义相似度嵌入向量sentence-transformers自然语言处理
sentence-transformers-multilingual-e5-large是一个多语言句子嵌入模型,将句子和段落映射到1024维向量空间。该模型基于sentence-transformers库构建,适用于聚类、语义搜索等任务。支持多语言处理,可通过Python代码轻松调用。模型在Sentence Embeddings Benchmark上进行了评估,为自然语言处理应用提供了有效的文本表示方法。
e5-base - 多语言句子嵌入模型用于文本理解和检索任务
e5-baseSentence TransformersHuggingface模型Github语义相似度MTEB开源项目文本分类
e5-base是一个句子嵌入模型,用于多语言文本理解和检索任务。该模型在MTEB基准测试中表现优秀,涵盖分类、检索、聚类和语义相似度等任务。e5-base支持多种语言,适用于问答系统、文档检索和语义搜索等应用场景。这个模型为自然语言处理应用提供了有效的工具。
msmarco-MiniLM-L-12-v3 - 高效语句嵌入模型,适用于语义搜索和文本相似度任务
模型Github向量嵌入sentence-transformers开源项目特征提取语义相似度Huggingface自然语言处理
msmarco-MiniLM-L-12-v3是一个sentence-transformers模型,将句子和段落映射到384维密集向量空间。该模型基于BERT架构,使用平均池化,适用于聚类和语义搜索。它可通过sentence-transformers或HuggingFace Transformers库使用,高效生成句子嵌入。这个模型在多个基准测试中表现良好,为自然语言处理应用提供语义表示。
paraphrase-MiniLM-L12-v2 - sentence-transformers模型用于生成384维句子嵌入向量
MiniLMHuggingface模型Github语义相似度开源项目sentence-transformers自然语言处理向量嵌入
paraphrase-MiniLM-L12-v2是一个sentence-transformers模型,将句子和段落映射到384维向量空间。适用于聚类和语义搜索,支持通过sentence-transformers或Hugging Face Transformers库使用。该模型在Sentence Embeddings Benchmark上表现良好,采用Transformer和Pooling架构处理文本并生成句子嵌入。
sentence-bert-base-ja-mean-tokens - 日语Sentence-BERT模型实现句子向量化和相似度计算
特征提取Huggingface模型句向量模型BERTGithub语义相似度日语开源项目
sentence-bert-base-ja-mean-tokens是一个专为日语开发的Sentence-BERT模型,可将日语句子转换为向量表示。该模型适用于句子相似度计算、文本分类等NLP任务,提供Python接口,支持批量处理和GPU加速。作为日语自然语言处理的基础工具,它为开发者提供了高效的句子编码解决方案。
klue-sroberta-base-continue-learning-by-mnr - 基于KLUE数据集的韩语句子表示模型用于语义相似度分析
嵌入模型KLUE开源项目Huggingface语义相似度NLPsentence-transformersGithub
该模型是基于KLUE数据集训练的韩语句子表示工具,采用sentence-transformers框架。通过NLI和STS任务的多阶段训练,模型在语义相似度分析方面表现出色。它能将句子转换为768维向量,可用于聚类和语义搜索等应用。在STS测试集上,模型达到0.89的相关性分数,显示了较高的准确性。
all_datasets_v4_MiniLM-L6 - 大规模数据集训练的高效句向量模型用于多语言语义表示
模型句子嵌入GithubNLPFlax开源项目Huggingface语义相似度对比学习
all_datasets_v4_MiniLM-L6是一个基于MiniLM-L6预训练模型的句向量模型,通过10亿句对数据集微调而成。该模型采用对比学习方法,可生成捕捉句子语义信息的向量表示。适用于信息检索、聚类和句子相似度等任务,可通过SentenceTransformers库使用。模型在TPU上训练540k步,批量大小为1024,性能优异,应用范围广泛。
paraphrase-distilroberta-base-v1 - DistilRoBERTa基础句子嵌入模型用于语义搜索和文本分析
Huggingface模型Github语义相似度开源项目sentence-transformers自然语言处理向量嵌入RobertaModel
paraphrase-distilroberta-base-v1是基于sentence-transformers的句子嵌入模型,将文本映射至768维向量空间。该模型采用DistilRoBERTa架构,在保持性能的同时提升效率,可用于文本聚类、语义搜索等任务。支持多种编程接口,适用于多种自然语言处理应用场景。
stsb-mpnet-base-v2 - 将句子映射至向量空间的自然语言处理模型
嵌入向量特征提取Huggingface模型Github语义相似度开源项目sentence-transformers自然语言处理
stsb-mpnet-base-v2是一个基于sentence-transformers的模型,能够将句子和段落转换为768维向量。该模型适用于文本聚类和语义搜索等任务,具有使用简便和性能优异的特点。它采用MPNet架构和平均池化方法生成句子嵌入,在多项评估中表现良好,可广泛应用于自然语言处理领域。
sbert-base-chinese-nli - SBERT中文句向量模型实现语义相似度计算
模型句向量模型GithubUER-pyChinese Sentence BERT开源项目Huggingface语义相似度自然语言处理
sbert-base-chinese-nli是一个基于BERT的中文句向量模型,通过UER-py框架预训练,并在ChineseTextualInference数据集上微调。该模型可将中文句子转换为向量表示,主要用于计算语义相似度。用户可通过sentence-transformers库轻松调用,适用于自然语言处理中的句子相似度任务。模型采用Siamese网络结构,在腾讯云平台上进行了5轮微调,以提升性能。
KR-SBERT-V40K-klueNLI-augSTS - 韩语句向量模型KR-SBERT支持文本相似度和文档分类任务
模型韩语模型Githubsentence-transformers开源项目Huggingface语义相似度SBERT自然语言处理
KR-SBERT-V40K-klueNLI-augSTS是一个针对韩语优化的句向量模型,基于sentence-transformers框架开发。该模型将句子和段落映射到768维向量空间,适用于聚类和语义搜索等任务。在文档分类任务中,其准确率达86.28%,优于同类模型。用户可通过sentence-transformers或Hugging Face Transformers库使用,为韩语自然语言处理提供有力支持。
acge_text_embedding - 高性能中文文本嵌入模型,提升语义相似度和检索效果
文本嵌入Huggingface模型信息检索Github语义相似度MTEB开源项目sentence-transformers
acge_text_embedding是一个针对中文自然语言处理优化的文本嵌入模型。该模型在MTEB基准测试中表现优异,尤其在语义相似度计算和信息检索任务上成绩突出。它还在文本分类等多个中文NLP任务中展现出优秀性能,为中文自然语言处理应用提供了高效的文本表示能力。
msmarco-cotmae-MiniLM-L12_en-ko-ja - 多语言语义理解和向量化模型
模型模型训练Githubsentence-transformers开源项目嵌入向量语义相似度Huggingface自然语言处理
这是一个基于sentence-transformers框架的多语言语义理解模型,可将句子和段落映射为1536维向量。支持英语、韩语和日语,适用于聚类、语义搜索等任务。模型采用MSELoss训练,结合AdamW优化器,展现出优秀的跨语言语义理解能力。研究人员和开发者可通过sentence-transformers库轻松集成此模型,为多语言自然语言处理项目提供有力支持。
stsb-roberta-large - 已弃用的1024维句子嵌入模型
Huggingface模型句子嵌入Github语义相似度开源项目sentence-transformers自然语言处理RoBERTa
stsb-roberta-large是一个基于sentence-transformers的已弃用模型,可将句子和段落映射到1024维向量空间。虽不再推荐使用,但它仍可用于聚类和语义搜索任务,并为理解句子嵌入技术提供参考。该模型基于RoBERTa架构,使用平均池化生成句子嵌入,可通过sentence-transformers或HuggingFace Transformers库轻松实现。
KoSimCSE-roberta-multitask - 韩语句子嵌入模型实现高效语义相似度计算
模型HuggingfaceGithubRoBERTa预训练模型开源项目SimCSE语义相似度韩语句子嵌入
KoSimCSE-roberta-multitask是一款开源的韩语句子嵌入模型,主要用于计算句子间的语义相似度。在语义文本相似性测试中,该模型的平均得分达到85.77。项目提供预训练模型和推理代码,方便用户进行句子嵌入和相似度计算。同时,它还为个人训练模型提供环境支持,适用于各种自然语言处理和语义分析任务。
gte-large-zh - 中文语义相似度与检索的卓越表现模型
模型gte-large-zhGithubsentence-transformersMTEB开源项目Huggingface语义相似度自然语言处理
gte-large-zh模型在MTEB中文基准测试中表现突出,涵盖句子相似度、文本分类、聚类、重排序和检索等多个任务。该模型在CMNLI和JDReview等数据集上的准确率超过80%,为中文自然语言处理应用提供了稳定的语义理解基础。
sentence-t5-base - 基于T5架构的句子编码模型用于文本相似度分析
模型sentence-t5-baseGithub向量嵌入sentence-transformers开源项目Huggingface语义相似度自然语言处理
sentence-t5-base是一个基于T5架构的句子编码模型,能将文本映射到768维向量空间。该模型在句子相似度任务中表现优异,但语义搜索效果一般。它由TensorFlow版本转换而来,可通过sentence-transformers库轻松使用。模型仅包含T5-base的编码器部分,权重采用FP16格式存储。使用时需要sentence-transformers 2.2.0及以上版本。这个模型适用于多种自然语言处理应用场景,尤其是文本相似度分析。
paraphrase-xlm-r-multilingual-v1 - 多语言句子嵌入模型 生成768维向量用于相似度计算
模型向量嵌入Github多语言模型开源项目Huggingface语义相似度sentence-transformers自然语言处理
这是一个基于sentence-transformers的多语言句子嵌入模型。该模型将句子和段落映射到768维向量空间,适用于聚类和语义搜索等任务。模型支持多语言输入,可通过简单的Python代码调用。它基于XLM-RoBERTa架构,采用平均池化方法生成句子嵌入。模型性能可在Sentence Embeddings Benchmark网站查看评估结果。
vietnamese-embedding - 基于PhoBERT的越南语句嵌入模型提升多项NLP任务性能
模型PhoBERTvietnamese-embeddingGithubsentence-transformers开源项目Huggingface语义相似度自然语言处理
vietnamese-embedding是一个针对越南语优化的句子嵌入模型,基于PhoBERT架构开发。该模型通过四阶段训练,包括SimCSE初始训练、XNLI持续微调、STS基准微调和数据增强,将越南语句子编码为768维向量。在语义文本相似性等多项评估中,该模型性能优于现有越南语嵌入模型,可应用于语义搜索、文本聚类等自然语言处理任务。
stsb-roberta-large - RoBERTa大型模型用于评估句子语义相似度
Cross-Encoder模型SentenceTransformers文本对比Github开源项目Huggingface语义相似度自然语言处理
stsb-roberta-large是一个基于SentenceTransformers框架的Cross-Encoder模型,专门用于评估句子对的语义相似度。该模型在STS基准数据集上训练,可为两个句子之间的语义相似性预测0到1之间的分数。它可以轻松集成到多种自然语言处理任务中,为文本相似度分析提供解决方案。
bilingual-embedding-large - 基于Transformer架构的法英双语文本向量模型
文本嵌入多语言模型开源项目sentence-transformers模型语义相似度Github自然语言处理Huggingface
bilingual-embedding-large是一个基于Transformer的法英双语句向量模型,支持聚类、重排序和检索等文本相似度任务。模型通过MTEB基准测试验证,在跨语言文本语义理解方面展现了稳定性能。该模型主要应用于法语和英语文本的语义分析与对比场景。
roberta-large-nli-stsb-mean-tokens - 基于RoBERTa的大规模语义相似度计算和文本嵌入模型
向量化模型嵌入Github自然语言处理Huggingface开源项目模型语义相似度sentence-transformers
这是一个基于RoBERTa的sentence-transformers模型,可将文本映射至1024维向量空间。它支持句子相似度计算、文本聚类和语义搜索等任务,并提供简便的API接口。该模型可通过sentence-transformers或HuggingFace Transformers库使用,便于获取文本嵌入。然而,由于性能已过时,建议采用更新的预训练模型替代。
Semantic-Textual-Relatedness-Spanish - 基于Sentence-Transformers的西班牙语语义关联分析模型
Github语言模型HuggingfaceSemEval文本相关性开源项目模型语义相似度sentence-transformers
基于sentence-transformers框架开发的西班牙语语义关联分析模型,可将文本映射至256维向量空间,实现文本聚类和语义搜索功能。模型采用Transformer架构与CosineSimilarity损失函数,在SemEval-2024评测中获得0.677的Spearman相关系数。
stsb-bert-base - 基于BERT的文本向量化和语义相似度分析工具
句向量GithubBERT自然语言处理Huggingface开源项目模型语义相似度sentence-transformers
stsb-bert-base是一个已弃用的句子转换模型,基于BERT架构可将文本转化为768维向量表示。模型通过sentence-transformers或HuggingFace Transformers库提供支持,适用于文本聚类和语义搜索。尽管不再推荐使用,但其架构设计和实现方法对理解文本向量化技术具有重要参考意义。
German_Semantic_STS_V2 - 德语语义相似度计算模型 实现文本搜索与聚类
GithubBERT自然语言处理Huggingface德语模型开源项目模型语义相似度sentence-transformers
这是一个专注于德语文本处理的语义模型,能够准确计算文本间的语义相似度。模型在德语基准测试中表现出色,相似度评分达到0.86,优于现有主流方案。主要应用于智能文本搜索、文档聚类等场景,并提供简单的集成方式。
KoSimCSE-roberta - 基于RoBERTa架构的韩语句子相似度预训练模型
KoSimCSE语义相似度Github开源项目RoBERTa韩语句嵌入Huggingface预训练模型模型
KoSimCSE-roberta是一个韩语句子向量嵌入预训练模型,基于RoBERTa架构和多任务学习方法构建。在语义文本相似度测试中,模型取得85.77%的评分。模型提供完整的预训练权重和推理环境,可用于计算韩语句子间的语义相似度,支持文本匹配等自然语言处理任务。
stsb-bert-tiny-onnx - 基于BERT的轻量级文本向量化模型
语义相似度文本嵌入Githubsentence-transformers开源项目自然语言处理Huggingface模型训练模型
这是一个轻量级的文本向量化模型,基于sentence-transformers框架开发。模型可将文本转换为128维向量表示,主要应用于文本聚类和语义搜索。支持通过sentence-transformers和HuggingFace两种方式调用,提供完整的模型评估数据。
vietnamese-sbert - 基于SBERT的越南语句子相似度与语义分析模型
语义相似度Githubsentence-transformers向量嵌入开源项目越南语自然语言处理Huggingface模型
基于sentence-transformers框架开发的越南语NLP模型,通过RoBERTa架构将文本映射至768维向量空间。支持句子相似度计算、语义搜索及文本聚类功能,可通过sentence-transformers和HuggingFace进行快速部署。该模型经过专门优化,为越南语自然语言处理任务提供精确的语义表示。
all-MiniLM-L6-v1 - 基于MiniLM的神经网络句子编码模型
语义相似度语义搜索开源项目自然语言处理模型Huggingface句向量sentence-transformersGithub
all-MiniLM-L6-v1是基于transformer架构的句子编码模型,能将文本转换为384维向量表示。该模型在10亿规模的句子数据集上采用对比学习方法训练,适用于文本聚类和语义检索等自然语言处理任务。模型同时支持sentence-transformers和Hugging Face两个主流框架,便于开发者快速集成和部署。
USER-bge-m3 - 专为俄语优化的高性能文本嵌入模型
语义相似度句子嵌入开源项目自然语言处理俄语句向量模型HuggingfaceGithubUSER-bge-m3
USER-bge-m3是一个为俄语优化的文本嵌入模型,基于bge-m3架构开发。该模型能将俄语句子和段落转换为1024维向量表示,适用于聚类和语义搜索等任务。通过创新的训练方法,如数据对称性微调和LM-Cocktail模型融合,USER-bge-m3在多个俄语基准测试中表现出色,超越了原始bge-m3模型的性能。
bert-base-japanese-v3-unsup-simcse-jawiki - 使用无监督SimCSE的BERT日文模型特性和应用
bert-base-japanese-v3-unsup-simcse-jawikiGithub模型transformers开源项目SimCSEHuggingface大规模语言模型语义相似度
本项目利用无监督SimCSE方法对BERT大型语言模型进行微调,重点在于日文数据集的应用。通过cl-tohoku/bert-base-japanese-v3模型和来自jawiki的句子数据集进行训练,旨在提高语言理解与相似度计算的能力。项目附带丰富的使用案例,例如通过Colab笔记本进行的训练与推论,帮助研究者与开发者了解模型的实际应用。这一无监督方法为自然语言处理任务提供了创新方案,尤其适合有特定语言需求的专业项目。
stsb-distilroberta-base-v2 - 基于DistilRoBERTa的文本向量化与语义搜索模型
语义相似度向量嵌入自然语言处理sentence-transformersHuggingfaceGithub开源项目模型特征提取
基于DistilRoBERTa架构的预训练语言模型,将文本转换为768维向量表示。模型整合sentence-transformers框架,支持句子相似度计算、文本聚类和语义搜索功能。通过平均池化策略优化文本嵌入处理,在保证性能的同时降低资源消耗,适用于大规模文本向量化场景。