#句子相似性

all_datasets_v3_mpnet-base - 基于MPNet的高效句子和段落编码模型

Github开源项目模型Huggingface对比学习信息检索sentence-transformers句子相似性句向量

该模型利用sentence-transformers，通过microsoft/mpnet-base预训练模型和自监督对比学习目标进行微调，将句子和段落有效编码至768维度向量空间，适用于信息检索、语义搜索和聚类任务，尤其是在句子相似度计算中有较好表现。微调时，使用了超过10亿对的句子数据，并在TPU v3-8环境下进行了920k步训练，采用AdamW优化器和对比损失。此外，在无sentence-transformers库的情况下，通过特定的池化操作仍可实现相似的编码效果，代码实现简单易用。

allenai-specter - 基于Sentence-Transformers的科学文献相似度建模

Github开源项目模型Huggingface句子嵌入特征提取句子相似性科学出版物AllenAI SPECTER

该模型将AllenAI SPECTER转化为Sentence-Transformers框架，可用于将科学文献的标题和摘要映射至向量空间以计算相似度。在安装Sentence-Transformers库后，用户能轻松进行相似度计算，同时也支持从HuggingFace Transformers加载模型。本文档还展示了如何使用池化操作聚合上下文词嵌入。

bge-base-en-v1.5 - 增强文本处理能力的多任务学习模型

Github开源项目模型分类Huggingfacesentence-transformers特征提取句子相似性句子聚类

bge-base-en-v1.5模型通过多任务学习优化自然语言处理技术，覆盖分类、检索、聚类和重排任务。在多个MTEB数据集上表现优异，例如在亚马逊情感分类任务中达到93.39%的准确率，在AskUbuntu重排任务中MRR达到74.28%。该模型具有MIT开源许可，适用于多种英语任务，为研究人员和开发者提供有效支持。

sbert-base-cased-pl - 波兰语言语义相似度高效模型

Github开源项目自然语言处理机器学习模型Huggingface句子相似性HerBERTSHerbert

sbert-base-cased-pl是SentenceBERT的改进版，利用siamese与triplet网络结构生成语义嵌入，以余弦相似度进行判断。该模型基于波兰语HerBERT，专注于语义文本相似性优化，训练数据来源于Wikipedia，并通过字节对编码进行分词，准确率达82.31%。适用于波兰语相关环境与分词器场景。

GLuCoSE-base-ja-v2 - 专为日本文本检索及句子相似度设计的嵌入模型

Github开源项目模型Huggingface对比学习检索系统句子相似性GLuCoSE v2日语文本处理

模型专注于日本文本处理，可在CPU上运行，提升检索任务性能。通过蒸馏大规模嵌入及多阶段对比学习，GLuCoSE v2在MIRACL等任务中的表现出色。其支持语义相似度测量，适用于查询和段落检索，使用余弦相似度函数，支持512标记的输入，生成768维输出。

ag-nli-DeTS-sentence-similarity-v4 - 句子相似度的跨编码器评估与文本分类应用

Github开源项目模型语义匹配Huggingface句子相似性Cross-EncoderSentenceTransformersNLI数据集

本模型采用Cross-Encoder方法，对多语言句子相似度进行评估，使用六种NLI数据集训练。通过提供0到1间的相似度分数，协助实现精确的文本分类和语义分析。基于SentenceTransformers框架，提升文本特征提取性能，适用于包括英语、荷兰语、德语、法语、意大利语和西班牙语在内的多种语言。

quora-distilbert-multilingual - 跨语言句子嵌入与语义搜索解决方案

Github开源项目语义搜索模型Huggingfacesentence-transformers特征提取句子相似性DistilBert

quora-distilbert-multilingual是一款依托sentence-transformers框架的模型，可将句子和段落转换为768维的向量，从而助力于句子聚类和语义搜索。用户可以选择使用sentence-transformers库简便地安装和使用，也可利用HuggingFace Transformers手动实现句子嵌入。该模型在Sentence Embeddings Benchmark测试中表现优异，模型结构包含DistilBert变换器和平均池化操作，为句子提供高效的表示能力。

MiniLM-L6-Keyword-Extraction - 高效句子嵌入模型，用于语义搜索与信息聚类

Github开源项目语义搜索模型HuggingFaceHuggingface对比学习sentence-transformers句子相似性

此项目通过自监督对比学习，训练出可将句子和段落转化为384维向量的模型，适用于语义搜索、信息检索和句子相似度任务。模型基于1B句子对数据集微调，利用TPU v3-8进行训练，并在Hugging Face社区活动期间开发。用户可使用sentence-transformers或HuggingFace Transformers实现多种自然语言处理应用。

indo-sentence-bert-base - 印尼语句子相似度计算与嵌入的优化解决方案

Github开源项目模型Huggingface特征提取训练参数transformers库句子相似性同志句子BERT

indo-sentence-bert-base提供印尼语的文本相似度计算和语义搜索功能，通过高维向量实现精准句子比较，适用于集群分析和语义检索，支持HuggingFace和Sentence-Transformers库，具备高效的训练和评估机制。

robbert-2022-dutch-sentence-transformers - RobBERT模型改进的句子相似度与特征提取工具

Github开源项目语义搜索模型Huggingfacesentence-transformers特征提取句子相似性荷兰

该项目基于KU Leuven开发的RobBERT模型，提供句子相似度与特征提取功能，支持语义搜索和文本聚类等应用场景。通过翻译和微调多种Dutch语料库，模型在荷兰语环境中表现良好。用户可以通过安装sentence-transformers或使用HuggingFace Transformers来实现模型的使用，主要功能包括将句子和段落转换为768维度密集向量，为文本分析提供准确的句子嵌入。项目中使用的数据加载与优化策略有效提升了整体性能。

bert-base-nli-stsb-mean-tokens - 句子嵌入与语义搜索的基础模型

Github开源项目模型Huggingfacesentence-transformers句子嵌入BERT模型句子相似性变形金刚

此模型能将句子和段落映射为768维向量，适用于分类和语义搜索。但由于其生成的嵌入质量不佳，已被弃用。建议使用最新的模型以提升效果。通过安装sentence-transformers库或使用HuggingFace Transformers，都能实现向量转换功能。

sentence-bert-base-italian-xxl-uncased - 提升语义分析与聚类效果的意大利语句子相似度模型

Github开源项目自然语言处理模型训练模型Huggingfacesentence-transformers句子嵌入句子相似性

这个意大利语句子相似度模型能将文本映射到768维度的密集向量空间，适用于语义搜索和语句聚类。其基于dbmdz/bert-base-italian-xxl-uncased构建，为文本理解与分析提供支持。在sentence-transformers库的支持下，模型的安装与使用变得极为简便，即使不使用该库，也可通过HuggingFace Transformers实现。其性能在Sentence Embeddings Benchmark中经过自动化评估，可供参考。

e5-small-unsupervised - 无监督预训练模型用于提升文本嵌入与句子相似度

Github开源项目模型Huggingface文本嵌入无监督学习句子相似性句子转换器E5-small-unsupervised

该无监督对比预训练模型通过弱监督方法进行预训练，无需人为标注，实现高效的句子相似度计算和信息检索。模型具备12层架构和384维嵌入空间，适用于MS-MARCO数据集等的查询与段落编码。输入文本需使用特定前缀（如“query:”与“passage:”）以求最佳效果。模型包含详细示例代码和训练细节，适用于BEIR和MTEB基准评价，支持英文文本，文本长度限制为512个标记。

cloudy-large-zh - 支持多任务评估的高级句子相似性和特征提取模型

Github开源项目模型数据集Huggingfacesentence-transformers句子相似性检索排序重排

cloudy-large-zh项目专注于句子相似性和特征提取，利用MTEB数据集进行广泛的任务评估。在中医问答、电子商务和视频检索等领域表现优异，特别是在MTEB CMedQAv2重新排序任务中获得89.47的MRR分数。采用先进算法提高检索性能，确保各领域内容的准确排序和高效检索。

ag-nli-DeTS-sentence-similarity-v3-light - 多语言句子相似性评分模型

Github开源项目预训练模型模型transformersHuggingface句子相似性Cross-Encodersentence similarity

本模型通过多语言NLI数据集训练，利用跨编码器评估句子间的语义相似度。支持使用Python库SentenceTransformers调用，适用于英语、德语、法语、西班牙语、意大利语等多种语言。

snowflake-arctic-embed-m-long - 探索句子相似性与特征提取的新前沿

Github开源项目模型数据集分类Huggingfacesentence-transformers特征提取句子相似性

Snowflake-arctic-m-long模型基于transformers.js框架，提升了句子相似性和特征提取能力。支持的任务包括分类、检索与聚类，尤其在MTEB数据集上的表现优异。在Amazon分类任务中，其准确率超过78%，在ArguAna和CQADupstack检索任务中，检索性能高达50%以上。通过优化多项评测指标，如准确率、F1得分和检索率，这一模型为文本处理与分析提供了坚实的支持。

bert-large-nli-mean-tokens - 句子相似性嵌入与聚类应用

Github开源项目预训练模型BERT模型Huggingfacesentence-transformers句子嵌入句子相似性

该模型为sentence-transformers的一部分，能够将句子和段落转化为1024维的密集向量空间，用于聚类和语义搜索。虽然该模型已被标记为弃用且句子嵌入质量较低，推荐选择其他更优质的模型。适用的工具可以通过pip安装，并提供Python实现的代码示例。尽管如此，该模型仍作为一种句子嵌入学习方法的参考，对自然语言处理技术爱好者具有借鉴意义。

sentence-transformers-multilingual-e5-small - 多语言句子相似性和分类模型，覆盖多种语言选择

Github开源项目多语言模型分类Huggingface句子相似性multilingual-e5-smallAmazonReviews

该项目提供多语言句子相似性和分类功能，适用范围广泛。采用MIT许可证，通过英语、德语、法语、西班牙语和中文等语言实现较高的精准度。通过Amazon反事实分类和情感极性任务表现出色，涵盖丰富的数据集和评估任务，如重排序和语义文本相似等，有效支持文本分类及自动化分析。

multi-sentence-BERTino - 意大利语句子嵌入模型的功能与应用

Github开源项目语义搜索模型Huggingface句子嵌入句子相似性意大利语multi-sentence-BERTino

multi-sentence-BERTino是专为意大利语设计的句子嵌入模型，依托sentence-transformers实现高效的建模。该模型使用mmarco italian和stsb italian数据集进行训练，可用于语义搜索和聚类，支持两种操作方式：使用sentence-transformers库或HuggingFace Transformers。文档包含训练参数和评估结果，详细描述了完整模型架构，适合各种自然语言处理任务。

phrase-bert - 短语嵌入与语料库分析的提升方案

Github开源项目模型Huggingface特征提取句子相似性Phrase-BERT短语嵌入语料库探索

Phrase-BERT项目利用BERT改进短语嵌入，应用于语料库分析，通过sentence-transformers库轻松实现模型安装与使用，支持短语点积及余弦相似度计算。项目包含五个短语语义评估任务，提供训练与微调Phrase-BERT所需的代码和数据集，使用Python脚本详细展现使用方法、训练和评估步骤，便捷用户进行多任务扩展。

all-MiniLM-L6-v2-similarity-es - 西班牙语句子相似性与聚类分析的高效模型

Github开源项目模型Huggingface嵌入模型sentence-transformers句子相似性Roberta相似句子数据集

该微调模型专注于西班牙语句子相似性任务，使用sentence-transformers框架，将语句转换为768维向量，支持语义搜索和聚类。便捷安装：通过pip获取sentence-transformers或使用HuggingFace Transformers进行高级处理。训练于西班牙语相似句子数据集，取得了80.1%的斯皮尔曼相关性。

stella-large-zh-v2 - stella-large-zh-v2模型在多任务中的综合表现

Github开源项目模型模型评估Huggingface特征提取句子相似性亚马逊评论分类stella-large-zh-v2

本项目借助多个MTEB数据集，对模型在句子相似度、分类及检索任务中的表现进行了全面评估。通过cos_sim_pearson、cos_sim_spearman等多项指标，展示了该模型在中文文本相似度和分类任务中的高效能力，尤其体现在MTEB BQ和MTEB CovidRetrieval数据集上。测试结果表明，该模型可在多种任务和数据集上灵活应用，适用于高精度文本相似性测量和分类的应用场景。

bge-base-zh-v1.5 - 文本低维向量映射提升中文检索与分类效率

Github开源项目模型Huggingface对比学习嵌入模型FlagEmbedding向量检索句子相似性

FlagEmbedding是一个开源项目，可将文本转换为低维密集向量，用于多种任务，如检索、分类和语义搜索。bge-base-zh-v1.5版本优化了相似度分布，没有指令也能提升检索能力。支持中文和英文的处理，并与大型语言模型(LLM)无缝集成，bge-reranker交叉编码器模型为文档重新排名提供高精度结果。此外，最新的LLM-Embedder满足多样化检索增强需求，使用户在大数据环境中更高效地完成检索和分类。

sentence-camembert-base - 提供法语句子嵌入的先进方法，有效提升文本相似度

Github开源项目模型模型评估Huggingface句子嵌入句子相似性法语sentence-camembert-base

该模型利用预训练的Camembert-base和Siamese BERT-Networks微调，为法语句子嵌入提供了先进的方法，通过训练在stsb_multi_mt数据集上，有效提升文本相似度精确性。测试中Pearson相关系数达到82.36，适合从事法语内容分析的开发者，助力提高自然语言处理任务的准确性和效率。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com