#句子相似性
all_datasets_v3_mpnet-base - 基于MPNet的高效句子和段落编码模型
Github开源项目模型Huggingface对比学习信息检索sentence-transformers句子相似性句向量
该模型利用sentence-transformers,通过microsoft/mpnet-base预训练模型和自监督对比学习目标进行微调,将句子和段落有效编码至768维度向量空间,适用于信息检索、语义搜索和聚类任务,尤其是在句子相似度计算中有较好表现。微调时,使用了超过10亿对的句子数据,并在TPU v3-8环境下进行了920k步训练,采用AdamW优化器和对比损失。此外,在无sentence-transformers库的情况下,通过特定的池化操作仍可实现相似的编码效果,代码实现简单易用。
allenai-specter - 基于Sentence-Transformers的科学文献相似度建模
Github开源项目模型Huggingface句子嵌入特征提取句子相似性科学出版物AllenAI SPECTER
该模型将AllenAI SPECTER转化为Sentence-Transformers框架,可用于将科学文献的标题和摘要映射至向量空间以计算相似度。在安装Sentence-Transformers库后,用户能轻松进行相似度计算,同时也支持从HuggingFace Transformers加载模型。本文档还展示了如何使用池化操作聚合上下文词嵌入。
bge-base-en-v1.5 - 增强文本处理能力的多任务学习模型
Github开源项目模型分类Huggingfacesentence-transformers特征提取句子相似性句子聚类
bge-base-en-v1.5模型通过多任务学习优化自然语言处理技术,覆盖分类、检索、聚类和重排任务。在多个MTEB数据集上表现优异,例如在亚马逊情感分类任务中达到93.39%的准确率,在AskUbuntu重排任务中MRR达到74.28%。该模型具有MIT开源许可,适用于多种英语任务,为研究人员和开发者提供有效支持。
sbert-base-cased-pl - 波兰语言语义相似度高效模型
Github开源项目自然语言处理机器学习模型Huggingface句子相似性HerBERTSHerbert
sbert-base-cased-pl是SentenceBERT的改进版,利用siamese与triplet网络结构生成语义嵌入,以余弦相似度进行判断。该模型基于波兰语HerBERT,专注于语义文本相似性优化,训练数据来源于Wikipedia,并通过字节对编码进行分词,准确率达82.31%。适用于波兰语相关环境与分词器场景。
GLuCoSE-base-ja-v2 - 专为日本文本检索及句子相似度设计的嵌入模型
Github开源项目模型Huggingface对比学习检索系统句子相似性GLuCoSE v2日语文本处理
模型专注于日本文本处理,可在CPU上运行,提升检索任务性能。通过蒸馏大规模嵌入及多阶段对比学习,GLuCoSE v2在MIRACL等任务中的表现出色。其支持语义相似度测量,适用于查询和段落检索,使用余弦相似度函数,支持512标记的输入,生成768维输出。
ag-nli-DeTS-sentence-similarity-v4 - 句子相似度的跨编码器评估与文本分类应用
Github开源项目模型语义匹配Huggingface句子相似性Cross-EncoderSentenceTransformersNLI数据集
本模型采用Cross-Encoder方法,对多语言句子相似度进行评估,使用六种NLI数据集训练。通过提供0到1间的相似度分数,协助实现精确的文本分类和语义分析。基于SentenceTransformers框架,提升文本特征提取性能,适用于包括英语、荷兰语、德语、法语、意大利语和西班牙语在内的多种语言。
quora-distilbert-multilingual - 跨语言句子嵌入与语义搜索解决方案
Github开源项目语义搜索模型Huggingfacesentence-transformers特征提取句子相似性DistilBert
quora-distilbert-multilingual是一款依托sentence-transformers框架的模型,可将句子和段落转换为768维的向量,从而助力于句子聚类和语义搜索。用户可以选择使用sentence-transformers库简便地安装和使用,也可利用HuggingFace Transformers手动实现句子嵌入。该模型在Sentence Embeddings Benchmark测试中表现优异,模型结构包含DistilBert变换器和平均池化操作,为句子提供高效的表示能力。
MiniLM-L6-Keyword-Extraction - 高效句子嵌入模型,用于语义搜索与信息聚类
Github开源项目语义搜索模型HuggingFaceHuggingface对比学习sentence-transformers句子相似性
此项目通过自监督对比学习,训练出可将句子和段落转化为384维向量的模型,适用于语义搜索、信息检索和句子相似度任务。模型基于1B句子对数据集微调,利用TPU v3-8进行训练,并在Hugging Face社区活动期间开发。用户可使用sentence-transformers或HuggingFace Transformers实现多种自然语言处理应用。
indo-sentence-bert-base - 印尼语句子相似度计算与嵌入的优化解决方案
Github开源项目模型Huggingface特征提取训练参数transformers库句子相似性同志句子BERT
indo-sentence-bert-base提供印尼语的文本相似度计算和语义搜索功能,通过高维向量实现精准句子比较,适用于集群分析和语义检索,支持HuggingFace和Sentence-Transformers库,具备高效的训练和评估机制。
robbert-2022-dutch-sentence-transformers - RobBERT模型改进的句子相似度与特征提取工具
Github开源项目语义搜索模型Huggingfacesentence-transformers特征提取句子相似性荷兰
该项目基于KU Leuven开发的RobBERT模型,提供句子相似度与特征提取功能,支持语义搜索和文本聚类等应用场景。通过翻译和微调多种Dutch语料库,模型在荷兰语环境中表现良好。用户可以通过安装sentence-transformers或使用HuggingFace Transformers来实现模型的使用,主要功能包括将句子和段落转换为768维度密集向量,为文本分析提供准确的句子嵌入。项目中使用的数据加载与优化策略有效提升了整体性能。
bert-base-nli-stsb-mean-tokens - 句子嵌入与语义搜索的基础模型
Github开源项目模型Huggingfacesentence-transformers句子嵌入BERT模型句子相似性变形金刚
此模型能将句子和段落映射为768维向量,适用于分类和语义搜索。但由于其生成的嵌入质量不佳,已被弃用。建议使用最新的模型以提升效果。通过安装sentence-transformers库或使用HuggingFace Transformers,都能实现向量转换功能。
sentence-bert-base-italian-xxl-uncased - 提升语义分析与聚类效果的意大利语句子相似度模型
Github开源项目自然语言处理模型训练模型Huggingfacesentence-transformers句子嵌入句子相似性
这个意大利语句子相似度模型能将文本映射到768维度的密集向量空间,适用于语义搜索和语句聚类。其基于dbmdz/bert-base-italian-xxl-uncased构建,为文本理解与分析提供支持。在sentence-transformers库的支持下,模型的安装与使用变得极为简便,即使不使用该库,也可通过HuggingFace Transformers实现。其性能在Sentence Embeddings Benchmark中经过自动化评估,可供参考。
e5-small-unsupervised - 无监督预训练模型用于提升文本嵌入与句子相似度
Github开源项目模型Huggingface文本嵌入无监督学习句子相似性句子转换器E5-small-unsupervised
该无监督对比预训练模型通过弱监督方法进行预训练,无需人为标注,实现高效的句子相似度计算和信息检索。模型具备12层架构和384维嵌入空间,适用于MS-MARCO数据集等的查询与段落编码。输入文本需使用特定前缀(如“query:”与“passage:”)以求最佳效果。模型包含详细示例代码和训练细节,适用于BEIR和MTEB基准评价,支持英文文本,文本长度限制为512个标记。
cloudy-large-zh - 支持多任务评估的高级句子相似性和特征提取模型
Github开源项目模型数据集Huggingfacesentence-transformers句子相似性检索排序重排
cloudy-large-zh项目专注于句子相似性和特征提取,利用MTEB数据集进行广泛的任务评估。在中医问答、电子商务和视频检索等领域表现优异,特别是在MTEB CMedQAv2重新排序任务中获得89.47的MRR分数。采用先进算法提高检索性能,确保各领域内容的准确排序和高效检索。
ag-nli-DeTS-sentence-similarity-v3-light - 多语言句子相似性评分模型
Github开源项目预训练模型模型transformersHuggingface句子相似性Cross-Encodersentence similarity
本模型通过多语言NLI数据集训练,利用跨编码器评估句子间的语义相似度。支持使用Python库SentenceTransformers调用,适用于英语、德语、法语、西班牙语、意大利语等多种语言。
snowflake-arctic-embed-m-long - 探索句子相似性与特征提取的新前沿
Github开源项目模型数据集分类Huggingfacesentence-transformers特征提取句子相似性
Snowflake-arctic-m-long模型基于transformers.js框架,提升了句子相似性和特征提取能力。支持的任务包括分类、检索与聚类,尤其在MTEB数据集上的表现优异。在Amazon分类任务中,其准确率超过78%,在ArguAna和CQADupstack检索任务中,检索性能高达50%以上。通过优化多项评测指标,如准确率、F1得分和检索率,这一模型为文本处理与分析提供了坚实的支持。
bert-large-nli-mean-tokens - 句子相似性嵌入与聚类应用
Github开源项目预训练模型BERT模型Huggingfacesentence-transformers句子嵌入句子相似性
该模型为sentence-transformers的一部分,能够将句子和段落转化为1024维的密集向量空间,用于聚类和语义搜索。虽然该模型已被标记为弃用且句子嵌入质量较低,推荐选择其他更优质的模型。适用的工具可以通过pip安装,并提供Python实现的代码示例。尽管如此,该模型仍作为一种句子嵌入学习方法的参考,对自然语言处理技术爱好者具有借鉴意义。
sentence-transformers-multilingual-e5-small - 多语言句子相似性和分类模型,覆盖多种语言选择
Github开源项目多语言模型分类Huggingface句子相似性multilingual-e5-smallAmazonReviews
该项目提供多语言句子相似性和分类功能,适用范围广泛。采用MIT许可证,通过英语、德语、法语、西班牙语和中文等语言实现较高的精准度。通过Amazon反事实分类和情感极性任务表现出色,涵盖丰富的数据集和评估任务,如重排序和语义文本相似等,有效支持文本分类及自动化分析。
multi-sentence-BERTino - 意大利语句子嵌入模型的功能与应用
Github开源项目语义搜索模型Huggingface句子嵌入句子相似性意大利语multi-sentence-BERTino
multi-sentence-BERTino是专为意大利语设计的句子嵌入模型,依托sentence-transformers实现高效的建模。该模型使用mmarco italian和stsb italian数据集进行训练,可用于语义搜索和聚类,支持两种操作方式:使用sentence-transformers库或HuggingFace Transformers。文档包含训练参数和评估结果,详细描述了完整模型架构,适合各种自然语言处理任务。
phrase-bert - 短语嵌入与语料库分析的提升方案
Github开源项目模型Huggingface特征提取句子相似性Phrase-BERT短语嵌入语料库探索
Phrase-BERT项目利用BERT改进短语嵌入,应用于语料库分析,通过sentence-transformers库轻松实现模型安装与使用,支持短语点积及余弦相似度计算。项目包含五个短语语义评估任务,提供训练与微调Phrase-BERT所需的代码和数据集,使用Python脚本详细展现使用方法、训练和评估步骤,便捷用户进行多任务扩展。
all-MiniLM-L6-v2-similarity-es - 西班牙语句子相似性与聚类分析的高效模型
Github开源项目模型Huggingface嵌入模型sentence-transformers句子相似性Roberta相似句子数据集
该微调模型专注于西班牙语句子相似性任务,使用sentence-transformers框架,将语句转换为768维向量,支持语义搜索和聚类。便捷安装:通过pip获取sentence-transformers或使用HuggingFace Transformers进行高级处理。训练于西班牙语相似句子数据集,取得了80.1%的斯皮尔曼相关性。
stella-large-zh-v2 - stella-large-zh-v2模型在多任务中的综合表现
Github开源项目模型模型评估Huggingface特征提取句子相似性亚马逊评论分类stella-large-zh-v2
本项目借助多个MTEB数据集,对模型在句子相似度、分类及检索任务中的表现进行了全面评估。通过cos_sim_pearson、cos_sim_spearman等多项指标,展示了该模型在中文文本相似度和分类任务中的高效能力,尤其体现在MTEB BQ和MTEB CovidRetrieval数据集上。测试结果表明,该模型可在多种任务和数据集上灵活应用,适用于高精度文本相似性测量和分类的应用场景。
bge-base-zh-v1.5 - 文本低维向量映射提升中文检索与分类效率
Github开源项目模型Huggingface对比学习嵌入模型FlagEmbedding向量检索句子相似性
FlagEmbedding是一个开源项目,可将文本转换为低维密集向量,用于多种任务,如检索、分类和语义搜索。bge-base-zh-v1.5版本优化了相似度分布,没有指令也能提升检索能力。支持中文和英文的处理,并与大型语言模型(LLM)无缝集成,bge-reranker交叉编码器模型为文档重新排名提供高精度结果。此外,最新的LLM-Embedder满足多样化检索增强需求,使用户在大数据环境中更高效地完成检索和分类。
sentence-camembert-base - 提供法语句子嵌入的先进方法,有效提升文本相似度
Github开源项目模型模型评估Huggingface句子嵌入句子相似性法语sentence-camembert-base
该模型利用预训练的Camembert-base和Siamese BERT-Networks微调,为法语句子嵌入提供了先进的方法,通过训练在stsb_multi_mt数据集上,有效提升文本相似度精确性。测试中Pearson相关系数达到82.36,适合从事法语内容分析的开发者,助力提高自然语言处理任务的准确性和效率。