#句向量

all_datasets_v3_mpnet-base - 基于MPNet的高效句子和段落编码模型

开源项目句子相似性模型对比学习信息检索Huggingface句向量sentence-transformersGithub

该模型利用sentence-transformers，通过microsoft/mpnet-base预训练模型和自监督对比学习目标进行微调，将句子和段落有效编码至768维度向量空间，适用于信息检索、语义搜索和聚类任务，尤其是在句子相似度计算中有较好表现。微调时，使用了超过10亿对的句子数据，并在TPU v3-8环境下进行了920k步训练，采用AdamW优化器和对比损失。此外，在无sentence-transformers库的情况下，通过特定的池化操作仍可实现相似的编码效果，代码实现简单易用。

bert-base-portuguese-cased-nli-assin-2 - 提升句子相似度与语义搜索的句子转换器

模型训练Huggingfacesentence-transformersGithub开源项目语义搜索模型特征提取句向量

模型将句子和段落转换为768维向量，用于聚类和语义搜索等任务。可通过安装sentence-transformers库或直接调用HuggingFace Transformers进行操作。采用SoftmaxLoss训练，并通过EmbeddingSimilarityEvaluator评估，结合BertModel与句子池化实现高效转换。

rubert-tiny - 小型化俄英双语BERT模型支持多种自然语言处理任务

模型压缩句向量GithubBERT自然语言处理深度学习Huggingface开源项目模型

rubert-tiny是一个经过蒸馏的轻量级BERT模型，针对俄语和英语优化。模型大小仅45MB，参数量1200万，较基础BERT小10倍且速度更快。支持掩码填充、特征提取和句子相似度等NLP任务，适用于命名实体识别和情感分类等简单俄语任务。通过多语言语料库训练，可提供俄英双语对齐的句向量表示。

stsb-bert-base - 基于BERT的文本向量化和语义相似度分析工具

句向量GithubBERT自然语言处理Huggingface开源项目模型语义相似度sentence-transformers

stsb-bert-base是一个已弃用的句子转换模型，基于BERT架构可将文本转化为768维向量表示。模型通过sentence-transformers或HuggingFace Transformers库提供支持，适用于文本聚类和语义搜索。尽管不再推荐使用，但其架构设计和实现方法对理解文本向量化技术具有重要参考意义。

all-MiniLM-L6-v1 - 基于MiniLM的神经网络句子编码模型

语义相似度语义搜索开源项目自然语言处理模型Huggingface句向量sentence-transformersGithub

all-MiniLM-L6-v1是基于transformer架构的句子编码模型，能将文本转换为384维向量表示。该模型在10亿规模的句子数据集上采用对比学习方法训练，适用于文本聚类和语义检索等自然语言处理任务。模型同时支持sentence-transformers和Hugging Face两个主流框架，便于开发者快速集成和部署。

polyBERT - 面向聚合物结构分析的智能化学语言模型

GithubPSMILES模型句向量开源项目聚合物信息学化学语言模型HuggingfacepolyBERT

polyBERT是一个专门用于聚合物结构分析的化学语言模型，通过将PSMILES字符串转换为600维指纹向量来表示聚合物化学结构。模型集成了sentence-transformers和HuggingFace Transformers框架，采用mean pooling方法处理词嵌入，能够高效完成聚合物结构的自动化分析。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号