#句向量
all_datasets_v3_mpnet-base - 基于MPNet的高效句子和段落编码模型
开源项目句子相似性模型对比学习信息检索Huggingface句向量sentence-transformersGithub
该模型利用sentence-transformers,通过microsoft/mpnet-base预训练模型和自监督对比学习目标进行微调,将句子和段落有效编码至768维度向量空间,适用于信息检索、语义搜索和聚类任务,尤其是在句子相似度计算中有较好表现。微调时,使用了超过10亿对的句子数据,并在TPU v3-8环境下进行了920k步训练,采用AdamW优化器和对比损失。此外,在无sentence-transformers库的情况下,通过特定的池化操作仍可实现相似的编码效果,代码实现简单易用。
bert-base-portuguese-cased-nli-assin-2 - 提升句子相似度与语义搜索的句子转换器
模型训练Huggingfacesentence-transformersGithub开源项目语义搜索模型特征提取句向量
模型将句子和段落转换为768维向量,用于聚类和语义搜索等任务。可通过安装sentence-transformers库或直接调用HuggingFace Transformers进行操作。采用SoftmaxLoss训练,并通过EmbeddingSimilarityEvaluator评估,结合BertModel与句子池化实现高效转换。
rubert-tiny - 小型化俄英双语BERT模型支持多种自然语言处理任务
模型压缩句向量GithubBERT自然语言处理深度学习Huggingface开源项目模型
rubert-tiny是一个经过蒸馏的轻量级BERT模型,针对俄语和英语优化。模型大小仅45MB,参数量1200万,较基础BERT小10倍且速度更快。支持掩码填充、特征提取和句子相似度等NLP任务,适用于命名实体识别和情感分类等简单俄语任务。通过多语言语料库训练,可提供俄英双语对齐的句向量表示。
stsb-bert-base - 基于BERT的文本向量化和语义相似度分析工具
句向量GithubBERT自然语言处理Huggingface开源项目模型语义相似度sentence-transformers
stsb-bert-base是一个已弃用的句子转换模型,基于BERT架构可将文本转化为768维向量表示。模型通过sentence-transformers或HuggingFace Transformers库提供支持,适用于文本聚类和语义搜索。尽管不再推荐使用,但其架构设计和实现方法对理解文本向量化技术具有重要参考意义。
all-MiniLM-L6-v1 - 基于MiniLM的神经网络句子编码模型
语义相似度语义搜索开源项目自然语言处理模型Huggingface句向量sentence-transformersGithub
all-MiniLM-L6-v1是基于transformer架构的句子编码模型,能将文本转换为384维向量表示。该模型在10亿规模的句子数据集上采用对比学习方法训练,适用于文本聚类和语义检索等自然语言处理任务。模型同时支持sentence-transformers和Hugging Face两个主流框架,便于开发者快速集成和部署。
polyBERT - 面向聚合物结构分析的智能化学语言模型
GithubPSMILES模型句向量开源项目聚合物信息学化学语言模型HuggingfacepolyBERT
polyBERT是一个专门用于聚合物结构分析的化学语言模型,通过将PSMILES字符串转换为600维指纹向量来表示聚合物化学结构。模型集成了sentence-transformers和HuggingFace Transformers框架,采用mean pooling方法处理词嵌入,能够高效完成聚合物结构的自动化分析。