#语义嵌入
all-mpnet-base-v2 - 大规模训练的句子嵌入模型用于语义搜索和文本相似度
自然语言处理sentence-transformers开源项目语义嵌入机器学习Github向量空间Huggingface模型
all-mpnet-base-v2是一个在超过10亿句子对数据集上训练的句子嵌入模型。它能将文本映射到768维向量空间,适用于语义搜索、聚类和相似度计算等任务。该模型采用对比学习方法捕捉语义信息,可通过sentence-transformers库轻松使用。它为各种NLP应用提供了高质量的文本表示能力,是一个强大的通用sentence embedding工具。
LaBSE - 多语言共享向量空间映射的强大工具
语义嵌入Huggingface模型Github开源项目自然语言处理LaBSE多语言模型句子相似度
LaBSE是一个多语言模型,可将109种语言映射至共享向量空间。这个基于PyTorch的移植版本通过sentence-transformers库便于使用。模型支持句子相似度计算和特征提取,适用于多语言NLP任务。LaBSE基于BERT架构,包含Transformer、Pooling、Dense和Normalize层,为跨语言应用提供基础。
sentence-camembert-large - 基于CamemBERT的法语句子语义嵌入模型
文本相似度CamemBERTGithub模型自然语言处理语义嵌入机器学习开源项目Huggingface
一个专门面向法语文本的语义嵌入模型,基于'facebook/camembert-large'和'Siamese BERT-Networks'技术开发。模型通过数学向量表示法语句子语义,在STS基准测试中达到85.9%的皮尔逊相关系数。适用于语义搜索和文本相似度计算等应用场景,是当前性能领先的法语句子嵌入模型。