klue-sroberta-base-continue-learning-by-mnr 项目介绍
这是一个基于sentence-transformers库开发的句子相似度模型项目。该项目由Bespin Global公司的JaeHyeong AN开发,旨在为韩语文本提供高质量的句子嵌入表示。
项目背景
随着自然语言处理技术的发展,准确捕捉句子语义并计算相似度的需求日益增长。该项目基于KLUE数据集和RoBERTa预训练模型,通过持续学习的方法,针对韩语句子相似度任务进行了优化。
模型训练过程
模型的训练分为两个阶段:
-
使用KLUE/NLI数据集进行负采样,采用MultipleNegativeRankingLoss进行第一阶段NLI训练。
-
在第一阶段训练完成的模型基础上,使用KLUE/STS数据集和CosineSimilarityLoss进行第二阶段STS训练。
这种持续学习的方法使模型能够更好地适应句子相似度任务。
模型使用
使用该模型非常简便,只需安装sentence-transformers库即可。以下是一个简单的使用示例:
from sentence_transformers import SentenceTransformer
sentences = ["这是一个示例句子", "每个句子都被转换"]
model = SentenceTransformer("bespin-global/klue-sroberta-base-continue-learning-by-mnr")
embeddings = model.encode(sentences)
print(embeddings)
模型评估结果
模型在sts-test数据集上进行了评估,主要指标包括:
- 余弦相似度: Pearson相关系数0.8901, Spearman相关系数0.8893
- 曼哈顿距离: Pearson相关系数0.8867, Spearman相关系数0.8818
- 欧几里得距离: Pearson相关系数0.8875, Spearman相关系数0.8827
- 点积相似度: Pearson相关系数0.8786, Spearman相关系数0.8735
平均得分为0.8893,显示出模型在句子相似度任务上的优秀表现。
项目价值
该项目为韩语自然语言处理任务提供了一个高质量的句子嵌入模型。它可以应用于多种下游任务,如语义搜索、文本聚类等。通过开源共享,该项目为韩语NLP研究和应用提供了宝贵的资源。