stella-large-zh-v2 项目介绍
stella-large-zh-v2 是一个用于中文句子相似度计算和相关信息提取的模型。该模型依托句子-变压器架构(sentence-transformers),在多个任务中表现出色,展示了其在理解和分析中文文本方面的强大能力。
项目背景与目标
stella-large-zh-v2 项目旨在通过计算中文句子的相似性,提取文本特征,帮助用户进行多种自然语言处理任务。这些任务包括句子相似性计算,文本聚类,文本分类,重排序及信息检索等。模型通过在多语言文本基准(MTEB)数据集上进行训练和评估,获得了高效的性能指标。
任务与评估
句子相似性(STS)
该项目在句子相似性任务中进行了多次评估。这些任务使用了多种基准数据集,包括MTEB AFQMC、ATEC、BQ和LCQMC等。模型在这些数据集上的表现通过余弦相似度、欧几里得距离和曼哈顿距离的皮尔逊相关系数及斯皮尔曼相关系数进行测量。
- MTEB AFQMC 数据集:模型在余弦相似度的皮尔逊相关上取得了47.34的成绩。
- MTEB ATEC 数据集:在同样的测试中,其相似性系数达到53.12。
- MTEB BQ 数据集:余弦相似性斯皮尔曼相关值为65.54。
- MTEB LCQMC 数据集:在斯皮尔曼相关测评中达到77.48。
文本分类
在文本分类任务中,stella-large-zh-v2 通过准确率和F1值来展示其能力。这些测试在亚马逊评论分类和IFlyTek分类等数据集上进行。
- MTEB AmazonReviewsClassification:精确度为40.82,F1值为39.02。
- iFlyTek:取得了47.99的准确率,F1值为35.24。
- JDReview:表现尤为优异,准确率达到了86.98,F1值为81.87。
聚类和重排序
聚类和重排序任务中,模型亦展示了其高效性。
- CLS Clustering P2P:V-measure的评分为39.95。
- CMedQAv1 Reranking:在平均准确率(MAP)上达到85.45,而倒数排名平均值(MRR)为88.14。
信息检索
在信息检索任务中,模型在多个数据集上进行评估,包括CovidRetrieval和EcomRetrieval,使用多种评测指标如MAP, MRR, NDCG等。
- CovidRetrieval(MAP@1):68.86。
- EcomRetrieval(MAP@1):46.80。
结论
stella-large-zh-v2 项目展现了其强大的多功能性和准确性,能够在多个中文文本处理任务中提供高效的解决方案。项目的成功得益于其对句子相似性及文本特征提取技术的深入应用和优化,通过一系列大规模数据集的评测,证明了其卓越的性能和应用潜力。