项目概述
zpoint_large_embedding_zh是一个专注于中文文本向量嵌入的开源模型项目。该项目基于sentence-transformers库开发,采用MIT开源协议发布,主要用于处理中文文本的语义表示和相似度计算任务。
核心特点
该模型在多个中文自然语言处理任务上展现出优秀的性能表现,包括:
- 文本语义相似度计算(STS)
- 文本分类任务
- 文本聚类
- 信息检索与重排序
- 文本对分类
性能评估
该模型在众多标准评测数据集上进行了全面测试:
语义相似度任务
- 在BQ数据集上取得了75%以上的相关性得分
- 在LCQMC数据集上达到约80%的spearman相关性
- 在AFQMC和ATEC数据集上取得了58-60%的相关性表现
检索与重排序任务
- 在医疗问答数据集CMedQA上,MAP和MRR指标均达到90%以上
- 在电商检索任务上,top10召回率达到87%
- 在新冠相关文献检索任务中,top10召回率接近98%
分类任务
- 在京东评论分类任务上准确率达到88.9%
- 在讯飞开放数据集上达到51.7%的准确率
应用场景
该模型适用于以下应用场景:
- 智能问答系统
- 文本相似度计算
- 文档检索系统
- 电商搜索
- 医疗文献检索
- 文本分类应用
- 智能客服系统
技术特点
- 支持多种距离度量方式:余弦相似度、欧式距离、曼哈顿距离等
- 在各类评估指标上表现均衡:MAP、MRR、NDCG等
- 具备良好的泛化能力,适用于多个领域
- 支持大规模文本处理