项目概述
jina-embeddings-v2-base-zh是一个专门面向中文和英文双语的文本嵌入模型,基于sentence-transformers框架开发。该模型主要用于文本特征提取、句子相似度计算等自然语言处理任务。
主要特点
- 双语支持:同时支持中文和英文文本处理
- 开源许可:采用Apache-2.0开源协议
- 多任务支持:可用于文本分类、文本检索、文本聚类等多种NLP任务
- 高性能:在多个评测数据集上展现出优秀的性能表现
应用场景
该模型可以应用在以下场景:
- 文本相似度计算
- 问答系统
- 文本分类
- 文本检索
- 文档重排序
- 文本聚类
性能表现
该模型在多个中文数据集上进行了评测,展现出优秀的性能:
- 在BQ数据集上的句子相似度任务中,余弦相似度Spearman相关系数达到66.07%
- 在医疗问答重排序任务(CMedQAv2)上,MAP指标达到83.74%
- 在电商评论分类任务(JDReview)上,准确率达到79.57%
- 在LCQMC语义匹配任务中,余弦相似度Spearman相关系数达到75.74%
技术特性
- 基于transformers架构
- 支持transformers.js框架
- 提供完整的MTEB(Massive Text Embedding Benchmark)评测结果
- 支持多种相似度计算方式:余弦相似度、欧氏距离、曼哈顿距离等
使用优势
- 双语处理能力强,适合中英文混合场景
- 在多个领域数据集上表现稳定
- 支持多种距离计算方式,灵活适应不同应用需求
- 具备完整的评测体系,性能可信度高
- 开源协议友好,可用于商业项目