bge-m3-korean项目介绍
项目背景
bge-m3-korean模型是从BAAI/bge-m3基础模型进行优化和微调的结果。这个模型的设计初衷是为了将句子和段落映射到一个1024维的稠密向量空间,应用于自然语言处理中的多种任务,包括语义文本相似性、语义搜索、同义句挖掘、文本分类和聚类等。
模型详细信息
模型类型
- 句子转换模型(Sentence Transformer)
基础模型
- 基础模型为:BAAI/bge-m3
最大序列长度
- 8192个标记
输出维度
- 1024个标记
相似性函数
- 余弦相似度
模型架构
bge-m3-korean的架构使用了一个XLMRobertaModel的句子转换器,其架构包括:
- 一个带有最大序列长度8192的转换器
- 一个池化层,负责将句子的词嵌入平均化处理
使用方法
如何安装
用户需要首先安装Sentence Transformers库,以便加载和使用模型:
pip install -U sentence-transformers
使用示例
使用Sentence Transformers库加载模型并进行语句嵌入和相似性计算:
from sentence_transformers import SentenceTransformer
# 从🤗 Hub下载模型
model = SentenceTransformer("upskyy/bge-m3-korean")
# 进行推断
sentences = [
'아이를 가진 엄마가 해변을 걷는다.',
'두 사람이 해변을 걷는다.',
'한 남자가 해변에서 개를 산책시킨다.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
评价方法
bge-m3-korean模型在语义相似性任务中提供了多种评价指标:
- Pearson Cosine: 0.874
- Spearman Cosine: 0.8724
- Pearson Manhattan: 0.8593
- Spearman Manhattan: 0.8688
- Pearson Euclidean: 0.8598
- Spearman Euclidean: 0.8694
这些指标展示了模型在不同数学距离上的表现,为开发者选择合适的距离测量方法提供了参考。
框架版本信息
该模型使用以下工具和框架版本进行构建:
- Python: 3.10.13
- Sentence Transformers: 3.0.1
- Transformers: 4.42.4
- PyTorch: 2.3.0+cu121
引用
如果您希望在学术研究中引用bge-m3-korean模型,请使用以下引用格式:
@misc{bge-m3,
title={BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation},
author={Jianlv Chen and Shitao Xiao and Peitian Zhang and Kun Luo and Defu Lian and Zheng Liu},
year={2024},
eprint={2402.03216},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
通过这些信息,用户可以对bge-m3-korean项目有一个全面的了解,从安装使用到其在不同语义任务上的性能表现。