bge-m3-korean - 多语言句子相似度与文本分析模型

bge-m3-korean项目介绍

项目背景

bge-m3-korean模型是从BAAI/bge-m3基础模型进行优化和微调的结果。这个模型的设计初衷是为了将句子和段落映射到一个1024维的稠密向量空间，应用于自然语言处理中的多种任务，包括语义文本相似性、语义搜索、同义句挖掘、文本分类和聚类等。

模型详细信息

模型类型

句子转换模型（Sentence Transformer）

基础模型

基础模型为：BAAI/bge-m3

最大序列长度

8192个标记

输出维度

1024个标记

相似性函数

余弦相似度

模型架构

bge-m3-korean的架构使用了一个XLMRobertaModel的句子转换器，其架构包括：

一个带有最大序列长度8192的转换器
一个池化层，负责将句子的词嵌入平均化处理

使用方法

如何安装

用户需要首先安装Sentence Transformers库，以便加载和使用模型：

pip install -U sentence-transformers

使用示例

使用Sentence Transformers库加载模型并进行语句嵌入和相似性计算：

from sentence_transformers import SentenceTransformer

# 从🤗 Hub下载模型
model = SentenceTransformer("upskyy/bge-m3-korean")

# 进行推断
sentences = [
    '아이를 가진 엄마가 해변을 걷는다.',
    '두 사람이 해변을 걷는다.',
    '한 남자가 해변에서 개를 산책시킨다.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)

评价方法

bge-m3-korean模型在语义相似性任务中提供了多种评价指标：

Pearson Cosine: 0.874
Spearman Cosine: 0.8724
Pearson Manhattan: 0.8593
Spearman Manhattan: 0.8688
Pearson Euclidean: 0.8598
Spearman Euclidean: 0.8694

这些指标展示了模型在不同数学距离上的表现，为开发者选择合适的距离测量方法提供了参考。

框架版本信息

该模型使用以下工具和框架版本进行构建：

Python: 3.10.13
Sentence Transformers: 3.0.1
Transformers: 4.42.4
PyTorch: 2.3.0+cu121

引用

如果您希望在学术研究中引用bge-m3-korean模型，请使用以下引用格式：

@misc{bge-m3,
      title={BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation}, 
      author={Jianlv Chen and Shitao Xiao and Peitian Zhang and Kun Luo and Defu Lian and Zheng Liu},
      year={2024},
      eprint={2402.03216},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

通过这些信息，用户可以对bge-m3-korean项目有一个全面的了解，从安装使用到其在不同语义任务上的性能表现。