bge-base-zh-v1.5

bge-base-zh-v1.5 项目介绍

项目概述

bge-base-zh-v1.5 是由 BAAI 开发的一款中文文本嵌入模型，属于 FlagEmbedding 项目的一部分。FlagEmbedding 项目旨在将任何文本转换为低维密集向量，这些向量可以用于检索、分类、聚类、语义搜索等多种任务，还可以用于语言模型（LLM）的向量数据库。此模型已经在多个基准测试中表现优异，特别是在中文语境下具有强大的表示能力。

项目背景

随着自然语言处理的快速发展，文本嵌入技术越来越受到关注，它能有效地捕获文本间的语义关系。传统的方法往往依赖于人工特征提取，而嵌入模型则通过深度学习自动捕获复杂的语义特征，大大提高了效率和精度。bge-base-zh-v1.5 是在这个背景下开发的，它利用了大量中文语料库进行训练，提供了更合理的相似性分布，提升了检索能力。

模型功能

低维密集向量映射：bge-base-zh-v1.5 能将文本映射为密集向量，用于检索和分类等任务。
相似性分布优化：通过版本 1.5 的更新，当前模型优化了相似性分布问题，使得在无需指令的情况下也能提升其检索能力。
兼容多种平台：该模型已集成到 Huggingface Hub 和 Langchain 中，用户可以在多种开发环境中使用。

模型应用

bge-base-zh-v1.5 适用于以下场景：

文本检索：将句子转化为向量用于快速检索相关文档。
语义相似度计算：根据句子嵌入向量计算语义相似度，用于文本匹配和排序。
数据分类和聚类：利用向量的特性对大规模文本数据进行分类和聚类。

使用指南

嵌入模型使用

用户可以通过多种工具来使用 bge 模型，包括 FlagEmbedding、Sentence-Transformers、Langchain 和 Huggingface Transformers。

使用示例（FlagEmbedding）

from FlagEmbedding import FlagModel
sentences = ["样例句子-1", "样例句子-2"]
model = FlagModel('BAAI/bge-base-zh-v1.5', 
                  query_instruction_for_retrieval="为这个句子生成表示以用于检索相关文章：")
embeddings = model.encode(sentences)
print(embeddings)