项目概述
bge-small-zh-v1.5是由智源研究院(BAAI)开发的中文文本嵌入模型,是FlagEmbedding系列模型的一员。这是一个小规模但性能表现出色的模型,可以将任意文本映射为低维的密集向量表示。
模型特点
- 基于小规模架构设计,模型更轻量化
- 支持中文文本处理
- 采用v1.5版本优化,相似度分布更合理
- 检索性能优秀,即使不使用指令也能获得不错的效果
- 支持开箱即用,有多种调用方式
应用场景
- 文本检索:可用于构建语义搜索系统
- 文本分类:用于文档自动分类
- 文本聚类:发现文本间的相似性关系
- 向量数据库:为大语言模型提供知识检索支持
使用方法
该模型提供多种便捷的使用方式:
- 通过FlagEmbedding库调用
- 通过Sentence-Transformers库调用
- 通过Langchain框架调用
- 通过Hugging Face Transformers库调用
使用建议
- 检索任务中建议为查询添加指令提示:"为这个句子生成表示以用于检索相关文章:"
- 对于文档/段落,无需添加任何指令
- 对于v1.5版本,即使不使用指令也能获得良好的检索效果
- 建议根据实际任务验证是否需要添加指令
技术优势
- 相似度分布更加合理,解决了之前版本相似度过高的问题
- 在没有指令的情况下检索性能仅有轻微下降
- 支持规范化的向量表示,便于计算余弦相似度
- 提供多种深度学习框架的调用支持