jina-embeddings-v2-base-code 项目介绍
项目概述
jina-embeddings-v2-base-code 是由 Jina AI 公司开发的一个多语言文本嵌入模型。该模型不仅支持英语,还能处理30种广泛使用的编程语言。它是 jina-embeddings-v2 系列的一部分,具有强大的8192序列长度支持能力。
模型架构与训练
该模型基于 Bert 架构(JinaBert),并采用了对称双向 ALiBi 变体,以支持更长的序列长度。模型的骨干网络 jina-bert-v2-base-code 在 github-code 数据集上进行了预训练。随后,模型在 Jina AI 收集的超过1.5亿对编码问答和文档字符串源代码对上进行了进一步训练。这些数据对来自各个领域,并经过了仔细的清理过程。
模型特点
- 支持8192序列长度,适用于处理长文档的场景。
- 拥有1.61亿参数,在保证性能的同时实现快速和内存高效的推理。
- 多语言支持:除英语外,还支持30种常用编程语言。
- 基于 ALiBi 技术,可以扩展到更长的序列长度。
应用场景
该模型特别适用于技术问答和代码搜索等需要处理长文档的场景。它的多语言支持特性使其在各种编程相关的任务中表现出色。
使用方法
用户可以通过多种方式使用 jina-embeddings-v2-base-code 模型:
- 使用 Jina AI 的 Embedding API。
- 通过 transformers 包直接使用。
- 使用 sentence-transformers 库。
- 在 JavaScript 中使用 Transformers.js 库。
在使用时,建议应用平均池化(mean pooling)来获得高质量的句子嵌入。
相关模型
Jina AI 还提供了其他几个嵌入模型,包括:
- jina-embeddings-v2-small-en:3300万参数
- jina-embeddings-v2-base-en:1.37亿参数
- jina-embeddings-v2-base-zh:中英双语嵌入
- jina-embeddings-v2-base-de:德英双语嵌入
- jina-embeddings-v2-base-es:西英双语嵌入(即将推出)
未来计划
Jina AI 计划进一步扩展其嵌入模型系列:
- 开发支持更多欧洲和亚洲语言的双语嵌入模型。
- 推出支持多模态 RAG 应用的多模态嵌入模型。
- 开发高性能的重排序器。
社区支持
Jina AI 鼓励用户加入他们的 Discord 社区,与其他社区成员交流想法和经验。这为用户提供了一个直接与开发团队和其他使用者互动的平台。
</SOURCE_TEXT>