jais-family-13b-chat项目介绍
背景介绍
jais-family-13b-chat是一个由大型语言模型组成的项目,旨在提供优秀的双语支持,特别是阿拉伯语和英语。这个项目在阿拉伯语的自然语言处理(NLP)方面表现尤其突出,同时也具备强大的英语能力。其开发由Inception和Cerebras Systems合作完成。
模型概述
jais-family-13b-chat属于Jais模型家族,这个家族分为两种主要的基础模型:
- 从零开始预训练的模型 (
jais-family-*
) - 从 Llama-2自适应预训练的模型 (
jais-adapted-*
)
在这个项目中,开发者发布了20种不同的模型,涵盖从590M到70B参数的规模。所有的模型都经过了指令微调,用于阿拉伯语和英语的对话。
模型架构
Jais模型使用的是自回归语言模型,基于transformer的解码器架构(GPT-3)。jais-family模型从零开始训练,采用了SwiGLU非线性激活函数和ALiBi位置编码,这为模型提供了长序列的处理能力。而jais-adapted模型是在Llama-2模型上构建的,使用了RoPE位置嵌入和分组查询注意机制。
数据和训练
Jais家族的模型在广泛的英文、阿拉伯文和代码数据上进行预训练,最多使用了1.6万亿个tokens,这些数据来源包括网络、代码、书籍、科学论文以及合成数据。其中,合成数据部分通过将高质量的英文资源翻译为阿拉伯语,以增强阿拉伯语的数据量。
所有的对话模型都通过阿拉伯和英文的提示-响应对进行了微调,这些训练数据覆盖了一次性和多次交互的情景。通过使用开源微调数据集以及内部编辑的人工数据,这些微调数据的topic和风格多样性得到了增强。
项目应用
这个模型家族的广泛发布不仅促进阿拉伯语NLP的研究,还在服务于阿拉伯语和双语社区的众多下游应用中得到了验证。训练和适应技术尤其在低资源和中等资源语言上表现出了良好的扩展性。
长期目标
通过Jais家族模型的研究与应用,项目希望在对话系统、大规模翻译、文本生成以及多语言处理等领域,始终保持技术和应用的前沿地位。这一切都将持续推动阿拉伯世界及更广泛的双语社区的数字化发展。