jais-adapted-13b-chat项目介绍
jais-adapted-13b-chat是Jais家族中的一个重要模型,它是一个双语(阿拉伯语-英语)大规模语言模型(LLM),经过了预训练和指令微调。这个模型有以下几个主要特点:
模型概况
- 模型参数规模:13B
- 上下文长度:4096 tokens
- 语言:阿拉伯语和英语
- 许可证:Apache 2.0
模型架构
jais-adapted-13b-chat采用了基于Transformer的仅解码器架构,是在Llama-2模型的基础上进行适应性预训练得到的。它具有以下特点:
- 使用RoPE位置编码和分组查询注意力机制
- 扩展了词表,新增了32,000个阿拉伯语token
- 对新增的阿拉伯语token嵌入进行了特殊的初始化处理
训练数据
预训练阶段使用了约280B个token的混合语料:
- 阿拉伯语:140B tokens
- 英语:127B tokens
- 代码:13B tokens
指令微调阶段使用了约1400万条英语和阿拉伯语的指令-回复对。
训练过程
预训练采用了两阶段策略:
- 冻结模型主干,仅训练新增的阿拉伯语嵌入
- 解冻全部参数,继续预训练
指令微调阶段采用了序列打包的方式提高训练效率。
主要用途
jais-adapted-13b-chat可以用于:
- 阿拉伯语和英语的自然语言理解和生成任务
- 双语对话系统
- 阿拉伯语相关的下游NLP任务
使用方法
使用时需要启用trust_remote_code=True
,示例代码如下:
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("inceptionai/jais-adapted-13b-chat")
model = AutoModelForCausalLM.from_pretrained("inceptionai/jais-adapted-13b-chat", trust_remote_code=True)
这个模型为阿拉伯语NLP研究和应用提供了强大的基础,有望推动阿拉伯语自然语言处理技术的发展。