Qwen1.5-4B项目简介
Qwen1.5-4B是Qwen2的测试版本,是一个基于Transformer架构的仅解码语言模型。该模型在广泛的数据基础上进行了预训练,与之前发布的Qwen相比,具有多项改进:
模型规格
Qwen1.5系列包含八种模型规格,包括0.5B,1.8B,4B,7B,14B,32B,72B的密集模型,以及一个启用2.7B的14B MoE模型。
性能提升
Qwen1.5在聊天模型的性能上有显著提升,无论是基础模型还是聊天模型,都增加了多语言支持,并在所有尺寸的模型中稳定支持32K的上下文长度。此外,不需要trust_remote_code
。
模型细节
Qwen1.5是一个系列语言模型,包含不同尺寸的仅解码器语言模型。对于每种尺寸,发布了基础语言模型和对齐的聊天模型。该模型基于具有SwiGLU激活、注意力QKV偏置、组查询注意力、滑动窗口注意力和完全注意力的混合模型等的Transformer架构。此外,该模型具有改进的分词器,适应多种自然语言和代码。在测试版中,暂时不包括GQA(除了32B)和SWA与完全注意力的混合。
使用建议
虽然Qwen1.5已经在最新的Hugging Face Transformers中提供代码,建议安装transformers>=4.37.0
,以避免可能出现的KeyError问题。对于文本生成,不建议直接使用基础语言模型,而是可以通过进一步训练,如监督微调(SFT)、强化学习人类反馈(RLHF)、继续预训练等进行应用。
引用信息
如果您发现Qwen1.5-4B项目的工作对您有帮助,可以在相关作品中引用该技术报告。
总之,Qwen1.5-4B项目力图通过创新的技术和灵活的语言支持,为用户提供一个强大且可定制的语言模型工具,适合各种先进的自然语言处理任务。有关更详细的信息,请访问其相关的博客文章和GitHub仓库链接。