项目概述
EuroLLM-1.7B-Instruct是一个多语言指令微调语言模型,由欧盟资助并由多家研究机构联合开发,包括Unbabel、里斯本高等技术学院、爱丁堡大学等。该模型能够支持34种语言,包括欧盟所有官方语言以及阿拉伯语、中文、日语等重要语言。
技术特点
该模型采用标准的密集Transformer架构,具有以下特色:
- 使用分组查询注意力(GQA)机制,配备8个键值头,提高推理速度
- 采用预层归一化和RMSNorm,提升训练稳定性
- 使用SwiGLU激活函数,提升下游任务表现
- 在每一层使用旋转位置编码(RoPE),支持上下文长度扩展
训练细节
模型在Mare Nostrum 5超级计算机上使用256块NVIDIA H100 GPU进行训练:
- 序列长度:4,096
- 层数:24
- 嵌入维度:2,048
- 总参数量:16.57亿
- 使用Adam优化器和BF16精度
- 批量大小为3,072序列(约1200万tokens)
性能表现
在机器翻译任务上:
- 在FLORES-200、WMT-23和WMT-24等基准测试中表现优异
- 明显优于Gemma-2B模型,与Gemma-7B性能相当
- 在通用基准测试中:
- Hellaswag测试上与Gemma-2B水平相当
- Arc Challenge测试上略逊于Gemma-2B,可能因为非嵌入参数量较少(11.33亿vs 19.81亿)
使用限制
该模型尚未经过人类偏好对齐,可能产生以下问题:
- 幻觉内容
- 有害内容
- 错误陈述
应用场景
该模型特别适合:
- 多语言文本理解与生成
- 跨语言机器翻译
- 通用指令理解和执行
- 欧洲语言相关的NLP任务