项目概述
Suzume-llama-3-8B-multilingual是一个基于Meta的Llama-3-8B-Instruct模型进行多语言微调的开源语言模型。该项目旨在提升原始Llama 3模型在非英语语言上的表现能力,同时保持其在英语上的优秀性能。
主要特点
- 在近9万条多语言对话数据上进行微调训练
- 支持英语、德语、法语、日语、俄语、中文等多种语言对话
- 保持了Llama 3模型在英语上的强大性能
- 提供了便捷的GGUF版本,方便本地部署使用
- 开源了详细的训练数据和评估方法
模型性能
该模型在MT-Bench多语言评测中表现出色:
- 英语得分7.73,接近原始Llama 3的7.98
- 在法语(7.66)、俄语(8.19)等语言上取得了优异成绩
- 整体性能超过了同类7B参数规模的多语言模型
训练数据
模型使用了三个主要数据源进行训练:
- lightblue/tagengo-gpt4(76,338条对话)
- megagonlabs/instruction_ja(669条日语对话)
- openchat/openchat_sharegpt4_dataset(6,206条对话)
使用方法
用户可以通过以下方式使用该模型:
- 使用jan.ai或LM Studio等工具运行GGUF版本
- 通过vLLM在Python中直接调用,获得最快的推理速度
- 支持标准的对话模板格式
技术细节
- 使用4块A100(80GB)GPU训练约2.5小时
- 采用cosine学习率调度
- 使用Axolotl框架训练
- 支持8bit量化和Flash Attention优化
开源贡献
该项目完全开源,用户可以:
- 在社区标签页提供反馈和建议
- 引用相关论文进行学术研究
- 查看详细的训练配置和评估脚本