Llama3.1-8B-Chinese-Chat项目介绍
项目概述
Llama3.1-8B-Chinese-Chat是一个基于Meta-Llama-3.1-8B-Instruct模型进行指令微调的语言模型,专为中文和英文用户设计。该项目由深智王、郑耀威、王国印、宋世琦和黄高共同开发,是首个基于Meta-Llama-3.1-8B-Instruct模型专门为中英文用户微调的模型。
这个模型具有多种能力,包括角色扮演和工具使用。它的训练数据集包含超过10万对偏好数据,在角色扮演、函数调用和数学能力方面都有显著提升。
模型特点
- 模型大小:8.03B参数
- 上下文长度:128K(未经测试)
- 许可证:遵循Llama-3.1许可
- 支持语言:中文和英文
- 训练框架:LLaMA-Factory
- 微调算法:ORPO(Reference-free Monolithic Preference Optimization with Odds Ratio)
训练细节
模型的训练过程使用了以下参数:
- 训练轮数:3轮
- 学习率:3e-6
- 学习率调度器类型:余弦
- 预热比例:0.1
- 截断长度(上下文长度):8192
- ORPO beta值:0.05
- 全局批量大小:128
- 微调类型:全参数
- 优化器:paged_adamw_32bit
使用方法
项目提供了两种使用方式:BF16模型和GGUF模型。
对于BF16模型,用户需要:
- 升级transformers包至支持Llama3.1模型的版本
- 下载BF16模型
- 使用Python脚本进行推理
对于GGUF模型,用户可以:
- 从gguf_models文件夹下载GGUF模型
- 使用LM Studio运行模型
- 或按照llama.cpp的说明使用GGUF模型
项目更新
项目团队于2024年7月24日发布了Llama3.1-8B-Chinese-Chat模型,并提供了官方的q4_k_m、q8_0和f16 GGUF版本。
模型性能
虽然项目介绍中没有详细说明模型的具体性能,但强调了该模型在角色扮演、函数调用和数学能力方面有显著提升。这表明该模型在这些方面可能比基础模型有更好的表现。
注意事项
项目开发者特别提醒用户,为了保持最佳性能,他们没有对模型的身份进行微调。这意味着如果询问"你是谁"或"谁开发了你"等问题,模型可能会给出随机且不一定准确的回答。
总结
Llama3.1-8B-Chinese-Chat项目为中英文用户提供了一个强大的语言模型,具有多种实用能力。它的开发过程透明,使用方法详细,为用户提供了灵活的使用选择。项目团队也鼓励用户在使用后给予反馈和支持,以促进模型的进一步发展。