Chinese-Mixtral学习资料汇总
Chinese-Mixtral是一个基于Mixtral-8x7B模型开发的中文大语言模型项目,由哈工大讯飞联合实验室开源。本文整理了该项目的主要学习资料,帮助读者快速上手使用。
1. 项目简介
Chinese-Mixtral基于Mistral AI发布的Mixtral-8x7B模型进行中文增量训练,具有以下特点:
- 采用稀疏混合专家(Sparse MoE)架构,激活参数量约13B
- 原生支持32K上下文长度(实测可达128K)
- 提供基座模型和指令精调模型两个版本
2. 模型下载
模型提供了多种版本供下载:
- 完整版模型(87GB):可直接使用,无需合并
- LoRA版模型(2.4GB):需与原版Mixtral-8x7B合并后使用
- GGUF量化版模型:支持llama.cpp等工具的量化推理
下载地址:
- 🤗 Hugging Face: https://huggingface.co/hfl/chinese-mixtral
- 📦 ModelScope: https://modelscope.cn/models/ChineseAlpacaGroup/chinese-mixtral
3. 使用教程
项目提供了多种部署和使用方式的教程:
- llama.cpp: 支持CPU/GPU推理,有丰富的量化选项
- 🤗 Transformers: 原生Python接口调用
- 仿OpenAI API: 提供与OpenAI API兼容的服务
- text-generation-webui: 提供Web交互界面
- LangChain: 支持构建LLM应用
- LM Studio: 跨平台聊天软件(GUI)
详细教程请参考项目Wiki: https://github.com/ymcui/Chinese-Mixtral/wiki
4. 模型效果
- C-Eval测试集(5-shot):51.5
- CMMLU测试集(5-shot):53.0
- MMLU测试集(5-shot):69.8
- LongBench平均分:48.1
在多项中英文评测上均取得不错效果。
5. 训练代码
项目开源了预训练和指令精调的相关代码:
- 预训练:https://github.com/ymcui/Chinese-Mixtral/wiki/pt_scripts_zh
- 指令精调:https://github.com/ymcui/Chinese-Mixtral/wiki/sft_scripts_zh
6. 相关资源
- 📚 GitHub仓库:https://github.com/ymcui/Chinese-Mixtral
- 📖 技术报告:https://arxiv.org/abs/2403.01851
- ⚔️ 模型竞技场:http://llm-arena.ymcui.com
Chinese-Mixtral是一个强大的开源中文大语言模型,希望本文的资料整理能够帮助读者快速了解和使用该模型。欢迎访问项目主页获取更多最新信息!