Chinese-Mixtral-8x7B 项目介绍
项目概述
Chinese-Mixtral-8x7B 是一个专注于中文自然语言处理的项目。该项目在 Mistral 发布的 Mixtral-8x7B 模型基础上,进行中文扩词表的增量预训练,旨在提升中文语境下的编解码效率和模型性能。项目的开源内容包括中文 Mixtral-8x7B 扩词表大模型及其增量预训练代码。
项目新闻
- 2024年2月9日:发布基于 Chinese-Mixtral-8x7B 指令微调的模型“活字 3.0”,并开源指令微调代码。
- 2024年1月18日:发布 Chinese-Mixtral-8x7B 基座模型,开源增量预训练代码。
模型特点
- 中文扩词表:在原有的 Mixtral 模型基础上增加了中文词汇,显著提升了模型处理中文文本的能力。
- 增量预训练:利用大规模开源中文语料对模型进行增量预训练,提高生成和理解中文的能力。
- 模型开放性:项目开源,用户可根据需求自由下载和使用模型及代码。
模型下载及使用
Chinese-Mixtral-8x7B 提供多种下载选项:
- 完整模型:可以直接使用,适合需要即用的用户。
- 实验用 LoRA 权重:需要与原版 Mixtral-8x7B 进行合并,在特定实验中使用。
利用 Flash Attention 2 等技术,可加速模型推理,并支持 4bit 量化,节省算力开销。
性能评估
Chinese-Mixtral-8x7B 在多项评测中表现出色,尤其在英文水平测试中遥遥领先。具体评测包括中文的 C-Eval 和 CMMLU,以及英文的 MMLU 和 HellaSwag。与同类规模的模型相比,Chinese-Mixtral-8x7B 展现了不俗的综合能力和生成效果。
训练与微调
项目详细介绍了训练过程,包括词表扩充、增量预训练及环境准备等。利用 HuggingFace 的 QLoRA 方法优化训练过程,以保持高效的计算性能。
项目同时提供微调指导,帮助用户根据特定数据集调整模型,使其适应具体任务需求。
引用及参与
如果项目对您的研究有帮助,或者使用了项目中的代码,欢迎引用相关论文。此外,项目鼓励社区用户参与贡献,共同推动 Mixtral 模型在中文领域的发展。