雅意大模型:一款强大的中文领域大语言模型
雅意大模型是由北京闻歌科技有限公司开发的一款先进的中文大语言模型。该模型在百万级人工构造的高质量领域数据上进行指令微调,涵盖了媒体宣传、舆情分析、公共安全、金融风控、城市治理等五大重要领域,以及上百种自然语言指令任务。
模型特点
雅意大模型具有以下几个突出特点:
- 强大的中文基础能力和领域分析能力
- 支持多轮对话
- 具备部分插件能力
- 经过大量用户内测和人工反馈优化,性能和安全性得到显著提升
模型版本
目前,雅意大模型已开源以下几个版本:
- YAYI-7B:基于 BLOOMZ 模型架构的 7B 参数版本
- YAYI-7B-Llama2:基于 LLaMA 2 模型架构的 7B 参数中文优化版本
- YAYI-13B-Llama2:基于 LLaMA 2 模型架构的 13B 参数中文优化版本
这些模型均可在 Hugging Face 平台上免费下载使用。
使用方法
使用雅意大模型非常简单。用户只需要安装必要的依赖,然后使用 Transformers 库即可轻松调用模型进行推理。项目提供了详细的代码示例,展示了如何加载模型、设置生成参数以及获取模型输出。
模型训练
雅意大模型的训练过程使用了 DeepSpeed 框架,支持多种训练方式:
- 指令数据全参数微调
- 指令数据 LoRA 微调
- 多轮对话数据全参数微调
- 多轮对话数据 LoRA 微调
项目提供了每种训练方式的详细说明和运行命令,用户可以根据自己的需求和硬件条件选择合适的训练方式。
训练数据
雅意大模型的训练数据涵盖了金融、安全、舆情、媒体等多个重要领域。为了支持社区发展,项目开源了 5 万条高质量训练数据,可在 Hugging Face 平台上下载使用。
开源贡献
雅意大模型的开源旨在促进中文预训练大模型开源社区的发展。通过开放模型代码、权重和部分训练数据,项目团队希望能与合作伙伴共同构建雅意大模型生态系统。
使用限制和免责声明
尽管雅意大模型表现出色,但仍存在一些局限性,如可能产生事实性错误、无法很好识别危害性指令等。因此,项目要求使用者仅将相关资源用于研究目的,不得用于商业用途或其他可能对社会造成危害的用途。
持续更新
雅意大模型团队一直在努力改进模型性能。自首次发布以来,项目已多次更新,包括增强中文领域知识、优化多轮对话能力、提升模型安全性等。未来,团队将继续优化模型,为用户提供更好的使用体验。