项目概述
OpenChat-3.5-1210是一个基于Mistral-7B-v0.1模型开发的开源语言模型,由多个高质量数据集训练而成。该模型在多个基准测试中展现出优异的表现,甚至超越了ChatGPT(2023年3月版本)和Grok-1等商业模型。
核心特点
- 模型参数量为7B,支持8192个上下文长度
- 在编程、通用对话和数学推理等多个领域具备出色能力
- 提供两种工作模式:默认模式(适用于编程和通用任务)和数学推理模式
- 支持评估器和反馈功能的实验性特性
- 在编程能力方面较前代模型提升了15个百分点
性能表现
- 在综合测试中平均得分达到63.8分,领先于同类7B参数量的模型
- 在HumanEval编程测试中达到68.9%的通过率
- 在数学解题能力(GSM8K)测试中达到77.3%的准确率
- 在多个基准测试中超越了ChatGPT和Grok-1等大型商业模型
使用方式
- 推荐通过OpenChat包进行安装
- 提供OpenAI兼容的API服务器接口
- 支持在24GB显存的消费级GPU上运行
- 可通过Web UI实现友好的用户交互体验
- 支持两种对话模板:默认模式和数学推理模式
数据来源
该模型使用多个高质量数据集训练:
- OpenChat ShareGPT数据集
- Open-Orca with FLAN answers
- Feedback-Collection数据集
- Capybara数据集等
局限性
- 受限于基础模型的固有局限
- 在复杂推理、数学运算等任务中可能存在不足
- 可能产生虚假或不准确的信息
- 在某些情况下可能生成有害或偏见性的回答
许可证明
项目采用Apache License 2.0开源许可证发布,允许用户自由使用和分发。