项目概述
MiniCPM3-4B是MiniCPM系列的第三代模型,这是一个性能强大的小型语言模型。它以仅有4B参数的规模,实现了超越Phi-3.5-mini-Instruct和GPT-3.5-Turbo-0125的整体性能,并可与许多7B到9B规模的模型相媲美。
主要特性
- 强大的性能表现:在多个评测基准上表现优异,平均得分达到66.3分,超过了多个规模更大的模型
- 多语言支持:在中英文任务上都具有出色表现,特别是在中文评测如CMMLU和CEVAL上分别达到73.3和73.6的高分
- 长文本处理能力:具备32k的上下文窗口,配合LLMxMapReduce技术,理论上可以处理无限长度的文本
- 功能完备性:支持函数调用(Function Call)和代码解释器等高级功能
- 应用灵活性:可通过Transformers和vLLM两种方式进行部署使用
技术优势
- 模型体积优化:仅使用4B参数就达到了接近或超越更大模型的性能
- 全面的能力评估:在英语、中文、数学、代码等多个领域都进行了系统性评测
- 实用功能支持:在BFCL v2函数调用测试中得分76.0,优于多个竞品模型
应用场景
模型可广泛应用于:
- 智能对话系统
- 文本生成和处理
- 代码编程辅助
- 数学问题求解
- 多语言内容处理
使用说明
该模型提供了两种部署方式:
- 通过Transformers库直接使用
- 使用vLLM进行高性能推理部署
开源与许可
- 采用Apache-2.0许可证开源
- 支持学术研究完全免费使用
- 商业使用需要填写问卷进行登记,登记后可免费使用
局限性说明
- 作为语言模型,不具备真实的理解能力和个人观点
- 生成内容不代表开发团队立场
- 使用者需对生成内容的准确性和适用性负责