OpenOrca-Platypus2-13B - 人工智能模型OpenOrca-Platypus2-13B的合并与性能分析

OpenOrca-Platypus2-13B项目介绍

OpenOrca-Platypus2-13B是一个融合模型，它结合了garage-bAInd/Platypus2-13B和Open-Orca/OpenOrcaxOpenChat-Preview2-13B的优势。这一模型的开发充分结合了两者的优点，致力于在多项评测中再次名列前茅，并为用户提供出色的文本生成体验。

项目背景

这款模型是与Platypus团队合作的成果，通过利用两种不同模型的长处，期望为研究人员和开发者带来更多的可能性。项目使用的数据集包括garage-bAInd/Open-Platypus和Open-Orca/OpenOrca，主要采用Hugging Face Transformers库进行开发。

模型表现

HuggingFace排行榜表现

OpenOrca-Platypus2-13B在包括MMLU、ARC、HellaSwag和TruthfulQA在内的多项基准测试中取得了优秀的成绩：

MMLU (5-shot)：59.5
ARC (25-shot)：62.88
HellaSwag (10-shot)：83.19
TruthfulQA (0-shot)：52.69
平均得分：64.56

这些数据表明，该模型在多个领域具有优越的学习和推理能力。

AGIEval和BigBench-Hard表现

在AGIEval基准测试中，OpenOrca-Platypus2-13B的表现达到了基准模型的112%，标志着大幅度的性能提升。在涉及逻辑推理的LSAT考试部分尤其有显著进步。

在BigBench-Hard测试中，模型的表现达到了基准模型的105%，继续展示了其在处理复杂任务时的出色能力。

模型细节

开发人员：Cole Hunter和Ariel Lee负责Platypus2-13B的训练，Open-Orca团队负责训练OpenOrcaxOpenChat-Preview2-13B。
模型类型：基于Llama 2变压器架构的自回归语言模型。
语言：主要为英语。
许可协议：Platypus2-13B基础权重采用非商业创作共享许可协议(CC BY-NC-4.0)；OpenOrcaxOpenChat-Preview2-13B基础权重采用Llama 2商业许可。