项目介绍:Llemma 7B
Llemma 7B 是由 EleutherAI 开发的一款专为数学设计的语言模型。它的基础是从 Code Llama 7B 权重初始化的,并通过 Proof-Pile-2 数据集进行训练,共计处理了 2000 亿个标记。除此之外,该模型还提供了一个 34B 参数版本,以满足更高的计算需求。
项目背景
Llemma 项目旨在增强数学领域的语言处理能力,特别是在数学推理和利用代码工具进行计算方面的应用。它致力于帮助研究人员和开发者在复杂的数学计算或解决问题上获得更具创新性的解决方案。
关键能力
Llemma 在以下几个方面表现出色:
数学推理
在数学链式推理任务中,Llemma 7B 模型表现出了较强的能力,超越了同类的 Llama-2、Code Llama,并在模型规模相当的情况下超过了 Minerva。
下表展示了不同模型在多项数学任务中的表现对比:
模型 | 大小 | GSM8k | OCW | MMLU-STEM | SAT | MATH |
---|---|---|---|---|---|---|
Llama 2 | 7B | 11.8% | 3.7% | 29.9% | 25% | 3.2% |
Code Llama | 7B | 10.5% | 4.4% | 25.1% | 9.4% | 4.5% |
LLEMMA | 7B | 36.4% | 7.7% | 37.7% | 53.1% | 18.0% |
Minerva | 8B | 16.2% | 7.7% | 35.6% | - | 14.1% |
很明显,Llemma 在多数数学任务上的准确率都有显著提升。
工具使用和定理证明
除了数学推理外,Llemma 还在计算数学任务中表现出强大的能力,能够有效进行工具使用和公式定理证明等任务。更多技术细节和表现数据可以在我们的论文中找到。
主要贡献者
Llemma 项目的开发得到了多个研究人员的贡献,包括:
- Zhangir Azerbayev
- Hailey Schoelkopf
- Keiran Paster
- Marco Dos Santos
- Stephen McAleer
- Albert Q. Jiang
- Jia Deng
- Stella Biderman
- Sean Welleck
资源链接
- 论文详情:ArXiv
- 模型下载:Hugging Face
- 数据集:Proof-Pile-2
- 源代码:GitHub
- 博客介绍:EleutherAI Blog
- 样本展示:Sample Explorer
通过以上资源,科研人员和开发者可以获得 Llemma 7B 更详尽的技术和应用信息。