Dolphin-2.9.4-Llama-3.1-8b 项目介绍
Dolphin-2.9.4-Llama-3.1-8b是一个由Eric Hartford和Cognitive Computations精心策划并训练的项目。它基于Meta Llama 3.1 8b模型,并受Llama 3.1许可证的约束。
基础模型与微调
Dolphin-2.9.4使用Meta Llama 3.1 8b作为基础模型,其上下文为128K。在微调过程中,使用了序列长度为8192的设置。该项目采用了ChatML的提示模板格式,使得模型在执行任务时能够更加灵活地理解和生成自然语言。
数据集
该项目训练使用了多个数据集,包括但不限于:
- cognitivecomputations/Dolphin-2.9
- m-a-p/CodeFeedback-Filtered-Instruction
- cognitivecomputations/dolphin-coder
- cognitivecomputations/samantha-data
- microsoft/orca-math-word-problems-200k
- mlabonne/FineTome-100k
这些数据集涵盖了多种任务和语言,确保了模型在各类场景下的表现。
功能特点
Dolphin-2.9.4具备多种功能,包括指令跟随能力、对话能力、编码能力以及代理能能力和函数调用支持。模型特别着重于遵循系统提示,并能在多种语言环境下执行指令。
需要注意的是,Dolphin-2.9.4是一个未经过滤的模型。我们在数据集中移除了某些对齐和偏见,以提高模型的顺从性。因此,建议在将模型用作服务前自行加入对齐层。用户需对自己使用该模型产生的内容负责,并以负责任的态度使用。
性能评估
模型在诸多任务中的表现如下:
- 基本准确率(acc)约为29.26%
- 正常化准确率(acc_norm)约为45.13%
- 完全匹配率(exact_match)为9.82%
- 在不同任务组中,如leaderboard_bbh任务组内表现稍有不同,某些具体任务中的acc_norm可达到80%左右。
这些评估指标展示了模型在各类推理、记忆和任务处理方面的潜力。
技术详情
相关细节还包括模型的技术配置和调优方式,如适用的模型类型、使用的tokenizer类型、以及对模型中特定层如mlp
、self_attn
等进行了参数冻结与解冻,以实现最佳的性能表现。
鸣谢
项目得到了Crusoe Cloud的支持,提供了极佳的按需8xL40S节点,确保了训练及部署的顺利进行。
参与与讨论
感兴趣的人员可以加入Discord社区进行更多互动与讨论。
结语
Dolphin-2.9.4-Llama-3.1-8b的开发,推动了AI在多领域的应用探索。希望通过这个项目,能够帮助更多开发者和研究者进行创新与突破。请在使用过程中保持对责任的重视,确保内容合规。