项目介绍:Dolphin-2.9.1-Llama-3-8b
Dolphin-2.9.1-Llama-3-8b是一个由Eric Hartford、Lucas Atkins和Fernando Fernandes与Cognitive Computations共同策划和训练的项目。该项目是基于Llama-3-8b模型开发的,主要用于解决先前版本2.9中的一些行为问题。
项目背景
在最初的2.9版本中,模型过于依赖系统提示,同时在生成时长方面也不尽如人意。为了解决这些问题,项目团队决定从数据集中移除Systemchat和Ultrachat,这些调整使得模型在表现上与原版Dolphin-2.9保持一致,但在质量上有所提升。
模型特点
-
基础模型: Dolphin-2.9.1基于Meta的Llama-3-8B模型进行修改和优化。
-
上下文能力: 基础模型具有8k的上下文能力,而全重微调时使用了4k的序列长度。
-
训练过程: 训练由Crusoe Cloud提供的8x L40S节点完成,整个过程耗时约1.5天。运用了ChatML提示模板格式进行训练。
-
多样的技能: 该模型具备多种指令处理、对话和编码能力,并初步具备代理能力,支持函数调用。
-
未过滤模型: Dolphin是一个未过滤的模型,经过筛选以移除对齐和偏见的数据,使其在面对请求时更具顺从性。因此,建议在将模型作为服务公开之前,自行添加对齐机制。
-
开源许可: 本项目遵循Meta的Llama社区许可协议,可以在许可范围内用于任何用途,包括商业用途。
训练数据集
Dolphin-2.9.1包括一系列来自不同来源的数据集,如cognitivecomputations的Dolphin-2.9和微软的Orca-math-word-problems-200k等。这些数据集被用于丰富模型的训练内容及场景适应能力。
应用场景
由于Dolphin-2.9.1具备较高的顺从性和多样化的技能,该模型可以被应用于多个领域,如智能客服、代码生成及复杂的数据分析等。然而,模型的开放性也意味着使用者必须对其输出负责,并需注意道德边界。
总结
Dolphin-2.9.1-Llama-3-8b是一个能够满足多种需求的AI模型,其多样化的能力和顺从性使其在实际应用中拥有广泛的潜力。项目团队仍在不断改进模型性能,以期在更为广泛的应用中实现更高的可靠性和效率。
Interested parties are invited to engage with the project's community through Discord for further discussion and collaboration.