项目介绍:Stellar Odyssey 12b v0.0
Stellar Odyssey 12b v0.0是一个由多种预训练语言模型合并而成的项目前沿工程。通过使用一种称为“mergekit”的工具,这个项目成功将多个不同模型的力量结合在一起,旨在提升语言处理的能力。
项目背景
在首次尝试失败后,项目团队再次着手合并工作。这次,他们使用了以下模型:
- mistralai/Mistral-Nemo-Base-2407
- Sao10K/MN-12B-Lyra-v4
- nothingiisreal/MN-12B-Starcannon-v2
- Gryphe/Pantheon-RP-1.5-12b-Nemo
项目获得了合作者AuriAetherwiing的重要帮助。当前,该项目处于测试阶段,接入方式暂受限制,测试完成后将开放更多访问权限。项目使用的是cc-by-nc-4.0许可协议,因此在满足协议要求的情况下可进行非商业性使用。
合并细节
合并方法
Stellar Odyssey 12b v0.0使用了della_linear合并方法。该方法以mistralai_Mistral-Nemo-Base-2407模型为基础,结合其他模型的特性来增强合并后模型的效能。
参与合并的模型
以下模型参与了合并:
- Sao10K_MN-12B-Lyra-v4
- Gryphe_Pantheon-RP-1.5-12b-Nemo
- nothingiisreal_MN-12B-Starcannon-v2
配置文件
为了实现合并,项目使用了一份详细的YAML配置文件:
models:
- model: C:\Users\\Downloads\Mergekit-Fixed\mergekit\Sao10K_MN-12B-Lyra-v4
parameters:
weight: 0.3
density: 0.25
- model: C:\Users\\Downloads\Mergekit-Fixed\mergekit\nothingiisreal_MN-12B-Starcannon-v2
parameters:
weight: 0.1
density: 0.4
- model: C:\Users\\Downloads\Mergekit-Fixed\mergekit\Gryphe_Pantheon-RP-1.5-12b-Nemo
parameters:
weight: 0.4
density: 0.5
merge_method: della_linear
base_model: C:\Users\\Downloads\Mergekit-Fixed\mergekit\mistralai_Mistral-Nemo-Base-2407
parameters:
epsilon: 0.05
lambda: 1
merge_method: della_linear
dtype: bfloat16
配置文件规定了每个模型的权重和密度参数,以及合并方法和其他技术参数。
未来展望
Stellar Odyssey 12b v0.0在获得初步成功后,依然不断进行测试和完善,以便在开放访问后能够为更多领域提供支持和服务。随着项目的成熟,期待其能在自然语言处理的更多方面展示强大性能并为用户带来更好的体验。