Sonya-7B项目介绍
Sonya-7B是一个在MT-Bench评分中表现优异的人工智能模型。根据当前信息,这个模型在MT-Bench的首轮表现超越了GPT-4,成为第一名,并在整体评分中位列第二。Sonya-7B被认为是一个通用型模型,适用于各种任务,如助理、角色扮演等。
模型合并与来源
Sonya-7B的结构与其前身Silicon-Maid-7B相似,使用了一种类似的合并策略。它是多种模型的合并结果,包括xDAN-AI/xDAN-L1-Chat-RL-v1、Jan-Ai's Stealth v1.2等。这些模型的选择基于以下几点考量:
- MT-Bench通常与现实世界的模型质量有较好相关性,而xDAN在这方面表现出色。
- 参与合并的大多数模型采用Alpaca提示格式,保证了提示的一致性。
- Stealth v1.2在增加MT-Bench评分方面有显著效果。
- 添加角色扮演(RP)模型提高了写作和角色扮演基准测试的表现。
使用及注意事项
Sonya-7B预计在8192上下文窗口中使用,建议尝试使用NTK缩放因子2.6来实验性地实现16384上下文窗口。需注意,尽管测试评分较高,Sonya-7B并非所谓的“GPT杀手”。对于7B模型而言,其表现超出了预期,但仍面临着结构复杂带来的某些输出问题。
MT-Bench表现
在MT-Bench测试中,Sonya-7B在第一轮的得分为9.06875,略高于GPT-4。整体表现也仅次于GPT-4,得分为8.52。而在第二轮中,Sonya-7B的得分为7.9625,位列第三。
合并方式与技术细节
Sonya-7B通过将多个模型以不同权重合并而成,具体参数如下:
- xDAN-AI/xDAN-L1-Chat-RL-v1:权重1
- chargoddard/piano-medley-7b:权重0.3
- jan-hq/stealth-v1.2:权重0.2
- NeverSleep/Noromaid-7b-v0.2:权重0.2
- athirdpath/NSFW_DPO_vmgb-7b:权重0.2
合并方法:使用ties方法
这个模型并未进行额外的训练或微调,是一个直接的合并结果。
提示模板(Alpaca)
为了让Sonya-7B在MT-Bench中达到最佳表现,需使用Alpaca提示模板形式。
总结
Sonya-7B是一个在多任务领域表现优异的7B模型,尽管其并不完美,但在现有技术水平下做出了令人印象深刻的贡献。其合并策略及合适的提示模板应用是其成功的关键。