项目介绍:ZephRP-m7b
ZephRP-m7b是一个融合了Mistral模型的项目,由HuggingFaceH4/zephyr-7b-alpha和使用LimaRP数据集训练的PEFT适配器合并而成。这个项目的目的是结合LimaRPv3的信息长度指导训练和额外的风格元素,再加上Zephyr模型优秀的知识储备和指令跟随能力。
使用方法
项目建议的提示格式是LimaRP v3的Alpaca指令格式。该格式如下:
### Instruction:
角色的个性描述: {机器人角色描述}
用户的个性描述: {用户角色描述}
场景: {故事中发生了什么}
扮演角色进行与用户的角色扮演对话。不要为用户编写对话和叙述。
### Input:
用户: {话语}
### Response:
角色: {话语}
### Input
用户: {话语}
### Response:
角色: {话语}
(依次循环)
消息长度控制
通过包含LimaRP v3,可以在响应指令序列中添加长度修饰词,例如:
### Input
用户: {话语}
### Response: (length = medium)
角色: {话语}
这种修饰能对机器人的响应产生立竿见影的效果。可用的长度有:micro, tiny, short, medium, long, massive, huge, enormous, humongous, unlimited
。建议的起始长度是medium
。需要注意的是,AI可能会在很长的消息中唠叨或冒充用户。
偏见、风险和限制
模型会表现出类似于网络上小众角色扮演论坛中的偏见,并且也会受制于基础模型的偏见。它并不适用于提供任何形式的事实信息或建议。
训练细节
LimaRP PEFT适配器通过axolotl训练为8位的lora。 在Mistral-7B-v0.1原始模型上进行适配器训练时使用了一些关键的超参数,这些训练过程是在一台L40 GPU上完成的:
- 学习率:0.00015
- 训练批大小:2
- 评估批大小:2
- 随机种子:42
- 梯度累积步骤:4
- 总训练批大小:8
- 优化器:Adam,betas=(0.9,0.999),epsilon=1e-08
- 学习率调度类型:cosine
- 学习率调度预热步骤:10
- 训练周期数:2
总体来说,ZephRP-m7b项目通过创新的模型合并和训练策略,提升了角色扮演对话的体验,为用户提供了更生动和逼真的交流平台。