Skywork-Reward-Gemma-2-27B项目介绍
项目概述
Skywork-Reward-Gemma-2-27B是一个基于Google的gemma-2-27b-it架构开发的高级奖励模型。该项目由Skywork团队开发,旨在通过相对较小的高质量数据集和简单的数据整理技术,实现高性能的奖励模型。
数据集特点
该模型使用了Skywork Reward Data Collection数据集进行训练,该数据集包含约8万对高质量的偏好对。这些数据来源于多个公开可用的数据源,包括HelpSteer2、OffsetBias、WildGuard等。Skywork团队通过精心策划,确保数据集既包含高质量的偏好对,又能覆盖特定的能力和知识领域。
模型性能
截至2024年9月,Skywork-Reward-Gemma-2-27B在RewardBench排行榜上排名第一。该模型在处理复杂场景的偏好方面表现出色,包括具有挑战性的偏好对,涵盖数学、编程和安全等多个领域。
数据整理技巧
为了在不影响整体性能的情况下提高模型表现并平衡各个领域,Skywork团队采用了几个技巧:
- 根据ArmoRM评分独立选择数学、代码和其他类别的顶级样本。
- 对WildGuard数据集进行预处理,只选择符合特定条件的样本。
使用示例
项目提供了详细的示例代码,展示如何使用Skywork奖励模型系列获取对话的奖励分数。使用时需要注意:
- 聊天模板中移除了BOS标记。
- 建议启用flash_attention_2或eager实现以获得最佳性能。
声明与许可
Skywork模型不得用于威胁国家或社会安全的活动,也不得用于非法行为。未经适当安全审查和备案,不得将模型部署为互联网服务。使用Skywork开源模型需遵守Skywork社区许可协议,支持商业用途。
技术报告
项目相关的技术报告题为"Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs",已发布在arXiv上。
联系方式
如有任何问题,可以通过电子邮件联系项目团队。
总的来说,Skywork-Reward-Gemma-2-27B项目展示了如何通过精心策划的数据集和有效的训练策略,在奖励建模领域取得领先成果。该项目不仅为研究人员提供了宝贵的资源,也为商业应用提供了潜在的解决方案。