RLHF奖励建模
我们的模型和代码为许多学术研究项目做出了贡献,例如:
- 徐张辰等人。"Magpie:通过提示对齐的大语言模型从零开始合成对齐数据。"
- 陈立昌等人。"OPTune:高效的在线偏好调整。"
- 谢腾阳等人。"探索性偏好优化:利用隐式Q*近似实现样本高效的RLHF。" arXiv预印本 arXiv:2405.21046 (2024)。
- 钟涵等人。"Dpo meets ppo:RLHF的强化令牌优化。" arXiv预印本 arXiv:2404.18922 (2024)。
- 郑楚杰等人。"弱到强外推加速对齐。" arXiv预印本 arXiv:2404.16792 (2024)。
- 叶晨露等人。"一般KL正则化偏好下从人类反馈学习纳什均衡的理论分析。" arXiv预印本 arXiv:2402.07314 (2024)。
- 陈瑞军等人。"政策优化的自我进化微调"
- 李博连等人。高效解码时对齐的级联奖励采样
- 张宇恒等人。"迭代纳什政策优化:通过无悔学习将大语言模型与一般偏好对齐"
- 林子涵等人。"DogeRM:通过模型合并为奖励模型装备领域知识"
- 杨睿等人。"正则化隐藏状态实现大语言模型可泛化奖励模型的学习"
- 朴俊秀等人。"OffsetBias:利用去偏数据调整评估器"
- 孟昱等人。"SimPO:使用无参考奖励的简单偏好优化"
- 宋一帆等人。"好的、坏的和贪婪的:大语言模型评估不应忽视非确定性"
🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥
🚀 我们的ArmoRM是RewardBench排名第一的8B模型!
🚀 RewardBench上排名前三的开源8B奖励模型(ArmoRM、成对偏好模型、BT RM)都是使用这个仓库训练的!
🚀 成对偏好模型的训练代码已可用(pair-pm/
)!
🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥
-
技术报告
-
模型:
- 绝对评分多目标奖励模型(ArmoRM):ArmoRM-Llama3-8B-v0.1
- 成对偏好奖励模型:pair-preference-model-LLaMA3-8B
- Bradley-Terry奖励模型:FsfairX-LLaMA3-RM-v0.1
-
架构
- Bradley-Terry(BT)奖励模型和成对偏好模型
- 绝对评分多目标奖励模型(ArmoRM)
-
| 模型 | 基础模型 | 方法 | 分数 | 聊天 | 困难聊天 | 安全性 | 推理 | 先验集合(0.5权重) | |:---|:---|:---|:---|:---|:---|:---|:---|:---| | ArmoRM-Llama3-8B-v0.1 (我们的) | Llama-3 8B | ArmoRM + MoE | 89.0 | 96.9 | 76.8 | 92.2 | 97.3 | 74.3 | | Cohere 2024年5月 | 未知 | 未知 | 88.2 | 96.4 | 71.3 | 92.7 | 97.7 | 78.2 | | pair-preference-model (我们的) | Llama-3 8B | SliC-HF | 85.7 | 98.3 | 65.8 | 89.7 | 94.7 | 74.6 | | GPT-4 Turbo (0125版本) | GPT-4 Turbo | LLM-as-a-Judge | 84.3 | 95.3 | 74.3 | 87.2 | 86.9 | 70.9 | | FsfairX-LLaMA3-RM-v0.1 (我们的) | Llama-3 8B | Bradley-Terry | 83.6 | 99.4 | 65.1 | 87.8 | 86.4 | 74.9 | | Starling-RM-34B | Yi-34B | Bradley-Terry | 81.4 | 96.9 | 57.2 | 88.2 | 88.5 | 71.4 |
-
评估结果(来自RLHF工作流程)
简而言之:这是一个用于训练基于DRL的RLHF (PPO)、迭代式SFT(拒绝采样微调)和迭代式DPO的奖励/偏好模型的仓库。
- 4 x A40 48G:我们可以使用Deepspeed Zero-3 + 梯度检查点训练最大长度为4096的Gemma-7B-it;
- 4 x A100 80G:我们可以使用梯度检查点训练最大长度为4096的Gemma-7B-it;
- 得到的奖励模型在RewardBench的排行榜中作为开源RM达到了最先进的性能。
- 查看我们的博客文章!
安装说明
建议为Bradley-Terry奖励模型和成对偏好模型创建单独的环境。相应文件夹中提供了安装说明。
数据集准备
数据集应按标准格式预处理,其中每个样本由两个对话组成,分别是"chosen"和"rejected",它们共享相同的提示。以下是比较对中被拒绝样本的示例。
[
{ "content": "请识别世界上前5种最稀有的动物。", "role": "user" },
{ "content": "你是指真正稀有的动物,还是相对于人类人口规模而言稀有的动物?", "role": "assistant" },
{ "content": "真正稀有的那些。", "role": "user" },
{ "content": "好的,这是我找到的:", "role": "assistant" },
]
我们将许多开源偏好数据集预处理成标准格式并上传到hugginface hub。你可以在这里找到它们。我们还搜索并发现以下一些偏好数据集的混合很有用。
- weqweasdas/preference_dataset_mix2
- weqweasdas/preference_dataset_mixture2_and_safe_pku
- hendrydong/preference_700K 详细信息可以在数据集卡片中找到。
评估结果
你可以使用以下命令,用benchmark提供的数据集评估得到的奖励模型。
CUDA_VISIBLE_DEVICES=1 python ./useful_code/eval_reward_bench_bt.py --reward_name_or_path ./models/gemma_2b_mixture2_last_checkpoint --record_dir ./bench_mark_eval.txt
待办事项
- Bradley-Terry奖励模型
- 偏好模型
- 多目标奖励模型
- LLM作为评判者
引用
这个仓库是迭代拒绝采样微调和迭代DPO的一部分。如果你发现这个仓库的内容在你的工作中有用,请考虑引用:
@article{dong2024rlhf,
title={RLHF Workflow: From Reward Modeling to Online RLHF},
author={Dong, Hanze and Xiong, Wei and Pang, Bo and Wang, Haoxiang and Zhao, Han and Zhou, Yingbo and Jiang, Nan and Sahoo, Doyen and Xiong, Caiming and Zhang, Tong},
journal={arXiv preprint arXiv:2405.07863},
year={2024}
}
@article{ArmoRM, 标题={通过多目标奖励建模和专家混合实现可解释偏好}, 作者={王浩翔 和 熊伟 和 谢腾阳 和 赵晗 和 张潼}, 期刊={arXiv预印本 arXiv:2406.12845}, }
@article{dong2023raft, 标题={{RAFT}:用于生成式基础模型对齐的奖励排序微调}, 作者={董汉泽 和 熊伟 和 Deepanshu Goyal 和 张艺涵 和 周惠仪 和 潘睿 和 刁世哲 和 张继鹏 和 岑家俊 和 张潼}, 期刊={机器学习研究汇刊}, issn={2835-8856}, 年份={2023}, 网址={https://openreview.net/forum?id=m7p5O7zblY}, }
@article{xiong2024iterative, 标题={从人类反馈中的迭代偏好学习:在KL约束下桥接RLHF的理论与实践}, 作者={熊伟 和 董汉泽 和 叶晨露 和 王子奇 和 钟涵 和 季恒 和 姜楠 和 张潼}, 年份={2024}, 期刊={ICML} }