RLHF奖励建模

我们的模型和代码为许多学术研究项目做出了贡献，例如：

徐张辰等人。"Magpie：通过提示对齐的大语言模型从零开始合成对齐数据。"
陈立昌等人。"OPTune：高效的在线偏好调整。"
谢腾阳等人。"探索性偏好优化：利用隐式Q*近似实现样本高效的RLHF。" arXiv预印本 arXiv:2405.21046 (2024)。
钟涵等人。"Dpo meets ppo：RLHF的强化令牌优化。" arXiv预印本 arXiv:2404.18922 (2024)。
郑楚杰等人。"弱到强外推加速对齐。" arXiv预印本 arXiv:2404.16792 (2024)。
叶晨露等人。"一般KL正则化偏好下从人类反馈学习纳什均衡的理论分析。" arXiv预印本 arXiv:2402.07314 (2024)。
陈瑞军等人。"政策优化的自我进化微调"
李博连等人。高效解码时对齐的级联奖励采样
张宇恒等人。"迭代纳什政策优化：通过无悔学习将大语言模型与一般偏好对齐"
林子涵等人。"DogeRM：通过模型合并为奖励模型装备领域知识"
杨睿等人。"正则化隐藏状态实现大语言模型可泛化奖励模型的学习"
朴俊秀等人。"OffsetBias：利用去偏数据调整评估器"
孟昱等人。"SimPO：使用无参考奖励的简单偏好优化"
宋一帆等人。"好的、坏的和贪婪的：大语言模型评估不应忽视非确定性"

🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥

🚀 我们的ArmoRM是RewardBench排名第一的8B模型！

🚀 RewardBench上排名前三的开源8B奖励模型（ArmoRM、成对偏好模型、BT RM）都是使用这个仓库训练的！

🚀 成对偏好模型的训练代码已可用（pair-pm/）！

🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥

技术报告
- RLHF工作流程：从奖励建模到在线RLHF
- [ArmoRM] 通过多目标奖励建模和专家混合实现可解释偏好
模型：
- 绝对评分多目标奖励模型（ArmoRM）：ArmoRM-Llama3-8B-v0.1
- 成对偏好奖励模型：pair-preference-model-LLaMA3-8B
- Bradley-Terry奖励模型：FsfairX-LLaMA3-RM-v0.1
架构
- Bradley-Terry（BT）奖励模型和成对偏好模型
- 绝对评分多目标奖励模型（ArmoRM）
RewardBench排行榜

| 模型 | 基础模型 | 方法 | 分数 | 聊天 | 困难聊天 | 安全性 | 推理 | 先验集合(0.5权重) | |:---|:---|:---|:---|:---|:---|:---|:---|:---| | ArmoRM-Llama3-8B-v0.1 (我们的) | Llama-3 8B | ArmoRM + MoE | 89.0 | 96.9 | 76.8 | 92.2 | 97.3 | 74.3 | | Cohere 2024年5月 | 未知 | 未知 | 88.2 | 96.4 | 71.3 | 92.7 | 97.7 | 78.2 | | pair-preference-model (我们的) | Llama-3 8B | SliC-HF | 85.7 | 98.3 | 65.8 | 89.7 | 94.7 | 74.6 | | GPT-4 Turbo (0125版本) | GPT-4 Turbo | LLM-as-a-Judge | 84.3 | 95.3 | 74.3 | 87.2 | 86.9 | 70.9 | | FsfairX-LLaMA3-RM-v0.1 (我们的) | Llama-3 8B | Bradley-Terry | 83.6 | 99.4 | 65.1 | 87.8 | 86.4 | 74.9 | | Starling-RM-34B | Yi-34B | Bradley-Terry | 81.4 | 96.9 | 57.2 | 88.2 | 88.5 | 71.4 |
评估结果（来自RLHF工作流程）

简而言之：这是一个用于训练基于DRL的RLHF (PPO)、迭代式SFT（拒绝采样微调）和迭代式DPO的奖励/偏好模型的仓库。

4 x A40 48G：我们可以使用Deepspeed Zero-3 + 梯度检查点训练最大长度为4096的Gemma-7B-it；
4 x A100 80G：我们可以使用梯度检查点训练最大长度为4096的Gemma-7B-it；
得到的奖励模型在RewardBench的排行榜中作为开源RM达到了最先进的性能。
查看我们的博客文章！

安装说明

建议为Bradley-Terry奖励模型和成对偏好模型创建单独的环境。相应文件夹中提供了安装说明。

数据集准备

数据集应按标准格式预处理，其中每个样本由两个对话组成，分别是"chosen"和"rejected"，它们共享相同的提示。以下是比较对中被拒绝样本的示例。

[
{ "content": "请识别世界上前5种最稀有的动物。", "role": "user" },
{ "content": "你是指真正稀有的动物，还是相对于人类人口规模而言稀有的动物？", "role": "assistant" },
{ "content": "真正稀有的那些。", "role": "user" },
{ "content": "好的，这是我找到的：", "role": "assistant" }, 
]

我们将许多开源偏好数据集预处理成标准格式并上传到hugginface hub。你可以在这里找到它们。我们还搜索并发现以下一些偏好数据集的混合很有用。

weqweasdas/preference_dataset_mix2
weqweasdas/preference_dataset_mixture2_and_safe_pku
hendrydong/preference_700K 详细信息可以在数据集卡片中找到。

评估结果

你可以使用以下命令，用benchmark提供的数据集评估得到的奖励模型。

CUDA_VISIBLE_DEVICES=1 python ./useful_code/eval_reward_bench_bt.py --reward_name_or_path ./models/gemma_2b_mixture2_last_checkpoint --record_dir ./bench_mark_eval.txt

待办事项

Bradley-Terry奖励模型
偏好模型
多目标奖励模型
LLM作为评判者

引用

这个仓库是迭代拒绝采样微调和迭代DPO的一部分。如果你发现这个仓库的内容在你的工作中有用，请考虑引用：

@article{dong2024rlhf,
  title={RLHF Workflow: From Reward Modeling to Online RLHF},
  author={Dong, Hanze and Xiong, Wei and Pang, Bo and Wang, Haoxiang and Zhao, Han and Zhou, Yingbo and Jiang, Nan and Sahoo, Doyen and Xiong, Caiming and Zhang, Tong},
  journal={arXiv preprint arXiv:2405.07863},
  year={2024}
}

@article{ArmoRM, 标题={通过多目标奖励建模和专家混合实现可解释偏好}, 作者={王浩翔和熊伟和谢腾阳和赵晗和张潼}, 期刊={arXiv预印本 arXiv:2406.12845}, }

@article{dong2023raft, 标题={{RAFT}：用于生成式基础模型对齐的奖励排序微调}, 作者={董汉泽和熊伟和 Deepanshu Goyal 和张艺涵和周惠仪和潘睿和刁世哲和张继鹏和岑家俊和张潼}, 期刊={机器学习研究汇刊}, issn={2835-8856}, 年份={2023}, 网址={https://openreview.net/forum?id=m7p5O7zblY}, }

@article{xiong2024iterative, 标题={从人类反馈中的迭代偏好学习：在KL约束下桥接RLHF的理论与实践}, 作者={熊伟和董汉泽和叶晨露和王子奇和钟涵和季恒和姜楠和张潼}, 年份={2024}, 期刊={ICML} }