hh-rlhf - 开源人类反馈数据集:提升AI助手安全性和有用性

概述

该存储库提供以下内容的访问：

来自通过人类反馈强化学习训练有益且无害的助手的关于有用性和无害性的人类偏好数据
来自对语言模型进行红队测试以减少危害：方法、扩展行为和经验教训的人工生成的红队测试数据。

以下将进一步描述这些数据集。

免责声明：数据包含可能令人反感或不安的内容。主题包括但不限于歧视性语言以及关于虐待、暴力、自残、剥削和其他潜在令人不安的主题的讨论。请根据您个人的风险承受能力谨慎接触这些数据。这些数据旨在用于研究目的，特别是能使模型减少危害的研究。数据中表达的观点不代表Anthropic或其任何员工的观点。

关于有用性和无害性的人类偏好数据

数据在论文通过人类反馈强化学习训练有益且无害的助手中有描述。如果您发现数据有用，请引用该论文。数据格式非常简单 -- jsonl文件的每一行包含一对文本，一个"被选择"，一个"被拒绝"。

对于有用性，数据分为训练/测试集，分为三个部分：来自我们的基础模型（上下文蒸馏的52B语言模型），通过对早期偏好模型进行拒绝采样（主要是16选1采样），以及在我们迭代的"在线"过程中采样的数据集。

对于无害性，数据仅针对我们的基础模型收集，但格式相同。

有关数据收集过程和众包工作者群体的详细信息，请参阅论文，特别是第2节和附录D。

红队测试数据

数据在论文对语言模型进行红队测试以减少危害：方法、扩展行为和经验教训中有描述。如果您发现数据有用，请引用该论文。

有关数据和数据收集程序的详细信息，请参阅论文附录中的数据表。

jsonl文件的每一行包含一个字典，具有以下字段：

transcript 人类对手（红队成员）和AI助手之间对话的文本记录
min_harmlessness_score_transcript 从偏好模型获得的AI助手无害性的实值得分（越低表示更有害）
num_params 为AI助手提供支持的语言模型的参数数量
model_type 为AI助手提供支持的模型类型
rating 红队成员对他们成功破坏AI助手的评分（李克特量表，越高表示越成功）
task_description 红队成员编写的关于他们如何尝试对AI助手进行红队测试的简短文本描述
task_description_harmlessness_score 从偏好模型获得的任务描述无害性的实值得分（越低表示更有害）
red_team_member_id 红队成员的任意标识符。一个红队成员可以生成多次红队攻击
is_upworker 一个二进制指标，如果红队成员来自众包平台Upwork则为真，如果来自MTurk则为假
tags 每个记录最多6个标签的列表。标签是由事后审查红队数据的众包工作者生成的红队尝试的简短描述。标签仅为四种模型类型中的两种的1000个随机抽样的红队尝试提供。

联系方式

您可以将询问提交至：redteam@anthropic.com