#安全RLHF

Safe RLHF: 安全的人类反馈强化学习

3 个月前

Beaver 安全RLHF 人工智能数据集模型训练 Github 开源项目

3 个月前

相关项目

safe-rlhf

Safe RLHF是一个由北京大学PKU-Alignment团队开发的开源框架，整合了SFT、RLHF及Safe RLHF训练方法。它支持多种预训练模型，提供大量人工标注数据，能够训练奖励与成本模型，并采用多层次的安全性校验指标。最新发布的版本提供详尽的复现代码和数据集，旨在增强AI模型的安全性和实用性。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com