热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#anymodel
RewardBench: 评估语言模型奖励模型的创新基准
2 个月前
RewardBench是一个专为评估奖励模型性能而设计的基准测试工具,它能全面衡量包括直接偏好优化(DPO)在内的各类奖励模型的能力和安全性,为奖励模型的研究与应用提供了重要参考。
RewardBench
评价标准
数据集
文献
anymodel
Github
开源项目
2 个月前
相关项目
reward-bench
RewardBench是一款基准工具,用于评估使用如Starling、PairRM、OpenAssistant和DPO等算法的奖励模型的能力和安全性。该工具提供通用的推理代码、统一的数据集格式和测试,以确保公平评估,并拥有强大的分析与可视化功能。用户可以通过pip快速安装并运行评估脚本,测试各种奖励模型的性能和偏好集。
查看
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号