#anymodel

RewardBench: 评估语言模型奖励模型的创新基准

3 个月前

RewardBench 评价标准数据集文献 anymodel Github 开源项目

3 个月前

相关项目

reward-bench

RewardBench是一款基准工具，用于评估使用如Starling、PairRM、OpenAssistant和DPO等算法的奖励模型的能力和安全性。该工具提供通用的推理代码、统一的数据集格式和测试，以确保公平评估，并拥有强大的分析与可视化功能。用户可以通过pip快速安装并运行评估脚本，测试各种奖励模型的性能和偏好集。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com