热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#相对质量
PairRM - LLM质量提升的Pairwise奖励模型
LLM评估
高效解码
开源项目
RLHF方法
Pairwise Reward Model
模型
Huggingface
相对质量
Github
Pairwise Reward Model通过比较一对候选输出对每个候选分配质量评分。该模型可用于有效评估LLM质量,通过对候选输出重新排序,增强LLM输出效果,并支持RLHF方法的指令调整。模型基于microsoft/deberta-v3-large,利用多样化的人类偏好数据集进行训练,性能接近GPT-4,在有限资源下实现高效对齐和质量提升。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号