热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#URM-LLaMa
URM-LLaMa-3.1-8B - 基于LLaMa的不确定性奖励模型提升AI对未知问题的判断能力
URM-LLaMa
奖励模型
模型
Github
不确定性识别
机器学习
开源项目
Huggingface
模型训练
URM-LLaMa-3.1-8B是一款开源的不确定性感知奖励模型,通过属性回归和门控层学习两阶段训练,实现对AI回答的多维度质量评估。模型集成了不确定性感知价值头设计,可从有用性、正确性、连贯性等维度评估输出质量,特别适合处理具有不确定性的问题场景。项目提供完整代码实现,支持LLM响应质量研究。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号