热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#角色扮演对话代理
CharacterEval - 中文角色扮演对话代理评估基准
CharacterEval
角色扮演对话代理
中文基准测试
评估指标
人工标注
Github
开源项目
CharacterEval是一个评估中文角色扮演对话代理(RPCAs)的基准。它包含1,785个多轮对话和23,020个样例,涵盖77个源自中国文学作品的角色。该基准采用四个维度的十三项指标进行评估,并开发了基于人工标注的角色奖励模型(CharacterRM)。实验显示,CharacterRM与人类评估的相关性显著高于GPT-4。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号