热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#中文幻觉
HalluQA: 评估中文大语言模型的幻觉现象
1 个月前
HalluQA是一个专门用于评估中文大语言模型幻觉问题的基准数据集。它包含450个精心设计的对抗性问题,涵盖多个领域,并考虑了中国历史文化、习俗和社会现象。通过对24个大型中文语言模型的广泛实验,HalluQA揭示了当前模型在处理幻觉问题上的不足,为未来的模型改进提供了重要参考。
HalluQA
大型语言模型
中文幻觉
评估基准
问答任务
Github
开源项目
1 个月前
相关项目
HalluQA
HalluQA是一个评估中文大语言模型幻觉问题的基准测试。该项目包含450个涵盖多领域的对抗性问题,考虑中国特色文化因素。HalluQA提供数据集、评估脚本和多选任务,采用GPT-4评估非幻觉率。研究结果揭示不同模型在处理误导性和知识性问题的表现,为中文大语言模型的改进提供参考。
查看
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号