热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#HalluQA
HalluQA - 中文大语言模型幻觉评估基准
HalluQA
大型语言模型
中文幻觉
评估基准
问答任务
Github
开源项目
HalluQA是一个评估中文大语言模型幻觉问题的基准测试。该项目包含450个涵盖多领域的对抗性问题,考虑中国特色文化因素。HalluQA提供数据集、评估脚本和多选任务,采用GPT-4评估非幻觉率。研究结果揭示不同模型在处理误导性和知识性问题的表现,为中文大语言模型的改进提供参考。
1
1
相关文章
HalluQA: 评估中文大语言模型的幻觉现象
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号