#HalluQA

HalluQA: 评估中文大语言模型的幻觉现象

3 个月前

3 个月前

相关项目

HalluQA

HalluQA是一个评估中文大语言模型幻觉问题的基准测试。该项目包含450个涵盖多领域的对抗性问题，考虑中国特色文化因素。HalluQA提供数据集、评估脚本和多选任务，采用GPT-4评估非幻觉率。研究结果揭示不同模型在处理误导性和知识性问题的表现，为中文大语言模型的改进提供参考。

投诉举报邮箱: service@vectorlightyear.com