HalluQA
HalluQA是一个评估中文大语言模型幻觉问题的基准测试。该项目包含450个涵盖多领域的对抗性问题,考虑中国特色文化因素。HalluQA提供数据集、评估脚本和多选任务,采用GPT-4评估非幻觉率。研究结果揭示不同模型在处理误导性和知识性问题的表现,为中文大语言模型的改进提供参考。