#中文幻觉

HalluQA: 评估中文大语言模型的幻觉现象

1 个月前

Cover of HalluQA: 评估中文大语言模型的幻觉现象

HalluQA是一个专门用于评估中文大语言模型幻觉问题的基准数据集。它包含450个精心设计的对抗性问题,涵盖多个领域,并考虑了中国历史文化、习俗和社会现象。通过对24个大型中文语言模型的广泛实验,HalluQA揭示了当前模型在处理幻觉问题上的不足,为未来的模型改进提供了重要参考。

HalluQA 大型语言模型中文幻觉评估基准问答任务 Github 开源项目

1 个月前

Cover of HalluQA: 评估中文大语言模型的幻觉现象

相关项目

Project Cover

HalluQA是一个评估中文大语言模型幻觉问题的基准测试。该项目包含450个涵盖多领域的对抗性问题，考虑中国特色文化因素。HalluQA提供数据集、评估脚本和多选任务，采用GPT-4评估非幻觉率。研究结果揭示不同模型在处理误导性和知识性问题的表现，为中文大语言模型的改进提供参考。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号