long-form-factuality
Long-form-factuality项目提供了一套完整的工具和方法来评估大型语言模型生成长篇文本的事实准确性。项目包括LongFact提示集、SAFE评估器和F1@K指标。研究人员可以利用这些工具对OpenAI和Anthropic等模型进行基准测试,深入探究语言模型在长篇事实性文本生成方面的表现。项目代码开源,便于复现实验结果和进行further研究。