Themis项目介绍
Themis是一个由8B参数组成的大型语言模型(LLM),专门为自然语言生成(NLG)评估设计并训练。它拥有全面的能力,能够胜任多种NLG任务的评估,包括一些不常见的任务,如问答评估。Themis具有四大显著特点,它们分别是多样性、独立性、灵活性和可解释性。
项目特色
-
多样性(Versatility):Themis能够评估各种NLG任务,包括一些不常见的任务,如问答等。
-
独立性(Independence):它可以在无需参考的情况下进行评估,独立判断任务的完成质量。
-
灵活性(Flexibility):Themis支持对评估进行设置,可以根据需要自定义评估的具体方面和标准,无论是整体质量还是更细化的评估方面。
-
可解释性(Interpretability):评估过程不仅仅给出分数,还包含相应的分析和解释。
Themis的设计理念是使评估器使用便捷,并兼具这些特性。在与其他相关方法的比较中,Themis全面兼顾多样性、独立性、灵活性和可解释性,并且是开源的。
性能表现
Themis在多个常见的NLG评估任务和数据集上进行了实验,包括摘要生成的SummEval、对话回复生成的Topical-Chat、数据到文本的SFRES和SFHOT、真实性的QAGS、故事生成的MANS以及机器翻译的WMT23中英文对。这些实验结果显示,Themis在整体评估表现上优于其他评估模型,包括GPT-4在内。
实验中,Themis在SummEval、SFHOT和SFRES、QAGS和MANS等方面表现突出,其均值Spearman相关系数达到0.542,展示了出色的评估能力。此外,针对未见过的任务(如遵循指令的评估),以及针对特定方面的扰动测试中,Themis也展现了优异的评估表现。
系统要求及使用方法
详细的使用方法和系统要求可以参阅我们的GitHub仓库。
研究引用
如果需要引用我们的研究,请参考以下格式:
@article{hu2024themis,
title={Themis: Towards Flexible and Interpretable NLG Evaluation},
author={Hu, Xinyu and Lin, Li and Gao, Mingqi and Yin, Xunjian and Wan, Xiaojun},
journal={arXiv preprint arXiv:2406.18365},
year={2024}
}
Themis作为一个全面和灵活的NLG评估工具,不仅在性能上领先,同时也为用户提供了极高的灵活性和使用便利性,成为自然语言处理评估领域的一个有力工具。