Themis - 新一代多功能自然语言生成评价模型，支持个性化和参考无关评估

Themis项目介绍

Themis是一个由8B参数组成的大型语言模型（LLM），专门为自然语言生成（NLG）评估设计并训练。它拥有全面的能力，能够胜任多种NLG任务的评估，包括一些不常见的任务，如问答评估。Themis具有四大显著特点，它们分别是多样性、独立性、灵活性和可解释性。

项目特色

多样性（Versatility）：Themis能够评估各种NLG任务，包括一些不常见的任务，如问答等。
独立性（Independence）：它可以在无需参考的情况下进行评估，独立判断任务的完成质量。
灵活性（Flexibility）：Themis支持对评估进行设置，可以根据需要自定义评估的具体方面和标准，无论是整体质量还是更细化的评估方面。
可解释性（Interpretability）：评估过程不仅仅给出分数，还包含相应的分析和解释。

Themis的设计理念是使评估器使用便捷，并兼具这些特性。在与其他相关方法的比较中，Themis全面兼顾多样性、独立性、灵活性和可解释性，并且是开源的。

性能表现

Themis在多个常见的NLG评估任务和数据集上进行了实验，包括摘要生成的SummEval、对话回复生成的Topical-Chat、数据到文本的SFRES和SFHOT、真实性的QAGS、故事生成的MANS以及机器翻译的WMT23中英文对。这些实验结果显示，Themis在整体评估表现上优于其他评估模型，包括GPT-4在内。

实验中，Themis在SummEval、SFHOT和SFRES、QAGS和MANS等方面表现突出，其均值Spearman相关系数达到0.542，展示了出色的评估能力。此外，针对未见过的任务（如遵循指令的评估），以及针对特定方面的扰动测试中，Themis也展现了优异的评估表现。

系统要求及使用方法

详细的使用方法和系统要求可以参阅我们的GitHub仓库。

研究引用

如果需要引用我们的研究，请参考以下格式：

@article{hu2024themis,
  title={Themis: Towards Flexible and Interpretable NLG Evaluation},
  author={Hu, Xinyu and Lin, Li and Gao, Mingqi and Yin, Xunjian and Wan, Xiaojun},
  journal={arXiv preprint arXiv:2406.18365},
  year={2024}
}

Themis作为一个全面和灵活的NLG评估工具，不仅在性能上领先，同时也为用户提供了极高的灵活性和使用便利性，成为自然语言处理评估领域的一个有力工具。