AlignBench
AlignBench 是多维度评估中文大语言模型对齐性能的评测基准。最新的 v1.1 版本提供了动态更新的数据、详细评分规则和高质量参考答案,确保评估的可靠性和可解释性。涵盖八大能力类别的数据主要来自真实用户问题,并使用 GPT-4 作为评分模型,通过多维度分析方法系统评估模型性能。