auto-j
Auto-J是一款开源的大语言模型评估工具,可评估模型与人类偏好的对齐程度。该工具覆盖58个真实场景,支持成对响应比较和单一响应评估,并提供详细的自然语言评论。Auto-J具有通用性强、灵活性高、可解释性好等特点,在多项评估任务中表现优异,为大语言模型的对齐研究提供支持。
FLASK
FLASK是一个开源的语言模型评估框架,采用细粒度的实例级技能集作为评估指标。该框架提供任务无关的评估协议,包含模型推理、GPT-4评估和结果分析功能。FLASK还具备自动元数据标注能力,可标注领域、技能集和难度级别。项目包含详细使用说明和在线演示,为语言模型评估提供全面解决方案。