simple-evals
simple-evals是一个开源的轻量级语言模型评估库,用于展示AI模型的准确性数据。该库采用零样本链式思维方法,包含MMLU、MATH、GPQA等评估任务,并支持OpenAI和Claude等API接口。simple-evals为研究人员和开发者提供了评估和比较不同语言模型性能的工具,反映模型在实际应用中的表现。