prometheus-eval
Prometheus-Eval是一个评估生成任务中大型语言模型(LLMs)的开源项目。最新的Prometheus 2版本内置多种高性能评估模型,并集成了提供9项核心能力、77个任务和765个实例的BiGGen-Bench评估平台。该项目支持本地推理和通过VLLM及LLM API进行远程评估,且能够方便地在Python环境中安装和使用。项目持续更新,以确保评估的准确性和效率。访问官方仓库获取更多信息。