🤗 Evaluate 是一个使评估和比较模型以及报告其性能变得更简单和标准化的库。
它目前包含:
- 数十种流行指标的实现:现有指标涵盖从自然语言处理到计算机视觉的各种任务,并包括特定数据集的指标。只需简单的命令如
accuracy = load("accuracy")
,即可准备好使用这些指标来评估任何框架(Numpy/Pandas/PyTorch/TensorFlow/JAX)中的机器学习模型。 - 比较和测量:比较用于测量模型之间的差异,测量工具用于评估数据集。
- 一种将新评估模块轻松添加到 🤗 Hub 的方法:你可以使用
evaluate-cli create [指标名称]
创建新的评估模块并将其推送到 🤗 Hub 中的专用 Space,这使你可以轻松比较不同指标及其对相同参考和预测集的输出。
🤗 Evaluate 还有许多有用的功能,如:
- 类型检查:检查输入类型以确保你为每个指标使用正确的输入格式
- 指标卡片:每个指标都附带一张卡片,描述其值、限制和范围,并提供其用法和用处的示例。
- 社区指标:指标存在于 Hugging Face Hub 上,你可以轻松为你的项目添加自己的指标或与他人合作。
安装
使用 pip
🤗 Evaluate 可以从 PyPi 安装,必须在虚拟环境中安装(例如 venv 或 conda)
pip install evaluate
使用
🤗 Evaluate 的主要方法有:
evaluate.list_evaluation_modules()
列出可用的指标、比较和测量evaluate.load(module_name, **kwargs)
实例化评估模块results = module.compute(*kwargs)
计算评估模块的结果
添加新的评估模块
首先使用以下命令安装创建新指标所需的依赖项:
pip install evaluate[template]
然后你可以使用以下命令开始,它将为你的指标创建一个新文件夹并显示必要的步骤:
evaluate-cli create "Awesome Metric"
有关详细说明,请参阅文档中的分步指南。