Evidently AI：开源机器学习和LLM可观测性框架

Evidently AI：打造AI系统的质量保障利器

在人工智能快速发展的今天，如何确保AI系统的质量和可靠性成为了一个至关重要的问题。Evidently AI应运而生，它是一个开源的机器学习和LLM（大型语言模型）可观测性框架，为AI从业者提供了强大的工具来评估、测试和监控各种AI驱动的系统。

什么是Evidently AI？

Evidently AI是一个Python库，专门用于ML和LLM的评估和可观测性。它能够帮助用户从实验阶段到生产环境全程评估、测试和监控AI系统和数据管道。

Evidently框架概览

Evidently的主要特点包括：

支持多种数据类型：可处理表格数据、文本数据和嵌入向量。
广泛的应用场景：从传统的分类问题到最新的检索增强生成（RAG）系统，都能得到支持。
丰富的内置指标：提供100多个内置指标，涵盖从数据漂移检测到LLM评判等多个方面。
灵活的自定义能力：提供Python接口，允许用户创建自定义指标和测试。
全面的评估模式：支持离线评估和实时监控。
开放的架构设计：便于数据导出和与现有工具集成。

Evidently的核心功能

Evidently提供了三种主要的功能模块，分别是报告（Reports）、测试套件（Test Suites）和监控仪表板（Monitoring Dashboard）。

1. 报告（Reports）

报告功能计算各种数据、ML和LLM质量指标。用户可以选择预设报告或自定义内容。

提供开箱即用的交互式可视化。
适合探索性分析和调试。
结果可以以Python对象、JSON、HTML、DataFrame等多种形式输出，或在监控UI中查看。

2. 测试套件（Test Suites）

测试套件检查指标值是否满足预定义的条件，并给出通过或失败的结果。

适用于回归测试、CI/CD检查或数据验证管道。
提供零配置选项：可以从参考数据集自动生成测试条件。
使用简单的语法设置自定义测试条件，如gt（大于）、lt（小于）等。

3. 监控仪表板（Monitoring Dashboard）

监控UI服务帮助用户可视化指标和测试结果的时间序列。

可选择自托管开源版本或注册Evidently Cloud（推荐）。
Evidently Cloud提供慷慨的免费套餐和额外功能，如用户管理、警报和无代码评估。

Evidently监控仪表板

Evidently的应用场景

Evidently的应用范围非常广泛，几乎涵盖了AI系统开发和运维的各个方面：

文本描述符分析：可以评估文本长度、情感、毒性、语言、特殊符号、正则表达式匹配等。
LLM输出评估：支持语义相似度、检索相关性、摘要质量等评估，包括基于模型和LLM的评估方法。
数据质量检查：可以检测缺失值、重复项、最小-最大范围、新的分类值、相关性等。
数据分布漂移分析：提供20多种统计测试和距离度量来比较数据分布的变化。
分类模型评估：支持准确度、精确度、召回率、ROC AUC、混淆矩阵、偏差等指标。
回归模型评估：包括MAE、ME、RMSE、误差分布、误差正态性、误差偏差等指标。
排序（包括RAG）评估：支持NDCG、MAP、MRR、命中率等指标。
推荐系统评估：可以评估意外性、新颖性、多样性、流行度偏差等。

如何开始使用Evidently

要开始使用Evidently，首先需要安装它。可以通过pip包管理器安装：

pip install evidently

或者使用conda安装器：

conda install -c conda-forge evidently

安装完成后，可以根据需求选择使用报告、测试套件或监控仪表板功能。以下是一个使用测试套件的简单示例：

import pandas as pd
from sklearn import datasets
from evidently.test_suite import TestSuite
from evidently.test_preset import DataStabilityTestPreset

# 加载示例数据
iris_data = datasets.load_iris(as_frame='auto')
iris_frame = iris_data.frame

# 创建并运行数据稳定性测试套件
data_stability = TestSuite(tests=[
    DataStabilityTestPreset(),
])
data_stability.run(current_data=iris_frame.iloc[:60], reference_data=iris_frame.iloc[60:], column_mapping=None)

# 显示结果
data_stability

这个例子展示了如何使用Evidently的测试套件来检查数据的稳定性。用户可以根据自己的需求，选择不同的预设或自定义测试。

Evidently的优势

开源和透明：作为一个开源项目，Evidently允许用户深入了解其工作原理，并根据需要进行定制。
全面的评估能力：从数据质量到模型性能，再到LLM输出，Evidently提供了全方位的评估指标。
灵活性：支持多种数据类型和AI系统，适应不同的应用场景。
易于集成：可以轻松地集成到现有的ML工作流程中。
社区支持：活跃的开发者社区不断为项目贡献新功能和改进。
可视化能力：提供丰富的可视化选项，使得复杂的指标更易理解。

结语

在AI技术日新月异的今天，确保AI系统的质量和可靠性变得越来越重要。Evidently AI作为一个强大的开源框架，为AI从业者提供了一套全面的工具，帮助他们评估、测试和监控AI系统的各个方面。无论是在开发阶段还是在生产环境中，Evidently都能为AI质量保障提供有力支持。

随着AI技术的不断发展，我们可以期待Evidently在未来会引入更多创新功能，进一步增强其在AI可观测性领域的领先地位。对于那些致力于构建高质量、可靠AI系统的开发者和组织来说，Evidently无疑是一个值得关注和使用的工具。

要了解更多关于Evidently的信息，可以访问其官方文档或加入其Discord社区。无论你是AI新手还是经验丰富的专家，Evidently都能为你的AI项目带来价值。让我们一起利用Evidently，为构建更加可靠、透明的AI系统贡献力量。