Project Icon

deepeval

简化LLM输出评估的开源框架

DeepEval是一款开源的大型语言模型(LLM)输出评估框架。它提供G-Eval、幻觉检测和答案相关性等多种评估指标,支持本地运行。该框架适用于RAG和微调应用,可与LangChain和LlamaIndex等工具集成。DeepEval具备批量评估、自定义指标创建功能,易于集成到CI/CD环境。此外,它还支持对主流LLM基准进行简易评估,并可与Confident AI平台对接,实现持续评估和结果分析。

DeepEval标志

LLM评估框架

discord邀请

文档 | 指标和功能 | 快速入门 | 集成 | Confident AI

GitHub发布 在Colab中尝试快速入门 许可证

DeepEval是一个简单易用的开源LLM评估框架。它类似于Pytest,但专门用于对LLM输出进行单元测试。DeepEval采用最新的研究成果,基于G-Eval、幻觉、答案相关性、RAGAS等指标评估LLM输出,这些指标使用LLM和各种其他NLP模型在本地机器上运行评估。

无论您的应用是通过RAG还是微调实现的,使用LangChain还是LlamaIndex,DeepEval都能满足您的需求。借助它,您可以轻松确定最佳超参数以改进RAG管道,防止提示偏移,甚至可以自信地从OpenAI过渡到托管自己的Llama2。

想讨论LLM评估吗?快来加入我们的Discord。


🔥 指标和功能

  • 丰富多样的即用型LLM评估指标(均附带解释),由您选择的任何LLM、统计方法或在本地机器上运行的NLP模型提供支持:
    • G-Eval
    • 摘要
    • 答案相关性
    • 忠实度
    • 上下文召回率
    • 上下文精确度
    • RAGAS
    • 幻觉
    • 毒性
    • 偏见
    • 等等
  • 使用不到20行Python代码并行批量评估整个数据集。可以通过CLI以类似Pytest的方式进行,或者使用我们的evaluate()函数。
  • 通过继承DeepEval的基础指标类,创建自定义指标,自动与DeepEval生态系统集成。
  • 任何 CI/CD环境无缝集成。
  • 轻松使用不到10行代码任何LLM进行流行的LLM基准测试,包括:
    • MMLU
    • HellaSwag
    • DROP
    • BIG-Bench Hard
    • TruthfulQA
    • HumanEval
    • GSM8K
  • 自动与Confident AI集成,在LLM(应用)的整个生命周期内进行持续评估:
    • 记录评估结果并分析指标通过/失败情况
    • 根据评估结果比较和选择最佳超参数(如提示模板、块大小、使用的模型等)
    • 通过LLM跟踪调试评估结果
    • 在一处管理评估测试用例/数据集
    • 跟踪事件以识别生产环境中的实时LLM响应
    • 生产环境中的实时评估
    • 将生产事件添加到现有评估数据集以加强评估

(请注意,一些指标适用于RAG,而其他指标更适合微调用例。确保查阅我们的文档以选择正确的指标。)


🔌 集成


🚀 快速入门

假设您的LLM应用是一个基于RAG的客户支持聊天机器人;以下是DeepEval如何帮助测试您所构建的内容。

安装

pip install -U deepeval

创建账户(强烈推荐)

虽然可选,但在我们的平台上创建一个账户将允许您记录测试结果,从而轻松跟踪各个迭代过程中的变化和性能。这一步是可选的,即使不登录也可以运行测试用例,但我们强烈建议您尝试一下。

要登录,请运行:

deepeval login

按照CLI中的说明创建账户,复制您的API密钥,并将其粘贴到CLI中。所有测试用例将自动记录(在此处查找有关数据隐私的更多信息)。

编写您的第一个测试用例

创建一个测试文件:

touch test_chatbot.py

打开test_chatbot.py并使用DeepEval编写您的第一个测试用例:

import pytest
from deepeval import assert_test
from deepeval.metrics import AnswerRelevancyMetric
from deepeval.test_case import LLMTestCase

def test_case():
    answer_relevancy_metric = AnswerRelevancyMetric(threshold=0.5)
    test_case = LLMTestCase(
        input="如果这双鞋不合脚怎么办?",
        # 将此替换为您的LLM应用程序的实际输出
        actual_output="我们提供30天全额退款,无需额外费用。",
        retrieval_context=["所有客户都有资格在30天内全额退款,无需额外费用。"]
    )
    assert_test(test_case, [answer_relevancy_metric])

将您的OPENAI_API_KEY设置为环境变量(您也可以使用自定义模型进行评估,有关更多详细信息,请访问我们文档的这部分):

export OPENAI_API_KEY="..."

最后,在CLI中运行test_chatbot.py

deepeval test run test_chatbot.py

**您的测试应该已通过✅**让我们来分析一下发生了什么。

  • 变量input模拟用户输入,actual_output是根据此查询您的聊天机器人的预期输出的占位符。
  • 变量retrieval_context包含来自您知识库的相关信息,AnswerRelevancyMetric(threshold=0.5)是DeepEval提供的现成指标。它有助于根据提供的上下文评估LLM输出的相关性。
  • 指标分数范围从0到1。threshold=0.5阈值最终决定您的测试是否通过。

阅读我们的文档获取有关如何使用其他指标、创建自定义指标以及与LangChain和LlamaIndex等其他工具集成的教程的更多信息。


不使用Pytest集成进行评估

或者,您可以不使用Pytest进行评估,这更适合笔记本环境。

from deepeval import evaluate
from deepeval.metrics import AnswerRelevancyMetric
from deepeval.test_case import LLMTestCase

answer_relevancy_metric = AnswerRelevancyMetric(threshold=0.7)
test_case = LLMTestCase(
    input="如果这双鞋不合脚怎么办?",
    # 将此替换为您的LLM应用程序的实际输出
    actual_output="我们提供30天全额退款,无需额外费用。",
    retrieval_context=["所有客户都有资格在30天内全额退款,无需额外费用。"]
)
evaluate([test_case], [answer_relevancy_metric])

使用独立指标

DeepEval具有极高的模块化性,使任何人都可以轻松使用我们的任何指标。继续上一个示例:

from deepeval.metrics import AnswerRelevancyMetric
from deepeval.test_case import LLMTestCase

answer_relevancy_metric = AnswerRelevancyMetric(threshold=0.7)
test_case = LLMTestCase(
    input="如果这双鞋不合脚怎么办?",
    # 将此替换为您的LLM应用程序的实际输出
    actual_output="我们提供30天全额退款,无需额外费用。",
    retrieval_context=["所有客户都有资格在30天内全额退款,无需额外费用。"]
)

answer_relevancy_metric.measure(test_case)
print(answer_relevancy_metric.score)
# 大多数指标还提供解释
print(answer_relevancy_metric.reason)

请注意,一些指标适用于RAG管道,而其他指标适用于微调。确保使用我们的文档为您的用例选择正确的指标。

批量评估数据集/测试用例

在DeepEval中,数据集只是测试用例的集合。以下是如何批量评估这些测试用例:

import pytest
from deepeval import assert_test
from deepeval.metrics import HallucinationMetric, AnswerRelevancyMetric
from deepeval.test_case import LLMTestCase
from deepeval.dataset import EvaluationDataset

first_test_case = LLMTestCase(input="...", actual_output="...", context=["..."])
second_test_case = LLMTestCase(input="...", actual_output="...", context=["..."])

dataset = EvaluationDataset(test_cases=[first_test_case, second_test_case])

@pytest.mark.parametrize(
    "test_case",
    dataset,
)
def test_customer_chatbot(test_case: LLMTestCase):
    hallucination_metric = HallucinationMetric(threshold=0.3)
    answer_relevancy_metric = AnswerRelevancyMetric(threshold=0.5)
    assert_test(test_case, [hallucination_metric, answer_relevancy_metric])
# 在CLI中运行此命令,您还可以添加可选的-n标志以并行运行测试
deepeval test run test_<filename>.py -n 4

或者,虽然我们建议使用deepeval test run,但您也可以不使用我们的Pytest集成来评估数据集/测试用例:

from deepeval import evaluate
...

evaluate(dataset, [answer_relevancy_metric])
# 或
dataset.evaluate([answer_relevancy_metric])

Confident AI上的实时评估

我们提供免费的网络平台供您:

  1. 记录并查看DeepEval测试运行的所有测试结果/指标数据。
  2. 通过LLM跟踪调试评估结果。
  3. 比较并选择最佳超参数(提示模板、模型、块大小等)。
  4. 创建、管理和集中您的评估数据集。
  5. 跟踪生产中的事件并扩充您的评估数据集以进行持续评估。
  6. 跟踪生产中的事件,查看评估结果和历史洞察。

Confident AI上的所有内容,包括如何使用Confident,都可以在此处找到。

首先,从CLI登录:

deepeval login

按照说明登录,创建您的账户,并将API密钥粘贴到CLI中。

现在,再次运行您的测试文件:

deepeval test run test_chatbot.py

测试运行完成后,您应该会在CLI中看到一个链接。将其粘贴到浏览器中以查看结果!

![ok](https://yellow-cdn.veclightyear.com/2b54e442/ba036c9f-f1a4-44e0-aba5-76ec

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号