tonic_validate - LLM和RAG评估框架

Tonic Validate 项目介绍

Tonic Validate 是一个专注于大语言模型（LLM）输出评价的框架，尤其适用于检索增强生成（RAG）管道。这个工具旨在简化对 LLM 和 RAG 应用程序的评价、跟踪和监控。通过使用这个框架，用户可以利用其提供的多种指标来评估 LLM 的输出，包括回答的准确性以及 LLM 产生幻觉的可能性。此外，Tonic Validate 提供了可选的用户界面，让用户能够更直观地查看评价结果，方便跟踪和监控。

为RAG准备数据

高质量和安全的数据是高性能 RAG 系统的基础。优质数据确保了检索和生成的信息准确、相关且可靠，从而提升系统的整体性能和用户信任度。而数据安全则保证了这些珍贵的信息免受外界的破坏，确保敏感信息的机密性和不可篡改性。这两方面共同构成了一个稳健的 RAG 系统的基石，实现了高效且可信的检索和生成。

Tonic Textual 是 Tonic Validate 的强大助手，可以显著提升 RAG 系统的性能。我们设计了 Tonic Textual 来简化并增强 RAG 系统的数据预处理。用户可以通过它在几分钟内建立自动化的非结构化数据管道，从非结构化数据中提取文本，检测并去标识敏感信息，将数据转换成优化过的 RAG 系统格式。我们还通过文档元数据和上下文实体标签丰富用户的数据，以构建语义实体图，避免产生幻觉，从而提高生成输出的整体质量。

快速开始

以下是关于如何在本地设置项目的简单步骤：

安装 Tonic Validate
```
pip install tonic-validate
```

使用以下代码片段开始操作：

from tonic_validate import ValidateScorer, Benchmark
import os

os.environ["OPENAI_API_KEY"] = "your-openai-key"

def get_llm_response(question):
    return {
        "llm_answer": "Paris",
        "llm_context_list": ["Paris is the capital of France."]
    }

benchmark = Benchmark(questions=["What is the capital of France?"], answers=["Paris"])
scorer = ValidateScorer()
run = scorer.score(benchmark, get_llm_response)

以上代码创建了一个包含一个问题及对应参考答案的基准，并对答案进行评估。大部分指标不需要提供参考答案。