Giskard: 先进的人工智能系统评估与测试框架
Giskard是一个开源的Python库,专门用于自动检测人工智能应用中的性能、偏见和安全问题。该库涵盖了从基于LLM的应用(如RAG代理)到传统的表格数据机器学习模型等多种AI系统。
强大的扫描功能
Giskard提供了一个强大的扫描功能,可以自动评估基于LLM的代理是否存在性能、偏见和安全问题。它能够检测到的问题包括:
- 幻觉
- 有害内容生成
- 提示注入
- 鲁棒性问题
- 敏感信息泄露
- 刻板印象和歧视
- 以及更多...
RAG评估工具包(RAGET)
对于测试RAG应用,Giskard还提供了更深入的评估工具 - RAGET(RAG Evaluation Toolkit)。RAGET可以:
- 自动从RAG的知识库生成测试集,包含问题、参考答案和参考上下文。
- 为RAG代理的每个组件计算分数,通过聚合代理在不同问题类型上的答案正确性来评估。
RAGET评估的组件包括:
- Generator: RAG中用于生成答案的LLM
- Retriever: 根据用户查询从知识库获取相关文档
- Rewriter: 重写用户查询以使其更贴合知识库或考虑聊天历史
- Router: 根据用户意图过滤用户查询
- Knowledge Base: RAG用于生成答案的文档集
广泛的兼容性
Giskard可以与任何模型和环境无缝集成,并可与各种流行工具配合使用。
快速上手
使用Giskard非常简单:
- 构建LLM代理
- 使用Giskard扫描模型问题
- 为RAG应用自动生成评估数据集
通过简单的几步操作,用户就可以全面评估和测试他们的AI系统。
开放社区
Giskard欢迎AI社区的贡献。用户可以加入Discord社区,获取支持并参与讨论。项目还鼓励用户在GitHub上为其加星,以帮助项目获得更多关注。
此外,Giskard还提供赞助选项。通过月度赞助,赞助者可以获得徽章、在README中展示公司logo,并优先处理bug报告。对于一次性赞助,Giskard团队可提供咨询项目参与、研讨会或公司演讲等服务。
总之,Giskard是一个功能强大、使用便捷、社区活跃的AI评估与测试框架,为确保AI系统的质量和安全提供了重要保障。