Python生成式AI风险识别工具 (PyRIT)
Python生成式AI风险识别工具 (PyRIT) 是一个开放访问的自动化框架,旨在赋能安全专业人员和机器学习工程师对基础模型及其应用进行红队测试。
简介
PyRIT是由AI红队开发的库,用于帮助研究人员和工程师评估其LLM端点对不同危害类别的鲁棒性,如虚构/无根据内容(例如幻觉)、滥用(例如偏见)和禁止内容(例如骚扰)。
PyRIT自动化AI红队测试任务,使操作人员能够专注于更复杂和耗时的任务,还可以识别安全危害,如滥用(例如恶意软件生成、越狱)和隐私危害(例如身份盗窃)。
其目标是让研究人员能够建立一个基准,了解他们的模型和整个推理流程在不同危害类别中的表现,并能够将该基准与未来的模型迭代进行比较。这使他们能够获得当前模型表现的实证数据,并根据未来的改进检测任何性能退化。
此外,该工具允许研究人员对不同危害的缓解措施进行迭代和改进。例如,在微软,我们正在使用这个工具来迭代产品的不同版本(及其元提示),以便更有效地防范提示注入攻击。
我在哪里可以了解更多?
Microsoft Learn有一个专门的AI红队测试页面。
查看我们的文档,了解更多关于如何安装PyRIT、我们的使用指南等信息,以及我们的演示。
商标
本项目可能包含项目、产品或服务的商标或标识。微软商标或标识的授权使用必须遵循微软商标和品牌指南。在本项目的修改版本中使用微软商标或标识不得引起混淆或暗示微软赞助。任何第三方商标或标识的使用均受该第三方政策的约束。