我们分享了一种生成PAP的替代方法,无需访问有害的PAP示例,而是依赖微调的GPT-3.5。
🔍 新内容
我们更新的核心在新目录:/PAP_Better_Incontext_Sample
。
📚 如何使用
请进入/PAP_Better_Incontext_Sample
文件夹并探索test.ipynb
开始。该示例将引导您完成对前5种说服技巧进行高质量PAP采样的过程。
出于安全考虑,在本仓库中我们仅发布了论文中描述的说服分类法和上下文采样代码。persuasion_taxonomy.jsonl
包括40种说服技巧及其定义和示例。incontext_sampling_example.ipynb
包含使用这些说服技巧进行上下文采样的示例代码。这些技巧和代码可用于生成说服性对抗提示(PAPs)或其他说服任务。
要训练一个有说服力的改写器,研究人员可以生成问题或使用现有问题,使用incontext_sampling_example.ipynb
进行说服/攻击。随后,可以通过人工标注或使用GPT-4 Judge评估这些采样结果,从而生成适合训练的数据。
出于责任考虑,我们选择不公开发布完整的攻击代码。但是,出于安全研究目的,研究人员可以通过这个Google表单申请。获批后,我们将向申请者发布advbench子数据集(由Chao等人优化)上的越狱数据。软件的访问权限是临时授予的,完全由作者自行决定。作者保留随时拒绝或限制任何个人或实体访问软件的权利,无需通知且不承担任何责任。
<br> <br>简要概述: 我们的说服性对抗提示是人类可读的,在对齐的大语言模型上实现了**92%**的攻击成功率,无需专门优化。
<br>我们引入了什么? 一个包含40种说服技巧的分类法,帮助您提高说服力!
我们发现了什么? 通过迭代应用我们分类法中的不同说服技巧,我们成功越狱了先进的对齐大语言模型,包括Llama 2-7b Chat、GPT-3.5和GPT-4 — 实现了惊人的92%攻击成功率,值得注意的是无需任何特定优化。
现在,您可能认为如此高的成功率是我们发现的顶点,但还有更多。出乎意料的是,我们发现像GPT-4这样更先进的模型对说服性对抗提示(PAPs)更为脆弱。更重要的是,为了抵御这些PAPs而制定的自适应防御也能有效地保护against其他攻击(如GCG、Masterkey或PAIR)。
<p align="center"> <img src="https://yellow-cdn.veclightyear.com/ab5030c0/e894779c-b1a6-4cf0-bd55-daaeedc4531d.png" alt="persuasion_taxonomy" width="90%"/> </p> <p align="center"> <font size=3 >系统的说服技巧分类法。</font> </p> <br> <br><br> <p align="center"> <img src="https://yellow-cdn.veclightyear.com/ab5030c0/497b128f-731b-45d9-8d82-d00c526360d1.png" alt="generation method" width="90%"/> </p> <p align="center"> <font size=3 >分类法指导的说服性对抗提示 (PAP) 生成方法概览。</font> </p> <br>我们将大语言模型人性化并作为类人交流者进行说服,提出可解释的说服性对抗提示 (PAP)。PAP将说服技巧无缝融入越狱提示构建中,突出了与更复杂和微妙的类人交流相关的风险,以推进人工智能安全。
A. 说服性改写器 训练:第1步是获取训练数据,我们应用各种方法(如上下文提示、微调改写器等)和说服分类法,将普通有害查询改写为高质量PAP作为训练数据。然后,在第2步中,我们使用训练数据微调一个说服性改写器,可以稳定地改写有害查询。
B. 说服性改写器 部署:第1步是使用微调后的说服性改写器为新的有害查询生成指定说服技巧的PAP。然后,在第2步中,我们将使用GPT4-Judge评估目标模型产生的输出的有害程度。
<br>我们展示了PAP成功率(%),即引发GPT-4 Judge评判的最高有害性得分5的PAP百分比。每个单元格代表一个风险-技巧对,每个单元格的PAP总数为60(3个普通查询 × 20个PAP变体)。每个风险类别最有效的前5种技巧用红色或白色标注(超过30%的结果用白色强调)。为清晰起见,风险类别和技巧按从左到右、从上到下的PAP成功率平均值递减排序。左侧类别(如欺诈/欺骗)更容易受说服影响,顶部技巧(如逻辑诉求)更有效。底行显示未使用说服的普通查询结果。
我们发现,说服在所有14个风险类别中都能有效地越狱GPT-3.5。风险类别与说服技巧之间的相互作用突显了应对这种用户引发的说服风险的挑战。这种风险,尤其是涉及多技巧和多轮交流时,强调了进一步调查的紧迫性。
<br>在真实世界的越狱中,用户会改进有效的提示以提高越狱过程。为模仿人类改进行为,我们对成功的PAP进行训练,并迭代部署不同的说服技巧。这样做可以比现有的算法聚焦攻击更有效地越狱流行的对齐大语言模型,如Llama-2和GPT模型。
<p align="center"> <img src="https://yellow-cdn.veclightyear.com/ab5030c0/a4cae9b5-12c8-456f-a89f-db6ad6e22213.png" alt="10_trail" width="50%"/> </p>我们还将试验次数扩展到10次,以测试PAPs的极限,并报告了10次试验的整体ASR。不同模型家族的整体ASR各不相同:PAPs在Llama-2和GPTs上达到了92%的ASR,但在Claude上受到限制。值得注意的是,如果模型家族容易受到说服,那么更强大的模型可能比较弱的模型更容易受到PAPs的影响。从1次和3次试验的ASR中,我们可以看到GPT-4比GPT-3.5更容易受到PAPs的影响。这突显了类人说服性交互所带来的独特风险。
<br>我们重新审视了一系列事后对抗性提示防御策略。即使是最有效的防御也只能将GPT-4的ASR降低到60%,这仍然高于最佳基线攻击(54%)。这强化了对更强大模型改进防御的需求。
<p align="center"> <img src="https://yellow-cdn.veclightyear.com/ab5030c0/5033753b-39a1-4fd6-83f4-35a54147d18f.png" alt="adaptive_defense" width="40%"/> </p>我们研究了两种自适应防御策略:"自适应系统提示"和"目标性摘要",旨在抵消PAPs中说服性语境的影响。我们发现它们在抵消PAPs方面很有效,并且还可以防御PAPs以外的其他类型的越狱提示。我们还发现安全性和实用性之间存在权衡。因此,防御策略的选择应根据个别模型和具体的安全目标进行定制。
<br><br>
本项目提供了一种结构化的方法来大规模生成可解释的说服性对抗提示(PAP),这可能允许普通用户在没有太多计算能力的情况下越狱大型语言模型。但正如前面提到的,一位Reddit用户已经在此之前使用说服来攻击大型语言模型,因此迫切需要更系统地研究围绕说服性越狱的漏洞,以更好地缓解它们。因此,尽管存在风险,我们认为完整分享我们的发现至关重要。在整个研究过程中,我们遵循了伦理准则。
首先,说服通常对普通人来说是一项艰巨的任务,所以即使有我们的分类法,没有经过训练的人可能仍然难以大规模地将一个简单的、有害的查询改写成成功的PAP。因此,来自数百万用户的广泛攻击的现实世界风险相对较低。我们还决定不公开经过训练的说服性改写器和相关代码管道,以防止人们轻易地改写有害查询。
为了最大限度地减少现实世界的危害,我们在发表前向Meta和OpenAI披露了我们的结果,因此本文中的PAPs可能不再有效。如前所述,Claude成功抵御了PAPs,展示了一种成功的缓解方法。我们还探索了不同的防御措施,并提出了新的自适应安全系统提示和基于摘要的新防御机制来缓解风险,这些已经显示出promising的结果。我们的目标是在未来的工作中改进这些防御措施。
总之,我们研究的目的是加强大型语言模型的安全性,而不是促进恶意使用。我们承诺根据技术进步持续监测和更新我们的研究,并将PAP微调详细信息仅限于经过认证并获得批准的研究人员使用。
<br><br>
如果您在研究中发现这个有用,请考虑引用:
@misc{zeng2024johnny,
title={How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs},
author={Zeng, Yi and Lin, Hongpeng and Zhang, Jingwen and Yang, Diyi and Jia, Ruoxi and Shi, Weiyan},
year={2024},
eprint={2401.06373},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
<br><br>
我们要向OpenAI表示感谢,在我们初步披露后,他们为我们提供了充足的API研究积分。这种财务支持极大地帮助了我们通过可解释的说服性对抗提示(PAP)研究对齐的大型语言模型的越狱,以及探索潜在的防御策略。我们坚信,这种慷慨的支持最终将有助于提高大型语言模型系统在实际应用中的安全性和可靠性。
OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。
openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。
高分辨率纹理 3D 资产生成
Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。
一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。
3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。
用于可扩展和多功能 3D 生成的结构化 3D 潜在表示
TRELLIS 是一个专注于 3D 生成的项目,它利用结构化 3D 潜在表示技术,实现了可扩展且多功能的 3D 生成。项目提供了多种 3D 生成的方法和工具,包括文本到 3D、图像到 3D 等,并且支持多种输出格式,如 3D 高斯、辐射场和网格等。通过 TRELLIS,用户可以根据文本描述或图像输入快速生成高质量的 3D 资产,适用于游戏开发、动画制作、虚拟现实等多个领域。
10 节课教你开启构建 AI 代理所需的一切知识
AI Agents for Beginners 是一个专为初学者打造的课程项目,提供 10 节课程,涵盖构建 AI 代理的必备知识,支持多种语言,包含规划设计、工具使用、多代理等丰富内容,助您快速入门 AI 代理领域。
AI Excel全自动制表工具
AEE 在线 AI 全自动 Excel 编辑器,提供智能录入、自动公式、数据整理、图表生成等功能,高效处理 Excel 任务,提升办公效率。支持自动高亮数据、批量计算、不规则数据录入,适用于企业、教育、金融等多场景。
基于 UI-TARS 视觉语言模型的桌面应用,可通过自然语言控制计算机进行多模态操作。
UI-TARS-desktop 是一款功能强大的桌面应用,基于 UI-TARS(视觉语言模型)构建。它具备自然语言控制、截图与视觉识别、精确的鼠标键盘控制等功能,支持跨平台使用(Windows/MacOS),能提供实时反馈和状态显示,且数据完全本地处理,保障隐私安全。该应用集成了多种大语言模型和搜索方式,还可进行文件系统操作。适用于需要智能交互和自动化任务的场景,如信息检索、文件管理等。其提供了详细的文档,包括快速启动、部署、贡献指南和 SDK 使用说明等,方便开发者使用和扩展。
开源且先进的大规模视频生成模型项目
Wan2.1 是一个开源且先进的大规模视频生成模型项目,支持文本到图像、文本到视频、图像到视频等多种生成任务。它具备丰富的配置选项,可调整分辨率、扩散步数等参数,还能对提示词进行增强。使用了多种先进技术和工具,在视频和图像生成领域具有广泛应用前景,适合研究人员和开发者使用。
全流程 AI 驱动的数据可视化工具,助力用户轻松创作高颜值图表
爱图表(aitubiao.com)就是AI图表,是由镝数科技推出的一款创新型智能数据可视化平台,专注于为用户提供便捷的图表生成、数据分析和报告撰写服务。爱图表是中国首个在图表场景接入DeepSeek的产品。通过接入前沿的DeepSeek系列AI模型,爱图表结合强大的数据处理能力与智能化功能,致力于帮助职场人士高效处理和表达数据,提升工作效率和报告质量。
一款强大的视觉语言模型,支持图像和视频输入
Qwen2.5-VL 是一款强大的视觉语言模型,支持图像和视频输 入,可用于多种场景,如商品特点总结、图像文字识别等。项目提供了 OpenAI API 服务、Web UI 示例等部署方式,还包含了视觉处理工具,有助于开发者快速集成和使用,提升工作效率。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号