DAN(Do Anything Now)
风险概览
风险编号:GAARM.0027.001
风险归属:GAARM.0027
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述¶
DAN 是一种模型越狱攻击的具体方法,它代表 Do Anything Now。通过劝导模型违背开发者设定的安全准则,通过激活模型中另一个角色,该角色不受运行任何策略的影响,从而诱使模型回应本应被禁止的问题。
攻击案例¶
案例一:攻击者利用DAN的方式进行LLM越狱攻击,成功让GPT输出如何制作毒药方法
案例二: 这篇文章展示了gpt开启DAN前后回答问题的内容对比,通过对比可以发现,越狱让chatGPT回答了它原本被禁止回答的问题
攻击风险¶
- 数据泄露:攻击者可能通过DAN执行越狱攻击获取模型背后的训练数据,尤其是敏感数据,如个人隐私信息、商业秘密等。
- 模型操控:攻击者可以操纵模型的输出,导致模型产生非合规、恶意等信息。
- 滥用服务:例如在付费的AI服务中,攻击者可能通过越狱攻击免费或以非正当方式使用服务。
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 输入监控和过滤 | 对LLMs的输出进行实时监控,及时过滤掉不安全或不当内容 |
| 对抗性训练 | 在模型训练过程中引入模型越狱的示例,提高模型的抵抗力 |
| 模型鲁棒性增强 | 通过训练和强化学习,提升LLM识别和抵御越狱攻击的能力 |