跳转至

DAN(Do Anything Now)

风险概览

风险编号:GAARM.0027.001
风险归属:GAARM.0027
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01

攻击概述

DAN 是一种模型越狱攻击的具体方法,它代表 Do Anything Now。通过劝导模型违背开发者设定的安全准则,通过激活模型中另一个角色,该角色不受运行任何策略的影响,从而诱使模型回应本应被禁止的问题。

攻击案例

案例一:攻击者利用DAN的方式进行LLM越狱攻击,成功让GPT输出如何制作毒药方法

Dummy image

Sensitive Data Leak

案例二: 这篇文章展示了gpt开启DAN前后回答问题的内容对比,通过对比可以发现,越狱让chatGPT回答了它原本被禁止回答的问题

攻击风险

  • 数据泄露:攻击者可能通过DAN执行越狱攻击获取模型背后的训练数据,尤其是敏感数据,如个人隐私信息、商业秘密等。
  • 模型操控:攻击者可以操纵模型的输出,导致模型产生非合规、恶意等信息。
  • 滥用服务:例如在付费的AI服务中,攻击者可能通过越狱攻击免费或以非正当方式使用服务。

缓解措施

缓解方式 描述
输入监控和过滤 对LLMs的输出进行实时监控,及时过滤掉不安全或不当内容
对抗性训练 在模型训练过程中引入模型越狱的示例,提高模型的抵抗力
模型鲁棒性增强 通过训练和强化学习,提升LLM识别和抵御越狱攻击的能力

参考