DAN(Do Anything Now)

风险概览

风险编号：GAARM.0027.001
风险归属：GAARM.0027
安全阶段：模型安全
生命周期：应用阶段
创建时间：2024.05.01
修改时间：2024.05.01

攻击概述¶

DAN 是一种模型越狱攻击的具体方法，它代表 Do Anything Now。通过劝导模型违背开发者设定的安全准则，通过激活模型中另一个角色，该角色不受运行任何策略的影响，从而诱使模型回应本应被禁止的问题。

案例一：攻击者利用DAN的方式进行LLM越狱攻击，成功让GPT输出如何制作毒药方法

案例二： 这篇文章展示了gpt开启DAN前后回答问题的内容对比，通过对比可以发现，越狱让chatGPT回答了它原本被禁止回答的问题

缓解方式	描述
输入监控和过滤	对LLMs的输出进行实时监控，及时过滤掉不安全或不当内容
对抗性训练	在模型训练过程中引入模型越狱的示例，提高模型的抵抗力
模型鲁棒性增强	通过训练和强化学习，提升LLM识别和抵御越狱攻击的能力