Many-shot越狱
风险概览
风险编号:GAARM.0027.002
风险归属:GAARM.0027
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述¶
针对大语言模型的上下文窗口越来越长特性,能够处理几十万甚至上百万字符的文本,攻击者在单个Prompt中添加了大量的人类和人工智能助手之间的虚拟对话。其中每一个攻击手编纂的虚拟对话的格式都是:“用户提出有害的问题+ai详细回答如何完成有害的行为”,结尾添加一个诱导LLMs输出有害内容的查询,可以绕开大模型内部的安全对齐机制,最终实现越狱攻击。
攻击案例¶
案例一:攻击者使用Many-shot越狱攻击的方式成功诱导模型输出制作炸弹的危险信息
案例二: 该论文对many-shot越狱进行了基本概述,同时展示了如何通过输入大量的示例对话来绕过安全限制
攻击风险¶
- 模型操控:攻击者可以操纵模型的输出,导致模型产生非合规、恶意等信息。
- 安全防护绕过: Many-Shot越狱攻击诱导模型绕过安全限制,导致模型输出有害的信息。
- 数据泄露: 攻击者可能通过越狱的模型获取敏感数据,如用户信息、财务数据等。
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 模型微调 | 通过额外训练提高模型的安全性,使其能识别并拒绝有害或试图绕过安全机制的查询,从而区分正常与潜在攻击的输入 |
| 输入/输出监控 | 对LLMs的输入/输出进行实时监控,及时过滤掉不安全或不当内容 |