跳转至

Many-shot越狱

风险概览

风险编号:GAARM.0027.002
风险归属:GAARM.0027
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01

攻击概述

针对大语言模型的上下文窗口越来越长特性,能够处理几十万甚至上百万字符的文本,攻击者在单个Prompt中添加了大量的人类和人工智能助手之间的虚拟对话。其中每一个攻击手编纂的虚拟对话的格式都是:“用户提出有害的问题+ai详细回答如何完成有害的行为”,结尾添加一个诱导LLMs输出有害内容的查询,可以绕开大模型内部的安全对齐机制,最终实现越狱攻击。

攻击案例

案例一:攻击者使用Many-shot越狱攻击的方式成功诱导模型输出制作炸弹的危险信息

Dummy image

Many_shot Jailbreak案例

案例二: 该论文对many-shot越狱进行了基本概述,同时展示了如何通过输入大量的示例对话来绕过安全限制

攻击风险

  • 模型操控:攻击者可以操纵模型的输出,导致模型产生非合规、恶意等信息。
  • 安全防护绕过: Many-Shot越狱攻击诱导模型绕过安全限制,导致模型输出有害的信息。
  • 数据泄露: 攻击者可能通过越狱的模型获取敏感数据,如用户信息、财务数据等。

缓解措施

缓解方式 描述
模型微调 通过额外训练提高模型的安全性,使其能识别并拒绝有害或试图绕过安全机制的查询,从而区分正常与潜在攻击的输入
输入/输出监控 对LLMs的输入/输出进行实时监控,及时过滤掉不安全或不当内容

参考