Many-shot越狱

风险概览

风险编号：GAARM.0027.002
风险归属：GAARM.0027
安全阶段：模型安全
生命周期：应用阶段
创建时间：2024.05.01
修改时间：2024.05.01

攻击概述¶

针对大语言模型的上下文窗口越来越长特性，能够处理几十万甚至上百万字符的文本，攻击者在单个Prompt中添加了大量的人类和人工智能助手之间的虚拟对话。其中每一个攻击手编纂的虚拟对话的格式都是：“用户提出有害的问题+ai详细回答如何完成有害的行为”，结尾添加一个诱导LLMs输出有害内容的查询，可以绕开大模型内部的安全对齐机制，最终实现越狱攻击。

攻击案例¶

案例一：攻击者使用Many-shot越狱攻击的方式成功诱导模型输出制作炸弹的危险信息

案例二： 该论文对many-shot越狱进行了基本概述，同时展示了如何通过输入大量的示例对话来绕过安全限制

攻击风险¶

模型操控：攻击者可以操纵模型的输出，导致模型产生非合规、恶意等信息。
安全防护绕过： Many-Shot越狱攻击诱导模型绕过安全限制，导致模型输出有害的信息。
数据泄露：攻击者可能通过越狱的模型获取敏感数据，如用户信息、财务数据等。

缓解措施¶

缓解方式	描述
模型微调	通过额外训练提高模型的安全性，使其能识别并拒绝有害或试图绕过安全机制的查询，从而区分正常与潜在攻击的输入
输入/输出监控	对LLMs的输入/输出进行实时监控，及时过滤掉不安全或不当内容

参考¶

https://www.anthropic.com/research/many-shot-jailbreaking