角色逃逸
风险概览
风险编号:GAARM.0052
子风险:GAARM.0052.001、GAARM.0052.002、GAARM.0052.003、GAARM.0052.004
安全阶段:身份安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.08
攻击概述¶
角色逃逸是一种攻击手段,主要关于攻击者利用对模型的输入控制,通过特定指令使模型忽略既定的上下文和角色限制。这种攻击手段可能导致模型赋予新的角色或行为模式,从而篡改或滥用系统的原有功能。攻击者通过角色逃逸攻击,可以实现应用层面的模型防御机制对抗,实现原有业务应用角色功能的偏离,从而实现对应用接入Agent的滥用、元提示词泄露等攻击目的。这些风险不仅威胁到系统的安全性和可靠性,也可能导致用户信任度下降,甚至在安全敏感的应用场景中造成严重后果。
攻击案例¶
具体见子风险攻击案例
攻击风险¶
网络安全风险:在网络安全领域,大模型角色逃逸可能导致安全防御措施被绕过,如生成用于破解密码的暴力尝试、创建钓鱼网站或自动化执行网络攻击的脚本;
关键基础设施威胁:如果大模型被用于生成针对电力、交通、水利等关键基础设施的攻击策略,可能造成严重的社会危害,甚至威胁到人民的生命安全;
国防安全影响:在国防领域,AI模型的逃逸可能导致敏感信息被非法获取,或者用于生成针对军事设施和人员的定向攻击内容,严重时可能引发安全事故;
金融领域风险: 在金融行业,大模型角色逃逸可能被用于制作和传播虚假的金融市场信息,引发市场动荡,或者用于执行复杂的金融诈骗活动,导致巨大的经济损失。
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 输入/输出验证 | 实施严格的输入验证机制,过滤和清理传入的提示词。包括检查和阻止任何包含潜在有害指令或可疑模式的输入 |
| 外部守卫模型 | 实施异常检测算法,识别异常的提示词模式,实时发现提示注入攻击尝试,并触发保护措施 |
| 模型安全对齐 | 提供多样化的训练数据,涵盖各种攻击场景,通过在模型训练阶段增加安全围栏机制,以增强模型的泛化能力和鲁棒性 |
| 应用提示词增强 | 在构建初始提示词阶段,从内容与结构增面对提示词实施增强,以应对后续的攻击行为 |