角色逃逸

风险概览

风险编号：GAARM.0052
子风险：GAARM.0052.001、GAARM.0052.002、GAARM.0052.003、GAARM.0052.004
安全阶段：身份安全
生命周期：应用阶段
创建时间：2024.05.01
修改时间：2024.08.08

攻击概述¶

角色逃逸是一种攻击手段，主要关于攻击者利用对模型的输入控制，通过特定指令使模型忽略既定的上下文和角色限制。这种攻击手段可能导致模型赋予新的角色或行为模式，从而篡改或滥用系统的原有功能。攻击者通过角色逃逸攻击，可以实现应用层面的模型防御机制对抗，实现原有业务应用角色功能的偏离，从而实现对应用接入Agent的滥用、元提示词泄露等攻击目的。这些风险不仅威胁到系统的安全性和可靠性，也可能导致用户信任度下降，甚至在安全敏感的应用场景中造成严重后果。

攻击案例¶

具体见子风险攻击案例

攻击风险¶

网络安全风险：在网络安全领域，大模型角色逃逸可能导致安全防御措施被绕过，如生成用于破解密码的暴力尝试、创建钓鱼网站或自动化执行网络攻击的脚本;

关键基础设施威胁：如果大模型被用于生成针对电力、交通、水利等关键基础设施的攻击策略，可能造成严重的社会危害，甚至威胁到人民的生命安全;

国防安全影响：在国防领域，AI模型的逃逸可能导致敏感信息被非法获取，或者用于生成针对军事设施和人员的定向攻击内容，严重时可能引发安全事故;

金融领域风险: 在金融行业，大模型角色逃逸可能被用于制作和传播虚假的金融市场信息，引发市场动荡，或者用于执行复杂的金融诈骗活动，导致巨大的经济损失。

缓解措施¶

缓解方式	描述
输入/输出验证	实施严格的输入验证机制，过滤和清理传入的提示词。包括检查和阻止任何包含潜在有害指令或可疑模式的输入
外部守卫模型	实施异常检测算法，识别异常的提示词模式，实时发现提示注入攻击尝试，并触发保护措施
模型安全对齐	提供多样化的训练数据，涵盖各种攻击场景，通过在模型训练阶段增加安全围栏机制，以增强模型的泛化能力和鲁棒性
应用提示词增强	在构建初始提示词阶段，从内容与结构增面对提示词实施增强，以应对后续的攻击行为

参考¶

https://www.knightcxx.cn/?p=118