跳转至

角色逃逸

风险概览

风险编号:GAARM.0052
子风险:GAARM.0052.001、GAARM.0052.002、GAARM.0052.003、GAARM.0052.004
安全阶段:身份安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.08

攻击概述

角色逃逸是一种攻击手段,主要关于攻击者利用对模型的输入控制,通过特定指令使模型忽略既定的上下文和角色限制。这种攻击手段可能导致模型赋予新的角色或行为模式,从而篡改或滥用系统的原有功能。攻击者通过角色逃逸攻击,可以实现应用层面的模型防御机制对抗,实现原有业务应用角色功能的偏离,从而实现对应用接入Agent的滥用、元提示词泄露等攻击目的。这些风险不仅威胁到系统的安全性和可靠性,也可能导致用户信任度下降,甚至在安全敏感的应用场景中造成严重后果。

攻击案例

具体见子风险攻击案例

攻击风险

网络安全风险:在网络安全领域,大模型角色逃逸可能导致安全防御措施被绕过,如生成用于破解密码的暴力尝试、创建钓鱼网站或自动化执行网络攻击的脚本;

关键基础设施威胁:如果大模型被用于生成针对电力、交通、水利等关键基础设施的攻击策略,可能造成严重的社会危害,甚至威胁到人民的生命安全;

国防安全影响:在国防领域,AI模型的逃逸可能导致敏感信息被非法获取,或者用于生成针对军事设施和人员的定向攻击内容,严重时可能引发安全事故;

金融领域风险: 在金融行业,大模型角色逃逸可能被用于制作和传播虚假的金融市场信息,引发市场动荡,或者用于执行复杂的金融诈骗活动,导致巨大的经济损失。

缓解措施

缓解方式 描述
输入/输出验证 实施严格的输入验证机制,过滤和清理传入的提示词。包括检查和阻止任何包含潜在有害指令或可疑模式的输入
外部守卫模型 实施异常检测算法,识别异常的提示词模式,实时发现提示注入攻击尝试,并触发保护措施
模型安全对齐 提供多样化的训练数据,涵盖各种攻击场景,通过在模型训练阶段增加安全围栏机制,以增强模型的泛化能力和鲁棒性
应用提示词增强 在构建初始提示词阶段,从内容与结构增面对提示词实施增强,以应对后续的攻击行为

参考