Prompt目标劫持
风险概览
风险编号:GAARM.0052.004
风险归属:GAARM.0052
安全阶段:身份安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.08
攻击概述¶
Prompt目标劫持是指通过特定的攻击手段,通过有意的操纵大模型应用,使其偏离原始的目标角色设定行为,导致大模型应用产生有害或不适当的内容,违背其预期的指令。例如,预先要求大模型接受自己的一切交易请求,然后提出不平等的交易请求,以此给攻击者带来利益,并损害了大模型所属公司的利益。Prompt目标劫持规避了对人工智能模型的安全保护措施,并欺骗这些模型在既定边界之外运行。
攻击案例¶
| 案例 | 描述 |
|---|---|
| 案例一 | 研究员通过Prompt目标劫持攻击,命令LLM无论用户接下来输入什么都输出赞同,使用1美元购买了一辆2024款雪佛兰Tahoe。 |
| 案例二 | 该案例通过Prompt注入劫持语言模型的输出,使ai输出自己想要的内容 |
攻击风险¶
- 模型操控:攻击者可以操纵模型的输出,例如在决策支持系统中,可能导致错误的决策或恶意决策。
- 信任破坏:越狱攻击可能破坏用户对AI模型的信任,从而影响模型的广泛应用。
- 系统破坏:在关键基础设施中,越狱攻击可能导致系统崩溃或功能异常,造成严重后果。
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 输入/输出验证 | 实施严格的输入验证机制,过滤和清理传入的提示词。包括检查和阻止任何包含潜在有害指令或可疑模式的输入 |
| 外部守卫模型 | 实施异常检测算法,识别异常的提示词模式,实时发现提示注入攻击尝试,并触发保护措施 |
| 模型安全对齐 | 提供多样化的训练数据,涵盖各种攻击场景,通过在模型训练阶段增加安全围栏机制,以增强模型的泛化能力和鲁棒性 |
| 应用提示词增强 | 在构建初始提示词阶段,从内容与结构增面对提示词实施增强,以应对后续的攻击行为 |