跳转至

Prompt目标劫持

风险概览

风险编号:GAARM.0052.004
风险归属:GAARM.0052
安全阶段:身份安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.08

攻击概述

Prompt目标劫持是指通过特定的攻击手段,通过有意的操纵大模型应用,使其偏离原始的目标角色设定行为,导致大模型应用产生有害或不适当的内容,违背其预期的指令。例如,预先要求大模型接受自己的一切交易请求,然后提出不平等的交易请求,以此给攻击者带来利益,并损害了大模型所属公司的利益。Prompt目标劫持规避了对人工智能模型的安全保护措施,并欺骗这些模型在既定边界之外运行。

攻击案例

案例 描述
案例一 研究员通过Prompt目标劫持攻击,命令LLM无论用户接下来输入什么都输出赞同,使用1美元购买了一辆2024款雪佛兰Tahoe。
案例二 该案例通过Prompt注入劫持语言模型的输出,使ai输出自己想要的内容

攻击风险

  • 模型操控:攻击者可以操纵模型的输出,例如在决策支持系统中,可能导致错误的决策或恶意决策。
  • 信任破坏:越狱攻击可能破坏用户对AI模型的信任,从而影响模型的广泛应用。
  • 系统破坏:在关键基础设施中,越狱攻击可能导致系统崩溃或功能异常,造成严重后果。

缓解措施

缓解方式 描述
输入/输出验证 实施严格的输入验证机制,过滤和清理传入的提示词。包括检查和阻止任何包含潜在有害指令或可疑模式的输入
外部守卫模型 实施异常检测算法,识别异常的提示词模式,实时发现提示注入攻击尝试,并触发保护措施
模型安全对齐 提供多样化的训练数据,涵盖各种攻击场景,通过在模型训练阶段增加安全围栏机制,以增强模型的泛化能力和鲁棒性
应用提示词增强 在构建初始提示词阶段,从内容与结构增面对提示词实施增强,以应对后续的攻击行为

参考