跳转至

AISS绿盟大模型安全智链社区

Prompt目标劫持

Prompt目标劫持

风险概览

风险编号：GAARM.0052.004
风险归属：GAARM.0052
安全阶段：身份安全
生命周期：应用阶段
创建时间：2024.05.01
修改时间：2024.08.08

攻击概述¶

Prompt目标劫持是指通过特定的攻击手段，通过有意的操纵大模型应用，使其偏离原始的目标角色设定行为，导致大模型应用产生有害或不适当的内容，违背其预期的指令。例如，预先要求大模型接受自己的一切交易请求，然后提出不平等的交易请求，以此给攻击者带来利益，并损害了大模型所属公司的利益。Prompt目标劫持规避了对人工智能模型的安全保护措施，并欺骗这些模型在既定边界之外运行。

攻击案例¶

案例	描述
案例一	研究员通过Prompt目标劫持攻击，命令LLM无论用户接下来输入什么都输出赞同，使用1美元购买了一辆2024款雪佛兰Tahoe。
案例二	该案例通过Prompt注入劫持语言模型的输出，使ai输出自己想要的内容

攻击风险¶

模型操控：攻击者可以操纵模型的输出，例如在决策支持系统中，可能导致错误的决策或恶意决策。
信任破坏：越狱攻击可能破坏用户对AI模型的信任，从而影响模型的广泛应用。
系统破坏：在关键基础设施中，越狱攻击可能导致系统崩溃或功能异常，造成严重后果。

缓解措施¶

缓解方式	描述
输入/输出验证	实施严格的输入验证机制，过滤和清理传入的提示词。包括检查和阻止任何包含潜在有害指令或可疑模式的输入
外部守卫模型	实施异常检测算法，识别异常的提示词模式，实时发现提示注入攻击尝试，并触发保护措施
模型安全对齐	提供多样化的训练数据，涵盖各种攻击场景，通过在模型训练阶段增加安全围栏机制，以增强模型的泛化能力和鲁棒性
应用提示词增强	在构建初始提示词阶段，从内容与结构增面对提示词实施增强，以应对后续的攻击行为

参考¶