跳转至

元Prompt泄露

风险概览

风险编号:GAARM.0017
子风险:GAARM.0017.001、GAARM.0017.002、GAARM.0017.003
安全阶段:数据安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01

攻击概述

Prompt泄露是提示注入的一种具体攻击方式,攻击者的目标不是改变模型的行为,而是从 AI 模型的输出中提取其原始提示。通过巧妙地制作输入提示,攻击者的目的是诱使模型透露自己的指令。提示泄露的影响很大,因为它会暴露 AI 模型设计背后的指令和意图,可能会危及专有提示的机密性或允许未经授权复制模型的功能。 大模型提示词泄露指的是在人工智能模型的应用过程中,攻击者通过不当收集、使用或泄露提示词(即用户输入的指导AI生成回应的内容)进行攻击的安全问题。提示词可能包含了用户的私人信息、意图、偏好等敏感数据,因此泄露会造成隐私被侵犯等严重后果。

攻击案例

具体见子风险攻击案例

攻击风险

  • 隐私侵犯:提示词可能包含了用户的个人信息,如姓名、地址、电话号码等,一旦泄露,可能导致隐私权被侵犯。
  • 数据安全威胁:提示词可能揭示了用户的数据使用习惯、业务逻辑等,这可能被恶意利用,对数据安全构成威胁。
  • 模型安全风险:提示词泄露可能导致模型训练过程中引入恶意数据,影响模型的正常学习和预测,甚至被用于攻击其他系统。
  • 商业竞争损害:企业间的竞争秘密可能包含在提示词中,泄露后可能导致竞争对手获得不必要的优势。
  • 信任危机:用户对AI系统的信任可能因为提示词的泄露而受损,这会影响AI技术的接受度和使用率。
  • 法律责任:如果提示词涉及违法行为(如诽谤、侵权等),其泄露可能导致法律责任问题。

缓解措施

缓解方式 描述
输入/输出验证 实施严格的输入验证机制,过滤和清理传入的提示词。包括检查和阻止任何包含潜在有害指令或可疑模式的输入
外部守卫模型 实施异常检测算法,识别异常的提示词模式,实时发现提示注入攻击尝试,并触发保护措施
应用提示词增强 在构建初始提示词阶段,从内容与结构增面对提示词实施增强,以应对后续的攻击行为
模型安全对齐 提供多样化的训练数据,涵盖各种攻击场景,通过在模型训练阶段增加安全围栏机制,以增强模型的泛化能力和鲁棒性

参考