元Prompt泄露
风险概览
风险编号:GAARM.0017
子风险:GAARM.0017.001、GAARM.0017.002、GAARM.0017.003
安全阶段:数据安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述¶
Prompt泄露是提示注入的一种具体攻击方式,攻击者的目标不是改变模型的行为,而是从 AI 模型的输出中提取其原始提示。通过巧妙地制作输入提示,攻击者的目的是诱使模型透露自己的指令。提示泄露的影响很大,因为它会暴露 AI 模型设计背后的指令和意图,可能会危及专有提示的机密性或允许未经授权复制模型的功能。 大模型提示词泄露指的是在人工智能模型的应用过程中,攻击者通过不当收集、使用或泄露提示词(即用户输入的指导AI生成回应的内容)进行攻击的安全问题。提示词可能包含了用户的私人信息、意图、偏好等敏感数据,因此泄露会造成隐私被侵犯等严重后果。
攻击案例¶
具体见子风险攻击案例
攻击风险¶
- 隐私侵犯:提示词可能包含了用户的个人信息,如姓名、地址、电话号码等,一旦泄露,可能导致隐私权被侵犯。
- 数据安全威胁:提示词可能揭示了用户的数据使用习惯、业务逻辑等,这可能被恶意利用,对数据安全构成威胁。
- 模型安全风险:提示词泄露可能导致模型训练过程中引入恶意数据,影响模型的正常学习和预测,甚至被用于攻击其他系统。
- 商业竞争损害:企业间的竞争秘密可能包含在提示词中,泄露后可能导致竞争对手获得不必要的优势。
- 信任危机:用户对AI系统的信任可能因为提示词的泄露而受损,这会影响AI技术的接受度和使用率。
- 法律责任:如果提示词涉及违法行为(如诽谤、侵权等),其泄露可能导致法律责任问题。
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 输入/输出验证 | 实施严格的输入验证机制,过滤和清理传入的提示词。包括检查和阻止任何包含潜在有害指令或可疑模式的输入 |
| 外部守卫模型 | 实施异常检测算法,识别异常的提示词模式,实时发现提示注入攻击尝试,并触发保护措施 |
| 应用提示词增强 | 在构建初始提示词阶段,从内容与结构增面对提示词实施增强,以应对后续的攻击行为 |
| 模型安全对齐 | 提供多样化的训练数据,涵盖各种攻击场景,通过在模型训练阶段增加安全围栏机制,以增强模型的泛化能力和鲁棒性 |