跳转至

AISS绿盟大模型安全智链社区

元Prompt泄露

元Prompt泄露

风险概览

风险编号：GAARM.0017
子风险：GAARM.0017.001、GAARM.0017.002、GAARM.0017.003
安全阶段：数据安全
生命周期：应用阶段
创建时间：2024.05.01
修改时间：2024.05.01

攻击概述¶

Prompt泄露是提示注入的一种具体攻击方式，攻击者的目标不是改变模型的行为，而是从 AI 模型的输出中提取其原始提示。通过巧妙地制作输入提示，攻击者的目的是诱使模型透露自己的指令。提示泄露的影响很大，因为它会暴露 AI 模型设计背后的指令和意图，可能会危及专有提示的机密性或允许未经授权复制模型的功能。大模型提示词泄露指的是在人工智能模型的应用过程中，攻击者通过不当收集、使用或泄露提示词（即用户输入的指导AI生成回应的内容）进行攻击的安全问题。提示词可能包含了用户的私人信息、意图、偏好等敏感数据，因此泄露会造成隐私被侵犯等严重后果。

攻击案例¶

具体见子风险攻击案例

攻击风险¶

隐私侵犯：提示词可能包含了用户的个人信息，如姓名、地址、电话号码等，一旦泄露，可能导致隐私权被侵犯。
数据安全威胁：提示词可能揭示了用户的数据使用习惯、业务逻辑等，这可能被恶意利用，对数据安全构成威胁。
模型安全风险：提示词泄露可能导致模型训练过程中引入恶意数据，影响模型的正常学习和预测，甚至被用于攻击其他系统。
商业竞争损害：企业间的竞争秘密可能包含在提示词中，泄露后可能导致竞争对手获得不必要的优势。
信任危机：用户对AI系统的信任可能因为提示词的泄露而受损，这会影响AI技术的接受度和使用率。
法律责任：如果提示词涉及违法行为（如诽谤、侵权等），其泄露可能导致法律责任问题。

缓解措施¶

缓解方式	描述
输入/输出验证	实施严格的输入验证机制，过滤和清理传入的提示词。包括检查和阻止任何包含潜在有害指令或可疑模式的输入
外部守卫模型	实施异常检测算法，识别异常的提示词模式，实时发现提示注入攻击尝试，并触发保护措施
应用提示词增强	在构建初始提示词阶段，从内容与结构增面对提示词实施增强，以应对后续的攻击行为
模型安全对齐	提供多样化的训练数据，涵盖各种攻击场景，通过在模型训练阶段增加安全围栏机制，以增强模型的泛化能力和鲁棒性

参考¶