模拟对话攻击
风险概览
风险编号:GAARM.0054
子风险:无
安全阶段:身份安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.08
攻击概述¶
该风险是指攻击者通过要求模型扮演两个角色进行互动,将恶意目的隐蔽地分散在对话中,从而降低模型对恶意意图的检测能力,并使内容过滤规则难以识别出分散在不同语句中的恶意内容。总而言之,LLM可以被设计来模拟人类对话,诱骗个人泄露敏感信息或执行未经授权的操作。
攻击案例¶
案例一:让LLM在模拟对话的过程成输出毒害信息。
攻击风险¶
- 数据泄露:攻击者可能通过攻击获取模型背后的训练数据,尤其是敏感数据,如个人隐私信息、商业秘密等。
- 模型操控:攻击者可以操纵模型的输出,例如在决策支持系统中,可能导致错误的决策或恶意决策。
- 非合规内容输出:攻击者利用攻击方式对抗模型内外的安全防御机制,导致输出非合规内容。
- 信任破坏:可能破坏用户对AI模型的信任,从而影响模型的广泛应用。
- 系统破坏:在关键基础设施中,可能导致系统崩溃或功能异常,造成严重后果。
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 输入/输出验证 | 实施严格的输入验证机制,过滤和清理传入的提示词。包括检查和阻止任何包含潜在有害指令或可疑模式的输入 |
| 外部守卫模型 | 实施异常检测算法,识别异常的提示词模式,实时发现提示注入攻击尝试,并触发保护措施 |
| 模型安全对齐 | 提供多样化的训练数据,涵盖各种攻击场景,通过在模型训练阶段增加安全围栏机制,以增强模型的泛化能力和鲁棒性 |
| 应用提示词增强 | 在构建初始提示词阶段,从内容与结构增面对提示词实施增强,以应对后续的攻击行为 |