模型越狱攻击
风险概览
风险编号:GAARM.0027
子风险:GAARM.0027.001、GAARM.0027.002、GAARM.0027.003、GAARM.0027.004、GAARM.0027.005、GAARM.0027.006
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述¶
“模型越狱攻击”(Model Jailbreaking Attack)是一种针对模型应用的常见攻击技术。这种攻击通常通过精心构造的输入(称为“越狱提示词”)来实现攻击,可以绕开大模型内部的安全对齐机制,进一步诱导模型输出训练数据、内部参数或者隐私数据等敏感信息。
攻击案例¶
具体见子风险攻击案例
攻击风险¶
- 数据泄露:攻击者可能通过越狱攻击获取模型背后的训练数据,尤其是敏感数据,如个人隐私信息、商业秘密等。
- 模型操控:攻击者可以操纵模型的输出,例如在决策支持系统中,可能导致错误的决策或恶意决策。
- 滥用服务:例如在付费的AI服务中,攻击者可能通过越狱攻击免费或以非正当方式使用服务。
- 信任破坏:越狱攻击可能破坏用户对AI模型的信任,从而影响模型的广泛应用。
- 系统破坏:在关键基础设施中,越狱攻击可能导致系统崩溃或功能异常,造成严重后果。
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 强化模型训练 | 基于人类反馈强化学习等方式,针对模型进行更严格的强化训练,以识别和抵御潜在的越狱攻击,增强模型应对对抗攻击的鲁棒性 |
| 输入/输出验证 | 利用外部守卫对模型输入、输出的内容进行严格的审查与过滤,防止恶意提示词进入模型,以及模型输出非合规等内容信息 |
| 加强模型安全性 | 实施严格的访问控制措施,限制模型访问权限。确保只有授权人员能够访问模型,并监控其活动以及对模型的请求 |
| 安全监控与审计 | 监控模型的行为,以便快速检测和响应异常活动 |
| 定期模型安全评估与更新 | 定期这对模型开展安全评估工作,以快速发现并修复已知的漏洞和缺陷 |