假定场景越狱
风险概览
风险编号:GAARM.0027.003
风险归属:GAARM.0027
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述¶
该风险是指攻击者通过精心设计对话场景,使模型在执行过程中偏离其正常行为,可以绕开大模型内部的安全对齐机制,从而执行非预期的操作。导致直接提示模型接受它通常不会的观点或泄露信息,从而规避旨在保持交互安全和负责任的保护措施,造成数据泄露、提示词泄露等安全问题。
攻击案例¶
案例一:利用假定场景越狱让模型输出盗窃车辆的方法
| 案例 | 描述 |
|---|---|
| 案例二 | 通过假定讲故事的场景,诱导模型输出关于两个人如何盗取一辆车的虚构故事进行越狱 |
| 案例三 | 攻击者通过构造一个关于Dr.AI的场景,诱导ChatGPT输入恶意信息 |
攻击风险¶
- 数据泄露:攻击者可能通过越狱攻击获取模型背后的训练数据,尤其是敏感数据,如个人隐私信息、商业秘密等。
- 模型操控:攻击者可以操纵模型的输出,例如在决策支持系统中,可能导致错误的决策或恶意决策。
- 滥用服务:例如在付费的AI服务中,攻击者可能通过越狱攻击免费或以非正当方式使用服务。
- 信任破坏:越狱攻击可能破坏用户对AI模型的信任,从而影响模型的广泛应用。
- 系统破坏:在关键基础设施中,越狱攻击可能导致系统崩溃或功能异常,造成严重后果。
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 强化模型训练 | 基于人类反馈强化学习等方式,针对模型进行更严格的强化训练,以识别和抵御潜在的越狱攻击,增强模型应对对抗攻击的鲁棒性 |
| 输入/输出验证 | 利用外部守卫对模型输入、输出的内容进行严格的审查与过滤,防止恶意提示词进入模型,以及模型输出非合规等内容信息 |
| 加强模型安全性 | 实施严格的访问控制措施,限制模型访问权限。确保只有授权人员能够访问模型,并监控其活动以及对模型的请求 |
| 安全监控与审计 | 监控模型的行为,以便快速检测和响应异常活动 |
| 定期模型安全评估与更新 | 定期这对模型开展安全评估工作,以快速发现并修复已知的漏洞和缺陷 |