跳转至

假定场景越狱

风险概览

风险编号:GAARM.0027.003
风险归属:GAARM.0027
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01

攻击概述

该风险是指攻击者通过精心设计对话场景,使模型在执行过程中偏离其正常行为,可以绕开大模型内部的安全对齐机制,从而执行非预期的操作。导致直接提示模型接受它通常不会的观点或泄露信息,从而规避旨在保持交互安全和负责任的保护措施,造成数据泄露、提示词泄露等安全问题。

攻击案例

案例一:利用假定场景越狱让模型输出盗窃车辆的方法

Dummy image

Scene Jailbreak
案例 描述
案例二 通过假定讲故事的场景,诱导模型输出关于两个人如何盗取一辆车的虚构故事进行越狱
案例三 攻击者通过构造一个关于Dr.AI的场景,诱导ChatGPT输入恶意信息

攻击风险

  • 数据泄露:攻击者可能通过越狱攻击获取模型背后的训练数据,尤其是敏感数据,如个人隐私信息、商业秘密等。
  • 模型操控:攻击者可以操纵模型的输出,例如在决策支持系统中,可能导致错误的决策或恶意决策。
  • 滥用服务:例如在付费的AI服务中,攻击者可能通过越狱攻击免费或以非正当方式使用服务。
  • 信任破坏:越狱攻击可能破坏用户对AI模型的信任,从而影响模型的广泛应用。
  • 系统破坏:在关键基础设施中,越狱攻击可能导致系统崩溃或功能异常,造成严重后果。

缓解措施

缓解方式 描述
强化模型训练 基于人类反馈强化学习等方式,针对模型进行更严格的强化训练,以识别和抵御潜在的越狱攻击,增强模型应对对抗攻击的鲁棒性
输入/输出验证 利用外部守卫对模型输入、输出的内容进行严格的审查与过滤,防止恶意提示词进入模型,以及模型输出非合规等内容信息
加强模型安全性 实施严格的访问控制措施,限制模型访问权限。确保只有授权人员能够访问模型,并监控其活动以及对模型的请求
安全监控与审计 监控模型的行为,以便快速检测和响应异常活动
定期模型安全评估与更新 定期这对模型开展安全评估工作,以快速发现并修复已知的漏洞和缺陷

参考