假定场景越狱

风险概览

风险编号：GAARM.0027.003
风险归属：GAARM.0027
安全阶段：模型安全
生命周期：应用阶段
创建时间：2024.05.01
修改时间：2024.05.01

攻击概述¶

该风险是指攻击者通过精心设计对话场景，使模型在执行过程中偏离其正常行为，可以绕开大模型内部的安全对齐机制，从而执行非预期的操作。导致直接提示模型接受它通常不会的观点或泄露信息，从而规避旨在保持交互安全和负责任的保护措施，造成数据泄露、提示词泄露等安全问题。

案例一：利用假定场景越狱让模型输出盗窃车辆的方法

案例	描述
案例二	通过假定讲故事的场景，诱导模型输出关于两个人如何盗取一辆车的虚构故事进行越狱
案例三	攻击者通过构造一个关于Dr.AI的场景，诱导ChatGPT输入恶意信息

缓解方式	描述
强化模型训练	基于人类反馈强化学习等方式，针对模型进行更严格的强化训练，以识别和抵御潜在的越狱攻击，增强模型应对对抗攻击的鲁棒性
输入/输出验证	利用外部守卫对模型输入、输出的内容进行严格的审查与过滤，防止恶意提示词进入模型，以及模型输出非合规等内容信息
加强模型安全性	实施严格的访问控制措施，限制模型访问权限。确保只有授权人员能够访问模型，并监控其活动以及对模型的请求
安全监控与审计	监控模型的行为，以便快速检测和响应异常活动
定期模型安全评估与更新	定期这对模型开展安全评估工作，以快速发现并修复已知的漏洞和缺陷