反向诱导&抑制攻击
风险概览
风险编号:GAARM.0045
子风险:无
安全阶段:应用安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述¶
该风险通过在提示词中加入特定的指令,使得LLMs在生成回答时避免使用某些特定的拒绝性响应,从而增加攻击者期望的不安全或不当内容的可能性。这种攻击利用自回归特性实现对模型的诱导,由于模型内容的生成是基于之前的输出来预测下一个单词,通过特别要求使LLMs在生成回答时不使用某些特定的词汇或短语,如“抱歉”、“不能”、“无法”等,导致模型生成不当或违反安全策略的内容。
攻击案例¶
| 案例 | 描述 |
|---|---|
| 案例一 | 利用前缀注入 + 反向抑制攻击实现对ChatGPT3.5的安全限制绕过,实现违法犯罪风险内容的输出 |
攻击风险¶
- 生成不当内容:LLMs可能生成包含违法指导、暴力、色情、政治敏感等风险内容。
- 规避安全机制:攻击者能够绕过LLMs的安全机制,导致模型输出攻击者期望的风险内容。
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 模型鲁棒性增强 | 通过训练和强化学习,提升LLM识别和抵御这类攻击的能力 |
| 输入监控和过滤 | 对LLMs的输出进行实时监控,及时过滤掉不安全或不当内容 |