跳转至

反向诱导&抑制攻击

风险概览

风险编号:GAARM.0045
子风险:无
安全阶段:应用安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01

攻击概述

该风险通过在提示词中加入特定的指令,使得LLMs在生成回答时避免使用某些特定的拒绝性响应,从而增加攻击者期望的不安全或不当内容的可能性。这种攻击利用自回归特性实现对模型的诱导,由于模型内容的生成是基于之前的输出来预测下一个单词,通过特别要求使LLMs在生成回答时不使用某些特定的词汇或短语,如“抱歉”、“不能”、“无法”等,导致模型生成不当或违反安全策略的内容。

攻击案例

案例 描述
案例一 利用前缀注入 + 反向抑制攻击实现对ChatGPT3.5的安全限制绕过,实现违法犯罪风险内容的输出

攻击风险

  • 生成不当内容:LLMs可能生成包含违法指导、暴力、色情、政治敏感等风险内容。
  • 规避安全机制:攻击者能够绕过LLMs的安全机制,导致模型输出攻击者期望的风险内容。

缓解措施

缓解方式 描述
模型鲁棒性增强 通过训练和强化学习,提升LLM识别和抵御这类攻击的能力
输入监控和过滤 对LLMs的输出进行实时监控,及时过滤掉不安全或不当内容

参考