思维链干扰注入
风险概览
风险编号:GAARM.0042.001
风险归属:GAARM.0042
安全阶段:应用安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.07
攻击概述¶
该风险是CoT注入攻击的子风险,攻击者通过观察CoT的调度过程,构造恶意输入,以此欺骗模型认为其已经获取到了正确的agent结果,通过伪造agent结果进行对CoT的干扰。
攻击案例¶
| 案例 | 描述 |
|---|---|
| 案例一 | 该案例展示了对CoT的干扰,通过构造输入的手段欺骗模型,以达到非法的目的 |
攻击风险¶
- 干扰注入:通过构造恶意的输入,达到干扰LLM的目的,进而实现违规的操作。
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 严格权限管控 | 确保 LLM 只能访问基本内容,最大限度地减少潜在的违规点 |
| 加入人工监督 | 增加一层验证,作为防止意外 LLM 行为的保障 |
| 设定明确的信任边界 | 将 LLM 视为不受信任的,始终在决策中保持外部控制,并对可能不可信的 LLM 响应保持警惕。 |