思维链操纵注入
风险概览
风险编号:GAARM.0042.002
风险归属:GAARM.0042
安全阶段:应用安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.07
攻击概述¶
该风险是CoT注入攻击的子风险,攻击者通过观察CoT的调度过程,构造恶意输入,使模型跳过预置的CoT过程,直接调度敏感的Agent。例如,跳过预置的验证步骤,允许用户直接执行理应经过验证后才可执行的操作。
攻击案例¶
| 案例 | 描述 |
|---|---|
| 案例一 | 该案例展示了对CoT的直接操纵,通过构造输入的手段欺骗模型,让模型跳过了理应进行的验证步骤,不经审核地给用户退款了大额数目 |
| 案例二 | 攻击者利用结合多种攻击对抗手段,通过角色逃逸攻击绕过之前提示词规则后,使用CoT操纵注入成功调用approveTransfer函数完成转账操作 |
攻击风险¶
- 操纵注入:通过构造恶意的输入,达到操控LLM的目的,进而实现违规的操作。
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 严格权限管控 | 确保 LLM 只能访问基本内容,最大限度地减少潜在的违规点 |
| 加入人工监督 | 增加一层验证,作为防止意外 LLM 行为的保障 |
| 设定明确的信任边界 | 将 LLM 视为不受信任的,始终在决策中保持外部控制,并对可能不可信的 LLM 响应保持警惕。 |