思维链操纵注入

风险概览

风险编号：GAARM.0042.002
风险归属：GAARM.0042
安全阶段：应用安全
生命周期：应用阶段
创建时间：2024.05.01
修改时间：2024.08.07

攻击概述¶

该风险是CoT注入攻击的子风险，攻击者通过观察CoT的调度过程，构造恶意输入，使模型跳过预置的CoT过程，直接调度敏感的Agent。例如，跳过预置的验证步骤，允许用户直接执行理应经过验证后才可执行的操作。

案例	描述
案例一	该案例展示了对CoT的直接操纵，通过构造输入的手段欺骗模型，让模型跳过了理应进行的验证步骤，不经审核地给用户退款了大额数目
案例二	攻击者利用结合多种攻击对抗手段，通过角色逃逸攻击绕过之前提示词规则后，使用CoT操纵注入成功调用approveTransfer函数完成转账操作

缓解方式	描述
严格权限管控	确保 LLM 只能访问基本内容，最大限度地减少潜在的违规点
加入人工监督	增加一层验证，作为防止意外 LLM 行为的保障
设定明确的信任边界	将 LLM 视为不受信任的，始终在决策中保持外部控制，并对可能不可信的 LLM 响应保持警惕。