思维链干扰注入

风险概览

风险编号：GAARM.0042.001
风险归属：GAARM.0042
安全阶段：应用安全
生命周期：应用阶段
创建时间：2024.05.01
修改时间：2024.08.07

攻击概述¶

该风险是CoT注入攻击的子风险，攻击者通过观察CoT的调度过程，构造恶意输入，以此欺骗模型认为其已经获取到了正确的agent结果，通过伪造agent结果进行对CoT的干扰。

案例	描述
案例一	该案例展示了对CoT的干扰，通过构造输入的手段欺骗模型，以达到非法的目的

缓解方式	描述
严格权限管控	确保 LLM 只能访问基本内容，最大限度地减少潜在的违规点
加入人工监督	增加一层验证，作为防止意外 LLM 行为的保障
设定明确的信任边界	将 LLM 视为不受信任的，始终在决策中保持外部控制，并对可能不可信的 LLM 响应保持警惕。