跳转至

思维链干扰注入

风险概览

风险编号:GAARM.0042.001
风险归属:GAARM.0042
安全阶段:应用安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.07

攻击概述

该风险是CoT注入攻击的子风险,攻击者通过观察CoT的调度过程,构造恶意输入,以此欺骗模型认为其已经获取到了正确的agent结果,通过伪造agent结果进行对CoT的干扰。

攻击案例

案例 描述
案例一 该案例展示了对CoT的干扰,通过构造输入的手段欺骗模型,以达到非法的目的

攻击风险

  • 干扰注入:通过构造恶意的输入,达到干扰LLM的目的,进而实现违规的操作。

缓解措施

缓解方式 描述
严格权限管控 确保 LLM 只能访问基本内容,最大限度地减少潜在的违规点
加入人工监督 增加一层验证,作为防止意外 LLM 行为的保障
设定明确的信任边界 将 LLM 视为不受信任的,始终在决策中保持外部控制,并对可能不可信的 LLM 响应保持警惕。

参考