跳转至

思维链操纵注入

风险概览

风险编号:GAARM.0042.002
风险归属:GAARM.0042
安全阶段:应用安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.07

攻击概述

该风险是CoT注入攻击的子风险,攻击者通过观察CoT的调度过程,构造恶意输入,使模型跳过预置的CoT过程,直接调度敏感的Agent。例如,跳过预置的验证步骤,允许用户直接执行理应经过验证后才可执行的操作。

攻击案例

案例 描述
案例一 该案例展示了对CoT的直接操纵,通过构造输入的手段欺骗模型,让模型跳过了理应进行的验证步骤,不经审核地给用户退款了大额数目
案例二 攻击者利用结合多种攻击对抗手段,通过角色逃逸攻击绕过之前提示词规则后,使用CoT操纵注入成功调用approveTransfer函数完成转账操作

攻击风险

  • 操纵注入:通过构造恶意的输入,达到操控LLM的目的,进而实现违规的操作。

缓解措施

缓解方式 描述
严格权限管控 确保 LLM 只能访问基本内容,最大限度地减少潜在的违规点
加入人工监督 增加一层验证,作为防止意外 LLM 行为的保障
设定明确的信任边界 将 LLM 视为不受信任的,始终在决策中保持外部控制,并对可能不可信的 LLM 响应保持警惕。

参考