意图破坏&目标操纵
风险概览
风险编号:GAARM.0063
子风险:无
安全阶段:模型安全
生命周期:应用阶段
创建时间:2025.12.10
修改时间:2025.12.10
攻击概述¶
意图破坏&目标操纵是一种针对智能体的高级攻击技术,攻击者通过精心构造的特定输入,破坏智能体的原始意图设定,并操纵其行为目标偏离预期功能。这种攻击的核心在于利用智能体在理解用户意图、设定执行目标和行为决策过程中的脆弱性,通过逐步引导、上下文操纵、目标劫持等手段,使智能体执行非预期的、有害的或服务攻击者目的的操作,可能导致系统滥用、数据泄露、服务破坏或完全的智能体行为控制。
攻击案例¶
| 案例 | 描述 |
|---|---|
| 案例一 | 2025 年,Operant AI 发现并披露了“暗影逃逸(Shadow Escape)”零点击漏洞利用链,该漏洞源于 MCP 智能体的信任边界设计缺陷,使攻击者能够在 ChatGPT、Google Gemini 等系统中实现工作流劫持,并在无感知状态下完成数据窃取。 |
攻击风险¶
- 智能体行为偏离:Agent执行与预期目标完全不同的操作
- 恶意服务执行:智能体成为攻击者执行恶意任务的工具
- 数据安全威胁:被操纵的智能体可能泄露或破坏数据
- 信任关系破坏:用户对智能体系统的信任严重受损
- 业务连续性中断:智能体偏离业务目标导致服务中断
- 级联安全影响:一个智能体被操纵可能影响整个系统
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 意图验证机制 | 建立用户意图验证和确认机制,实施多轮对话意图确认,检测异常的意图变化 |
| 目标锁定保护 | 实施智能体目标锁定机制,建立目标变更的多重验证,限制目标的动态修改权限 |
| 行为边界控制 | 明确定义智能体行为边界,实施行为实时监控和检测,建立异常行为阻断机制 |
| 上下文安全分析 | 检测恶意上下文操纵尝试,分析对话中的潜在操纵意图,建立上下文安全基线 |