跳转至

意图破坏&目标操纵

风险概览

风险编号:GAARM.0063
子风险:无
安全阶段:模型安全
生命周期:应用阶段
创建时间:2025.12.10
修改时间:2025.12.10

攻击概述

意图破坏&目标操纵是一种针对智能体的高级攻击技术,攻击者通过精心构造的特定输入,破坏智能体的原始意图设定,并操纵其行为目标偏离预期功能。这种攻击的核心在于利用智能体在理解用户意图、设定执行目标和行为决策过程中的脆弱性,通过逐步引导、上下文操纵、目标劫持等手段,使智能体执行非预期的、有害的或服务攻击者目的的操作,可能导致系统滥用、数据泄露、服务破坏或完全的智能体行为控制。

攻击案例

案例 描述
案例一 2025 年,Operant AI 发现并披露了“暗影逃逸(Shadow Escape)”零点击漏洞利用链,该漏洞源于 MCP 智能体的信任边界设计缺陷,使攻击者能够在 ChatGPT、Google Gemini 等系统中实现工作流劫持,并在无感知状态下完成数据窃取。

攻击风险

  • 智能体行为偏离:Agent执行与预期目标完全不同的操作
  • 恶意服务执行:智能体成为攻击者执行恶意任务的工具
  • 数据安全威胁:被操纵的智能体可能泄露或破坏数据
  • 信任关系破坏:用户对智能体系统的信任严重受损
  • 业务连续性中断:智能体偏离业务目标导致服务中断
  • 级联安全影响:一个智能体被操纵可能影响整个系统

缓解措施

缓解方式 描述
意图验证机制 建立用户意图验证和确认机制,实施多轮对话意图确认,检测异常的意图变化
目标锁定保护 实施智能体目标锁定机制,建立目标变更的多重验证,限制目标的动态修改权限
行为边界控制 明确定义智能体行为边界,实施行为实时监控和检测,建立异常行为阻断机制
上下文安全分析 检测恶意上下文操纵尝试,分析对话中的潜在操纵意图,建立上下文安全基线

参考