跳转至

AISS绿盟大模型安全智链社区

意图破坏&目标操纵

意图破坏&目标操纵

风险概览

风险编号：GAARM.0063
子风险：无
安全阶段：模型安全
生命周期：应用阶段
创建时间：2025.12.10
修改时间：2025.12.10

攻击概述¶

意图破坏&目标操纵是一种针对智能体的高级攻击技术，攻击者通过精心构造的特定输入，破坏智能体的原始意图设定，并操纵其行为目标偏离预期功能。这种攻击的核心在于利用智能体在理解用户意图、设定执行目标和行为决策过程中的脆弱性，通过逐步引导、上下文操纵、目标劫持等手段，使智能体执行非预期的、有害的或服务攻击者目的的操作，可能导致系统滥用、数据泄露、服务破坏或完全的智能体行为控制。

攻击案例¶

案例	描述
案例一	2025 年，Operant AI 发现并披露了“暗影逃逸（Shadow Escape）”零点击漏洞利用链，该漏洞源于 MCP 智能体的信任边界设计缺陷，使攻击者能够在 ChatGPT、Google Gemini 等系统中实现工作流劫持，并在无感知状态下完成数据窃取。

攻击风险¶

智能体行为偏离：Agent执行与预期目标完全不同的操作
恶意服务执行：智能体成为攻击者执行恶意任务的工具
数据安全威胁：被操纵的智能体可能泄露或破坏数据
信任关系破坏：用户对智能体系统的信任严重受损
业务连续性中断：智能体偏离业务目标导致服务中断
级联安全影响：一个智能体被操纵可能影响整个系统

缓解措施¶

缓解方式	描述
意图验证机制	建立用户意图验证和确认机制，实施多轮对话意图确认，检测异常的意图变化
目标锁定保护	实施智能体目标锁定机制，建立目标变更的多重验证，限制目标的动态修改权限
行为边界控制	明确定义智能体行为边界，实施行为实时监控和检测，建立异常行为阻断机制
上下文安全分析	检测恶意上下文操纵尝试，分析对话中的潜在操纵意图，建立上下文安全基线

参考¶