跳转至

应用智能体Agent利用

风险概览

风险编号:GAARM.0041
子风险:GAARM.0041.001、GAARM.0041.002
安全阶段:应用安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.06

攻击概述

LLMs应用API主要分为两类应用场景,因此应用API利用风险主要围绕下列两类应用场景展开:

  1. LLMs应用平台基于API对外提供服务能力;

    攻击者利用大模型(如OpenAI的GPT系列)的API接口中存在的API安全风险实施攻击过程,收集API接口的信息进行漏洞寻找,基于所发现的漏洞构造恶意API请求,企图绕过认证或者注入恶意代码。例如:以未授权的方式访问或执行更高权限的操作、利用对外提供服务的API接口漏洞执行恶意代码命令等。

  2. LLMs Agent调度以及第三方应用集成基于API实现相关能力到模型的接入;

    攻击者利用模型具有访问敏感信息或操作的API访问能力,基于API访问权限间接的通过构造恶意提示词,让模型执行危险的操作,例如访问敏感信息,篡改系统配置等。由于模型自身具备对API的操作与调用能力,有相应的访问权限,导致恶意操作可能会绕过正常的安全控制,发起实际的恶意攻击行为,该攻击可能导致越权、未授权访问他人信息等风险。

攻击案例

案例 描述
案例一 普通用户账号原本只能使用GPT-3.5模型,但通过特定的API地址,攻击者能够越权访问GPT-4模型
案例二 攻击者使用API直接在系统上执行命令,删除文件
案例三 构建多种LLMs API应用场景,基于LLMs利用恶意利用API功能实现命令执行、账户删除等攻击行为
案例四 Stable Diffusion提供了API接口,允许开发者通过编程方式调用模型进行图像生成。攻击者利用这一点,构造了一些恶意的文本提示词,然后通过Stable Diffusion的API接口,让模型生成这些非法或极端主义的图像内容

攻击风险

  • 数据泄露:攻击者可能获取敏感数据,如用户信息和密码。
  • 服务中断:恶意操作可能导致服务中断,如删除用户记录或数据库条目。
  • 信任下降:LLM生成的不准确或敏感信息可能破坏用户和组织的信任。
  • 法律责任:由于LLM生成的不当内容,组织可能面临法律责任。

缓解措施

缓解方式 描述
LLMs API 调度控制 限制 LLMs 可以访问的 API 和数据,以最大程度地减少被利用时的潜在危害
输入/输出验证 仔细清理用户输入,以防止恶意提示被注入到 LLM 中
监控与日志记录 记录所有通过LLM执行的操作,并进行实时监控,以便快速检测和响应可疑活动
人工干预审批 提供给用户更多的控制权,让他们能够管理插件的使用和数据的流向

参考