应用智能体Agent利用

风险概览

风险编号：GAARM.0041
子风险：GAARM.0041.001、GAARM.0041.002
安全阶段：应用安全
生命周期：应用阶段
创建时间：2024.05.01
修改时间：2024.08.06

攻击概述¶

LLMs应用API主要分为两类应用场景，因此应用API利用风险主要围绕下列两类应用场景展开：

LLMs应用平台基于API对外提供服务能力；

攻击者利用大模型（如OpenAI的GPT系列）的API接口中存在的API安全风险实施攻击过程，收集API接口的信息进行漏洞寻找，基于所发现的漏洞构造恶意API请求，企图绕过认证或者注入恶意代码。例如：以未授权的方式访问或执行更高权限的操作、利用对外提供服务的API接口漏洞执行恶意代码命令等。
LLMs Agent调度以及第三方应用集成基于API实现相关能力到模型的接入；

攻击者利用模型具有访问敏感信息或操作的API访问能力，基于API访问权限间接的通过构造恶意提示词，让模型执行危险的操作，例如访问敏感信息，篡改系统配置等。由于模型自身具备对API的操作与调用能力，有相应的访问权限，导致恶意操作可能会绕过正常的安全控制，发起实际的恶意攻击行为，该攻击可能导致越权、未授权访问他人信息等风险。

案例	描述
案例一	普通用户账号原本只能使用GPT-3.5模型，但通过特定的API地址，攻击者能够越权访问GPT-4模型
案例二	攻击者使用API直接在系统上执行命令，删除文件
案例三	构建多种LLMs API应用场景，基于LLMs利用恶意利用API功能实现命令执行、账户删除等攻击行为
案例四	Stable Diffusion提供了API接口，允许开发者通过编程方式调用模型进行图像生成。攻击者利用这一点，构造了一些恶意的文本提示词，然后通过Stable Diffusion的API接口,让模型生成这些非法或极端主义的图像内容

缓解方式	描述
LLMs API 调度控制	限制 LLMs 可以访问的 API 和数据，以最大程度地减少被利用时的潜在危害
输入/输出验证	仔细清理用户输入，以防止恶意提示被注入到 LLM 中
监控与日志记录	记录所有通过LLM执行的操作，并进行实时监控，以便快速检测和响应可疑活动
人工干预审批	提供给用户更多的控制权，让他们能够管理插件的使用和数据的流向