应用智能体Agent利用
风险概览
风险编号:GAARM.0041
子风险:GAARM.0041.001、GAARM.0041.002
安全阶段:应用安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.06
攻击概述¶
LLMs应用API主要分为两类应用场景,因此应用API利用风险主要围绕下列两类应用场景展开:
-
LLMs应用平台基于API对外提供服务能力;
攻击者利用大模型(如OpenAI的GPT系列)的API接口中存在的API安全风险实施攻击过程,收集API接口的信息进行漏洞寻找,基于所发现的漏洞构造恶意API请求,企图绕过认证或者注入恶意代码。例如:以未授权的方式访问或执行更高权限的操作、利用对外提供服务的API接口漏洞执行恶意代码命令等。
-
LLMs Agent调度以及第三方应用集成基于API实现相关能力到模型的接入;
攻击者利用模型具有访问敏感信息或操作的API访问能力,基于API访问权限间接的通过构造恶意提示词,让模型执行危险的操作,例如访问敏感信息,篡改系统配置等。由于模型自身具备对API的操作与调用能力,有相应的访问权限,导致恶意操作可能会绕过正常的安全控制,发起实际的恶意攻击行为,该攻击可能导致越权、未授权访问他人信息等风险。
攻击案例¶
| 案例 | 描述 |
|---|---|
| 案例一 | 普通用户账号原本只能使用GPT-3.5模型,但通过特定的API地址,攻击者能够越权访问GPT-4模型 |
| 案例二 | 攻击者使用API直接在系统上执行命令,删除文件 |
| 案例三 | 构建多种LLMs API应用场景,基于LLMs利用恶意利用API功能实现命令执行、账户删除等攻击行为 |
| 案例四 | Stable Diffusion提供了API接口,允许开发者通过编程方式调用模型进行图像生成。攻击者利用这一点,构造了一些恶意的文本提示词,然后通过Stable Diffusion的API接口,让模型生成这些非法或极端主义的图像内容 |
攻击风险¶
- 数据泄露:攻击者可能获取敏感数据,如用户信息和密码。
- 服务中断:恶意操作可能导致服务中断,如删除用户记录或数据库条目。
- 信任下降:LLM生成的不准确或敏感信息可能破坏用户和组织的信任。
- 法律责任:由于LLM生成的不当内容,组织可能面临法律责任。
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| LLMs API 调度控制 | 限制 LLMs 可以访问的 API 和数据,以最大程度地减少被利用时的潜在危害 |
| 输入/输出验证 | 仔细清理用户输入,以防止恶意提示被注入到 LLM 中 |
| 监控与日志记录 | 记录所有通过LLM执行的操作,并进行实时监控,以便快速检测和响应可疑活动 |
| 人工干预审批 | 提供给用户更多的控制权,让他们能够管理插件的使用和数据的流向 |