向量数据库未授权访问
风险概览
风险编号:GAARM.0050
子风险:无
安全阶段:身份安全
生命周期:部署阶段
创建时间:2024.05.01
修改时间:2024.08.08
攻击概述¶
RAG应用开发过程中,会将本地各类文档数据可以通过 Text 类划分为长度更短的段落,并利用 embedding 模型将文本内容进行向量化,最终存入向量数据库。攻击者通过未授权访问数据库,进而篡改和破坏模型,进一步影响 RAG 系统进行不准确或恶意检索,可能会导致 RAG 系统的输出内容也受到影响,以及间接提示词注入的风险。
攻击案例¶
| 案例 | 描述 |
|---|---|
| 案例一 | anything-llm存在CVE-2024-0551漏洞,未授权的攻击者可以通过漏洞下载数据库中的文件 |
| 案例二 | 本研究提出了针对 RAG 增强 LLMs 的新攻击方式,通过向其知识数据库中注入单个恶意文档来危害受害者的 RAG 系统,从而引发多种针对生成模型的恶意攻击。 |
攻击风险¶
- 向量数据库损坏:未经授权的更改可能会损坏知识源,导致 RAG 系统进行不准确或恶意检索。
- 信息泄露:存储在向量数据库中的敏感信息出现泄露。
- 间接提示词注入风险:针对向量数据库可用性的攻击,可能会影响依赖它们的 RAG 系统。
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 数据加密 | 对存储所有索引和嵌入数据的向量数据库进行加密,保护数据免受潜在的泄露或未经授权的访问 |
| 身份认证和访问控制 | 使用强大的用户身份验证和授权机制,确保只有经过授权的人员才能访问数据库 |
| 备份和冗余存储 | 定期备份可确保在发生数据损坏或丢失时可以恢复知识源 |
| 安全更新与审计 | 定期更新和审计相关向量数据库系统,以修复漏洞并增强安全性 |
参考¶
- https://medium.com/@nitishjoshi060291/llm-hallucinations-fix-it-with-vector-database-de04eee531da
- https://cloudsecurityalliance.org/blog/2023/11/22/mitigating-security-risks-in-retrieval-augmented-generation-rag-llm-applications
- https://www.cnblogs.com/LittleHann/p/17440063.html#_label3
- https://dongnian.icu/llms/llms_article/9.%E6%A3%80%E7%B4%A2%E5%A2%9E%E5%BC%BALLM/index.html
- https://cloudsecurityalliance.org/blog/2023/11/22/mitigating-security-risks-in-retrieval-augmented-generation-rag-llm-applications