跳转至

不正确&恶意外部数据源

风险概览

风险编号:GAARM.0010
子风险:GAARM.0010.001
安全阶段:数据安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.08.12

攻击概述

在大语言模型(LLM)中,不正确或恶意的外部数据源会导致多种安全风险,这些风险可能对模型的表现和系统的安全性产生负面影响。如果 LLM 依赖于不正确或恶意的外部数据源,这些数据源可能提供错误或误导的信息。模型将基于这些数据生成响应,可能导致用户获取错误的信息或做出误导性的决策。

攻击案例

案例 描述
案例一 由于LLM具备分析外部数据的能力,例如分析文档,网页等,在这些外部数据源中引入对抗样本,可以诱导LLM输出毒性内容
案例二 这篇文章设计了名叫PoisonedRAG 的攻击方法,如果被攻击的模型对攻击者设计的目标问题,成功返回攻击者希望的目标答案,则视作攻击成功。研究中,将五篇中毒文本注入包含数百万个条目的外部数据库,其结果达到了 90% 的攻击成功率。本文体现了外部数据源被恶意篡改后带来的严重后果,导致LLM输出错误或误导性信息

攻击风险

  • 数据完整性受损:导致数据完整性受损、隐私泄露、安全漏洞和可信度受损等问题。
  • 外部数据源法律风险: 在推理过程中未经授权使用受版权保护的数据源可能导致法律诉讼和罚款。
  • 外部数据源合规风险: 未按照行业标准和法规使用数据可能导致合规性问题。
  • 外部数据源受损: 外部攻击者可能篡改数据源,导致输入到模型中的数据失真。
  • 误导性信息泄露:模型可能被攻击者恶意篡改,导致输出错误或误导性信息,影响决策和操作。

缓解措施

缓解方式 描述
审查数据源 在使用外部数据源之前,进行严格的验证和审查。确保所使用的数据源是可信的、准确的,并且不包含恶意代码或攻击载荷
输入监控和过滤 对LLMs的输入和输出进行实时监控,及时过滤掉不安全或不当内容
访问控制 限制模型对外部数据源的访问权限,确保仅有授权的用户或系统可以进行访问

参考