跳转至

训练数据篡改

风险概览

风险编号:GAARM.0011.002
风险归属:GAARM.0011
安全阶段:数据安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.08.12

攻击概述

模型存在预训练数据篡改风险,这指的是在模型输入数据时缺乏可靠的验证,导致数据被恶意篡改或其中注入误导性信息,模型可能会学习到错误的模式或关联,从而影响其预测准确性和可靠性,甚至可能导致模型在实际应用中产生有害的输出。

攻击案例

案例 描述
案例一 由于检索模块错误地召回了与问题无关且具有误导性的信息,导致大模型“分心”了,通过添加检索到的段落给出的不正确的答案,令ChatGPT模型对“德牧能否进入机场”这一问题给出了与之前相反的错误答案
案例一 攻击者可以通过篡改训练数据,实现特定问题的错误回答,该模型由攻击者直接训练投递,因此训练阶段如果使用缺乏验证的预训练数据,会导致出现同样的安全风险

攻击风险

  • 模型能力下降:通过篡改训练数据将导致模型输出准确性降低、误报或误报增加以及通常不可靠的输出。
  • 毒性输出:导致模型产生误导性预测,进而导致错误的决策,影响人们的生活、财务状况和依赖人工智能的机构的声誉。
  • 信任破坏:可能破坏用户对AI模型的信任,从而影响模型的广泛应用。

缓解措施

缓解方式 描述
数据清洗 对训练数据进行验证和清理,删除不正确、不完整或不相关的数据
安全数据管道 设置安全数据管道,确保从收集到存储再到处理的整个数据管道是安全的

参考