训练数据篡改
风险概览
风险编号:GAARM.0011.002
风险归属:GAARM.0011
安全阶段:数据安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.08.12
攻击概述¶
模型存在预训练数据篡改风险,这指的是在模型输入数据时缺乏可靠的验证,导致数据被恶意篡改或其中注入误导性信息,模型可能会学习到错误的模式或关联,从而影响其预测准确性和可靠性,甚至可能导致模型在实际应用中产生有害的输出。
攻击案例¶
| 案例 | 描述 |
|---|---|
| 案例一 | 由于检索模块错误地召回了与问题无关且具有误导性的信息,导致大模型“分心”了,通过添加检索到的段落给出的不正确的答案,令ChatGPT模型对“德牧能否进入机场”这一问题给出了与之前相反的错误答案 |
| 案例一 | 攻击者可以通过篡改训练数据,实现特定问题的错误回答,该模型由攻击者直接训练投递,因此训练阶段如果使用缺乏验证的预训练数据,会导致出现同样的安全风险 |
攻击风险¶
- 模型能力下降:通过篡改训练数据将导致模型输出准确性降低、误报或误报增加以及通常不可靠的输出。
- 毒性输出:导致模型产生误导性预测,进而导致错误的决策,影响人们的生活、财务状况和依赖人工智能的机构的声誉。
- 信任破坏:可能破坏用户对AI模型的信任,从而影响模型的广泛应用。
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 数据清洗 | 对训练数据进行验证和清理,删除不正确、不完整或不相关的数据 |
| 安全数据管道 | 设置安全数据管道,确保从收集到存储再到处理的整个数据管道是安全的 |