训练数据篡改

风险概览

风险编号：GAARM.0011.002
风险归属：GAARM.0011
安全阶段：数据安全
生命周期：训练阶段
创建时间：2024.05.01
修改时间：2024.08.12

攻击概述¶

模型存在预训练数据篡改风险，这指的是在模型输入数据时缺乏可靠的验证，导致数据被恶意篡改或其中注入误导性信息，模型可能会学习到错误的模式或关联，从而影响其预测准确性和可靠性，甚至可能导致模型在实际应用中产生有害的输出。

案例	描述
案例一	由于检索模块错误地召回了与问题无关且具有误导性的信息，导致大模型“分心”了，通过添加检索到的段落给出的不正确的答案，令ChatGPT模型对“德牧能否进入机场”这一问题给出了与之前相反的错误答案
案例一	攻击者可以通过篡改训练数据，实现特定问题的错误回答，该模型由攻击者直接训练投递，因此训练阶段如果使用缺乏验证的预训练数据，会导致出现同样的安全风险

缓解方式	描述
数据清洗	对训练数据进行验证和清理，删除不正确、不完整或不相关的数据
安全数据管道	设置安全数据管道，确保从收集到存储再到处理的整个数据管道是安全的