训练数据投毒
风险概览
风险编号:GAARM.0011
子风险:GAARM.0011.001、GAARM.0011.002、GAARM.0011.003
安全阶段:数据安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.08.12
攻击概述¶
训练数据投毒是指在机器学习模型的预训练、微调或嵌入过程中,所使用的数据存在安全隐患,由于缺少数据内容审查、数据清洗、数据来源审查等安全防护手段,导致训练的模型中含有漏洞、后门或偏见等风险。这将损害模型的安全性、有效性或道德行为,导致模型在实际应用时产生不公平或者歧视的结果,带来不准确的预测结果。
攻击案例¶
| 案例 | 描述 |
|---|---|
| 案例一 | 该案例介绍通过访问用于训练特定数据的特殊服务来使训练数据中毒,并且真的使用毒性数据进行模型训练 |
攻击风险¶
- 毒性输出:攻击者可能操纵训练数据以引入偏见,导致模型在预测时产生不公平或歧视性的结果。
- 模型能力下降: 恶意操纵的训练数据可能导致模型性能下降,使其在实际应用中产生不准确或低效的预测结果。
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 可信数据来源 | 确保训练数据的完整性,通过从可信的来源获取数据并验证其质量 |
| 数据清洗 | 实施强大的数据清洗和预处理技术,以从训练数据中删除潜在的漏洞或偏见 |
| 定期审查 | 定期审查和审核LLM的训练数据和微调程序,以检测潜在的问题或恶意操纵 |
| 建立监控和警报机制 | 利用监控和警报机制来检测LLM中的异常行为或性能问题,可能表明存在训练数据投毒的情况 |