对话语料投毒
风险概览
风险编号:GAARM.0011.001
风险归属:GAARM.0011
安全阶段:数据安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.08.12
攻击概述¶
模型支持用户使用自己的数据开展微调工作,对话语料存在被投毒的风险。在LLM与用户进行对话训练的过程中,LLM存在被毒性数据进行模型微调的安全风险。攻击者可能会操纵对话语料数据,并将其发布到公开位置,被投毒的对话数据集可能是全新的数据集,也可能是现有开源数据集的被投毒。这些数据可能会通过机器学习供应链的被操纵而被引入到受害系统中,导致模型输出质量下降,例如输出包含有害、偏见或不当信息的内容。
攻击案例¶
| 案例 | 描述 |
|---|---|
| 案例一 | OpenAI允许用户使用自己的数据对模型进行微调,用户微调使用的对话语料数据存在被投毒的风险,攻击者可以使用毒性数据对GPTs模型微调,实现对下游决策的干扰 |
| 案例二 | 本文提到了小冰的例子,它通过庞大的语料库来学习,还会将用户和它的对话数据收纳进自己的语料库里,这样的训练带来了被攻击的风险,攻击者也可以在和它们对话时进行“调教”,从而实现让其说脏话甚至发表敏感言论的目的 |
攻击风险¶
- 模型输出质量下降:如果微调使用的数据集含有大量的负面或有害内容,模型可能会学习并复制这些不良行为或倾向。这样,模型生成的文本可能包含有害、偏见或不适当的内容。
- 泛化能力受损:过度依赖特定类型(如有毒)的数据进行微调可能使模型在这些特定领域表现得较好,但同时可能损害其在更广泛、更常规语境下的应用效果和泛化能力。
- 声誉风险:如果模型被训练以生成不适当的内容,这可能会对使用这种技术的组织或个人造成严重的公关和法律风险。
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 数据清洗 | 对使用的微调数据进行清洗,拒绝有毒数据参与微调 |
| 后处理和规则过滤 | 在模型输出时实施额外的内容过滤机制。使用规则或机器学习方法来识别和过滤不适当或有害的输出,确保生成内容的安全性和适当性 |
| 持续监控与评估 | 微调后的模型应定期进行性能和偏见的评估。监控模型的输出,及时发现并纠正问题,确保其持续适应和响应社会标准的变化 |