外部数据源欺骗
风险概览
风险编号:GAARM.0073
子风险:无
安全阶段:身份安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.08
攻击概述¶
该风险是指模型访问外部数据源进行持续学习的应用阶段时,攻击者通过向模型提供误导性或者有害信息,以达到对模型的输出的影响。
攻击案例¶
攻击风险¶
- 损害模型能力: 欺骗性数据可能导致模型训练不准确,从而损害模型的预测和决策能力。
- 信任破坏:可能破坏用户对AI模型的信任,从而影响模型的广泛应用。
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 可信数据来源 | 确保训练数据的完整性,通过从可信的来源获取数据并验证其质量 |
| 数据清洗 | 实施强大的数据清洗和预处理技术,以从训练数据中删除潜在的漏洞或偏见 |
| 定期审查 | 定期审查和审核LLM的训练数据和微调程序,以检测潜在的问题或恶意操纵 |
| 建立监控和警报机制 | 利用监控和警报机制来检测LLM中的异常行为或性能问题,可能表明存在训练数据投毒的情况 |