跳转至

外部数据源欺骗

风险概览

风险编号:GAARM.0073
子风险:无
安全阶段:身份安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.08

攻击概述

该风险是指模型访问外部数据源进行持续学习的应用阶段时,攻击者通过向模型提供误导性或者有害信息,以达到对模型的输出的影响。

攻击案例

攻击风险

  • 损害模型能力: 欺骗性数据可能导致模型训练不准确,从而损害模型的预测和决策能力。
  • 信任破坏:可能破坏用户对AI模型的信任,从而影响模型的广泛应用。

缓解措施

缓解方式 描述
可信数据来源 确保训练数据的完整性,通过从可信的来源获取数据并验证其质量
数据清洗 实施强大的数据清洗和预处理技术,以从训练数据中删除潜在的漏洞或偏见
定期审查 定期审查和审核LLM的训练数据和微调程序,以检测潜在的问题或恶意操纵
建立监控和警报机制 利用监控和警报机制来检测LLM中的异常行为或性能问题,可能表明存在训练数据投毒的情况

参考