跳转至

预训练模型不安全依赖

风险概览

风险编号:GAARM.0024
子风险:无
安全阶段:模型安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.05.01

攻击概述

在模型的开发和训练阶段,如果过度依赖存在缺陷或偏见的数据集,或者其他的不安全依赖组件,将使得模型在处理训练集中未被充分覆盖的新颖或边缘情况时,面临输出不准确或误导性结果的风险。这种依赖不仅可能损害模型的泛化能力,还可能放大和延续数据集中的不公平现象,导致决策不公和信任缺失。

攻击案例

案例 描述
案例一 CNET发布了数十篇由AI生成的文章,而这些文章中存在严重的错误(如计算错误) ,带来了模型输出不准确引发争议

攻击风险

  • 数据集安全性不足:预训练模型依赖的庞大多样化数据集若含不完整、矛盾或错误信息,可能使模型输出不准确或有争议。
  • 模型幻觉:过度依赖未经充分验证的数据集进行预训练的模型,若缺乏对其性能特征的深入理解,可能在面对新颖或边缘情况时,生成不准确或误导性的信息。

缓解措施

缓解方式 描述
多元化评估方法 应用多种评估方法和指标来全面评估模型的性能,包括准确性、鲁棒性、可解释性等,以减少对单一评估指标的依赖
外部源交叉验证 在使用语言模型(LLM)输出前,应与可信外部数据源交叉验证,确保信息准确可靠

参考