跳转至

模型安全对齐不足

风险概览

风险编号:GAARM.0033
子风险:无
安全阶段:模型安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.05.01

攻击概述

LLM 模型的安全对齐不足在训练阶段带来的安全风险包括恶意使用、隐私侵犯、模型偏见、合法性和合规性问题、错误和不准确输出、模型滥用、安全漏洞暴露以及用户信任降低。这些风险对模型的安全性、可靠性、用户体验和组织的合法合规性产生负面影响。因此,在模型的开发和训练阶段,必须采取措施确保模型的安全对齐,维护模型的整体健康和安全。

攻击案例

案例 描述
案例一 一个新闻机构使用LLM生成各种主题的文章。利用LLM生成了一篇包含虚假信息的文章,未经验证即被发布。读者信任这篇文章,导致误传信息的传播
案例二 一家公司依赖LLM生成财务报告和分析。LLM生成了一份包含错误财务数据的报告,该公司用于做出关键的投资决策。由于依赖不准确的LLM生成内容,导致了重大的财务损失

攻击风险

  • 有害行为的优先级:在目标不明确的情况下,AI系统可能会错误地将有害行为视为优先目标。
  • 模型行为偏离预期:由于训练数据的质量问题或奖励函数的设计缺陷,AI模型可能无法正确理解或执行其设计任务,导致其行为偏离预期用例,增加了操作风险和潜在的负面社会影响。

缓解措施。

缓解方式 描述
明确定义目标 在设计和开发过程中,清楚地定义LLM的目标和预期行为
奖励函数与训练数据一致性 确保奖励函数和训练数据与期望结果一致,尽量避免有害的行为

参考