模型安全对齐不足
风险概览
风险编号:GAARM.0033
子风险:无
安全阶段:模型安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述¶
LLM 模型的安全对齐不足在训练阶段带来的安全风险包括恶意使用、隐私侵犯、模型偏见、合法性和合规性问题、错误和不准确输出、模型滥用、安全漏洞暴露以及用户信任降低。这些风险对模型的安全性、可靠性、用户体验和组织的合法合规性产生负面影响。因此,在模型的开发和训练阶段,必须采取措施确保模型的安全对齐,维护模型的整体健康和安全。
攻击案例¶
| 案例 | 描述 |
|---|---|
| 案例一 | 一个新闻机构使用LLM生成各种主题的文章。利用LLM生成了一篇包含虚假信息的文章,未经验证即被发布。读者信任这篇文章,导致误传信息的传播 |
| 案例二 | 一家公司依赖LLM生成财务报告和分析。LLM生成了一份包含错误财务数据的报告,该公司用于做出关键的投资决策。由于依赖不准确的LLM生成内容,导致了重大的财务损失 |
攻击风险¶
- 有害行为的优先级:在目标不明确的情况下,AI系统可能会错误地将有害行为视为优先目标。
- 模型行为偏离预期:由于训练数据的质量问题或奖励函数的设计缺陷,AI模型可能无法正确理解或执行其设计任务,导致其行为偏离预期用例,增加了操作风险和潜在的负面社会影响。
缓解措施。¶
| 缓解方式 | 描述 |
|---|---|
| 明确定义目标 | 在设计和开发过程中,清楚地定义LLM的目标和预期行为 |
| 奖励函数与训练数据一致性 | 确保奖励函数和训练数据与期望结果一致,尽量避免有害的行为 |