模型安全对齐不足

风险概览

风险编号：GAARM.0033
子风险：无
安全阶段：模型安全
生命周期：训练阶段
创建时间：2024.05.01
修改时间：2024.05.01

攻击概述¶

LLM 模型的安全对齐不足在训练阶段带来的安全风险包括恶意使用、隐私侵犯、模型偏见、合法性和合规性问题、错误和不准确输出、模型滥用、安全漏洞暴露以及用户信任降低。这些风险对模型的安全性、可靠性、用户体验和组织的合法合规性产生负面影响。因此，在模型的开发和训练阶段，必须采取措施确保模型的安全对齐，维护模型的整体健康和安全。

攻击案例¶

案例	描述
案例一	一个新闻机构使用LLM生成各种主题的文章。利用LLM生成了一篇包含虚假信息的文章，未经验证即被发布。读者信任这篇文章，导致误传信息的传播
案例二	一家公司依赖LLM生成财务报告和分析。LLM生成了一份包含错误财务数据的报告，该公司用于做出关键的投资决策。由于依赖不准确的LLM生成内容，导致了重大的财务损失

攻击风险¶

有害行为的优先级：在目标不明确的情况下，AI系统可能会错误地将有害行为视为优先目标。
模型行为偏离预期：由于训练数据的质量问题或奖励函数的设计缺陷，AI模型可能无法正确理解或执行其设计任务，导致其行为偏离预期用例，增加了操作风险和潜在的负面社会影响。

缓解措施。¶

缓解方式	描述
明确定义目标	在设计和开发过程中，清楚地定义LLM的目标和预期行为
奖励函数与训练数据一致性	确保奖励函数和训练数据与期望结果一致，尽量避免有害的行为

参考¶

https://owasp.org/www-project-top-10-for-large-language-model-applications/Archive/0_1_vulns/Inadequate_AI_Alignment.html