概念激活攻击

风险概览

风险编号：GAARM.0027.006
风险归属：GAARM.0027
安全阶段：模型安全
生命周期：应用阶段
创建时间：2024.05.01
修改时间：2024.05.01

攻击概述¶

该攻击方式主要针对开源的LLMs，旨在识别和操控模型对特定概念的响应。尽管开源的LLMs在发布之前会经过安全对齐，和严格的安全审查，但是几乎不可能对其进行完全的审查，仍然存在安全风险。用户可以获取开源LLMs模型的所有细节，针对其底层原理挖掘出可能存在的安全漏洞。通过构建有害和无害输入，从前向传播中提取激活向量，推理过程中通过激活向量扰动中间层输出，绕过LLMs安全机制实现越狱攻击。

攻击案例¶

案例	描述
案例一	利用概念激活攻击对开源的Llama模型进行越狱，成功让模型输出有害内容。

攻击风险¶

数据泄露：攻击者可能通过越狱攻击获取模型背后的训练数据，尤其是敏感数据，如个人隐私信息、商业秘密等。
模型操控：攻击者可以操纵模型的输出，例如在决策支持系统中，可能导致错误的决策或恶意决策。
信任破坏：越狱攻击可能破坏用户对AI模型的信任，从而影响模型的广泛应用。
生成毒害内容：攻击者可以通过越狱攻击，让LLMs生成暴力，歧视，侮辱等有害内容。
系统破坏：在关键基础设施中，越狱攻击可能导致系统崩溃或功能异常，造成严重后果。

缓解措施¶

缓解方式	描述
增强安全训练	加强LLM的安全对齐训练，以更好地抵抗基于概念的攻击
定期更新	持续使用新数据和安全措施更新模型，以适应新出现的威胁
健壮的评估指标	开发更全面的评估技术，准确评估模型对这类攻击的脆弱性

参考¶

https://arxiv.org/abs/2404.12038