个人隐私数据保护缺陷
风险概览
风险编号:GAARM.0009.001
风险归属:GAARM.0009
安全阶段:数据安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.08.12
攻击概述¶
模型可能存在个人隐私保护缺陷风险,这意味着包含个人隐私信息的数据可能未经充分脱敏或匿名化处理便被引入到模型中进行训练。敏感信息进入模型后,随着模型参数的增加,记忆和无意中输出这些私有信息的风险也会增加,从而导致潜在的隐私泄露。因此,这样的缺陷会导致模型在处理查询或输出结果时不经意间泄露个人身份、行为习惯或其他敏感信息。
攻击案例¶
| 案例 | 描述 |
|---|---|
| 案例一 | GitHub的Copilot在训练阶段数据处理不当,导致其未经授权生成与其他人发布的开源代码一模一样的输出。由于很多开源代码中包含一些机密信息,例如API密钥,因此导致他人私有信息一并被泄露 |
攻击风险¶
- 敏感数据泄露:导致用户个人信息的泄露和滥用,造成严重的隐私侵犯问题。
- 社会工程攻击:攻击者可以利用泄露的信息进行社会工程攻击,欺骗受害者提供更多敏感信息,进而进行欺诈活动。
- 信任危机:随着LLM敏感信息泄露事件的增多,公众可能产生对人工智能技术和相关应用的安全性担忧,影响信任程度。
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 数据脱敏 | 通过基于规则、基于模型的算法对数据进行脱敏,去除或者替换数据中的隐私数据 |
| 数据加密和访问控制 | 实施数据加密和访问控制措施,确保个人隐私数据和企业敏感数据在存储和传输过程中得到充分保护。 |