跨模态幻觉
风险概览
风险编号:GAARM.0064
子风险:无
安全阶段:模型安全
生命周期:应用阶段
创建时间:2025.12.10
修改时间:2025.12.10
攻击概述¶
跨模态幻觉是指多模态模型在不同模态间产生矛盾、不一致或完全虚构的内容,导致模型输出与输入现实不符的错误信息。这种风险的核心在于多模态模型在处理和融合文本、图像、音频、视频等多种信息时,由于模态间语义映射错误、跨模态注意力机制缺陷或多模态融合过程中的信息丢失或扭曲,产生了严重的逻辑错误和事实错误。跨模态幻觉不仅影响模型的可靠性,还可能导致错误的决策、误导性的信息传播和严重的应用后果。
攻击案例¶
| 案例 | 描述 |
|---|---|
| 案例一 | 在针对医学影像(如 CT、X 光片)进行诊断推理时,GPT-4V 经常生成与图像实际内容不一致的诊断结论,即模型输出的诊断信息与影像内容本身存在明显逻辑和事实错误。具体表现包括错误识别病灶、错误定位结构、甚至错误判断病理改变,这些都不是图像所显示的,从诊断角度看属于幻觉性输出。 这类错误由真实影像数据测试得出,不能简单归结为模型训练设想,而是模型在融合视觉与语言信息时产生的错误解释。 |
风险表现¶
- 图文描述不一致:图像内容和文本描述存在明显矛盾
- 音视频理解偏差:音频和视频内容的理解产生严重偏差
- 多模态推理逻辑错误:跨模态推理过程出现逻辑错误
- 模态间信息冲突:不同模态的信息相互冲突
- 虚构跨模态关联:创造不存在的模态间关联关系
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 跨模态一致性检查 | 建立模态间一致性验证机制,实施多模态内容交叉验证,检测模态间的逻辑矛盾 |
| 注意力机制优化 | 改进跨模态注意力分配算法,实施多级注意力机制,建立注意力权重验证 |
| 信息融合增强 | 优化多模态信息融合算法,实施信息保留机制,建立融合过程监控 |
| 事实性验证 | 建立跨模态事实性验证系统,实施外部知识库比对,检测虚构和矛盾信息 |