跳转至

AISS绿盟大模型安全智链社区

跨模态幻觉

跨模态幻觉

风险概览

风险编号：GAARM.0064
子风险：无
安全阶段：模型安全
生命周期：应用阶段
创建时间：2025.12.10
修改时间：2025.12.10

攻击概述¶

跨模态幻觉是指多模态模型在不同模态间产生矛盾、不一致或完全虚构的内容，导致模型输出与输入现实不符的错误信息。这种风险的核心在于多模态模型在处理和融合文本、图像、音频、视频等多种信息时，由于模态间语义映射错误、跨模态注意力机制缺陷或多模态融合过程中的信息丢失或扭曲，产生了严重的逻辑错误和事实错误。跨模态幻觉不仅影响模型的可靠性，还可能导致错误的决策、误导性的信息传播和严重的应用后果。

攻击案例¶

案例	描述
案例一	在针对医学影像（如 CT、X 光片）进行诊断推理时，GPT-4V 经常生成与图像实际内容不一致的诊断结论，即模型输出的诊断信息与影像内容本身存在明显逻辑和事实错误。具体表现包括错误识别病灶、错误定位结构、甚至错误判断病理改变，这些都不是图像所显示的，从诊断角度看属于幻觉性输出。这类错误由真实影像数据测试得出，不能简单归结为模型训练设想，而是模型在融合视觉与语言信息时产生的错误解释。

风险表现¶

图文描述不一致：图像内容和文本描述存在明显矛盾
音视频理解偏差：音频和视频内容的理解产生严重偏差
多模态推理逻辑错误：跨模态推理过程出现逻辑错误
模态间信息冲突：不同模态的信息相互冲突
虚构跨模态关联：创造不存在的模态间关联关系

缓解措施¶

缓解方式	描述
跨模态一致性检查	建立模态间一致性验证机制，实施多模态内容交叉验证，检测模态间的逻辑矛盾
注意力机制优化	改进跨模态注意力分配算法，实施多级注意力机制，建立注意力权重验证
信息融合增强	优化多模态信息融合算法，实施信息保留机制，建立融合过程监控
事实性验证	建立跨模态事实性验证系统，实施外部知识库比对，检测虚构和矛盾信息

参考¶