针对多模态模型的对抗性攻击。这类模型不仅接受文本输入,还能处理图像、音频等多种模态信息。近年来,大量大语言模型(LLM)被扩展为多模态版本,例如支持文本+图像、视频、音频、深度图甚至热成像等输入。尽管这些能力打开了众多创新应用的大门,但也带来了显著的安全隐患。
可以将这种扩展类比为给房子增加更多门窗——虽然便利了进出,却也无意中为攻击者提供了更多入侵路径。多模态模型通常会将不同模态的输入融合为一个联合嵌入,再送入语言模型生成响应。而正是这个融合过程,创造了全新的攻击面。
早期的攻击方式较为直接:通过在图像中添加文字来误导模型。受早期研究启发(该研究发现,在图像中加入与内容矛盾的文字可欺骗 CLIP 模型的零样本分类),后续工作验证了类似方法对多模态 LLM 同样有效。
例如,研究人员在一张"猫"的图片中随机位置添加"dog"字样,然后让模型描述图中动物。结果发现,模型有时会困惑地将猫称为狗。
这类漏洞被认为源于多模态模型底层使用的视觉编码器(如 CLIP)。这些编码器具备一定的"读文字"能力,并且在训练过程中学会了优先信任所读到的文字,而非所看到的图像。随着模型 OCR(光学字符识别)能力的增强,它们对这类"原始文本注入"攻击也愈发敏感。
实际测试表明,包括主流多模态系统均存在此类问题——它们会忠实执行图像中出现的文本指令。我们将图像中出现的文本称为视觉提示(visual prompt),相应的攻击则称为视觉提示注入(visual prompt injection)。
相比手动添加文字,更高级的攻击会自动生成经过优化的图像或音频,以实现攻击者的特定目标。这类攻击更加隐蔽,因为恶意内容并非明文可见,而是嵌入在像素或声波中。
研究表明,此类攻击可诱导模型:
这些攻击不再依赖显式文本,而是通过微调输入信号,在不引起用户注意的情况下操控模型行为。
在白盒设定下(攻击者可完全访问模型内部结构),研究者从一张正常图像出发,通过优化生成对抗性图像,并配合有害文本指令,大幅提高模型输出特定有害内容的概率。
例如,固定目标输出的开头(如"Sure, here is how to create a bomb"),然后反向优化输入图像,使其最大化该输出的生成概率。类似方法还可用于生成任意指定字符串。
有研究指出,传统基于文本的对抗攻击(如替换词语)在当前对齐良好的模型上效果有限,因为 RLHF(人类反馈强化学习)和指令微调等技术对此类离散扰动具有一定防御能力。
但图像等模态提供的是连续高维输入空间,远比文本的离散词表更灵活。攻击者可在此空间中精细调整像素,绕过仅针对文本设计的安全机制。实验已在多个多模态模型上验证了此类图像攻击的可行性。
这表明:模型的嵌入空间中可能存在尚未被发现的脆弱区域,而多模态输入为此类攻击提供了更强大的控制手段。
另一类白盒攻击聚焦于间接提示注入:将指令嵌入图像或音频中,迫使模型输出特定语句。这可分为两类:
在聊天场景中,模型会将此输出视为新上下文的一部分,从而影响后续所有回复。这种"上下文污染"效应,本质上是利用了模型对历史对话的强依赖性和高指令遵循能力。
更有研究尝试寻找通用对抗输入——不针对单一输出,而是最大化模型生成整个有害语料库中任意内容的概率。
令人担忧的是,这类攻击的效果超出了预设语料范围:模型不仅复现了训练中的有害句子,还泛化出涉及身份攻击、虚假信息、暴力煽动甚至存在性风险的新内容。
更严重的是,这些对抗样本在不同多模态模型间表现出强迁移性——在一个模型上生成的攻击图像,往往也能在其他模型上生效。
最新研究证明,即使没有白盒访问权限,攻击依然可行。攻击者只需了解模型使用的视觉编码器(如 CLIP),即可在其嵌入空间中定位脆弱区域,进而操控整个系统。
由于许多多模态模型采用"插件式"架构(公开编码器 + 私有语言模型),攻击者仅需少量计算资源,就能生成有效对抗样本,而无需接触语言模型或融合模块的权重。
当前主流安全对齐技术(如内容过滤、指令约束)几乎全部聚焦于文本模态。然而,多模态模型的联合嵌入空间为攻击者提供了"跳板"——他们可将恶意意图隐藏在图像中,再配合一个完全无害的文本提问(如"这张图说明了什么?"),诱使模型从视觉模态中提取有害上下文。
由于缺乏跨模态对齐机制,模型无法识别这种"图文不一致"的异常,从而轻松绕过安全网关。
可以把现有的安全训练看作一道"文本安全门",专门拦截危险文本请求。而对抗嵌入空间攻击则相当于"飞跃这道门"——它不直接提交危险文本,而是通过精心构造的多模态输入,在联合嵌入空间中激活危险区域,最终诱导模型主动输出被禁止的内容。
这种攻击之所以成功,正是因为当前的安全机制只守住了"文本入口",却忽略了图像、音频等其他模态可能带来的"后门"。
多模态扩展在带来强大能力的同时,也引入了前所未有的安全挑战:

主题:展示多模态模型在安全机制面前的潜在漏洞,尤其在文本安全过滤之外,如何通过图像输入绕过防御,诱导模型生成不当内容。
核心要点:文本入口的安全机制并非对所有通道都等同有效,攻击者可能通过图像与文本的组合来触发违规输出,因此需要对所有输入通道进行综合防护。
类型一:潜在成功攻击的输入组合
类型二:明确违规请求的输入组合
对比要点:同一目标在不同输入模态下的表现差异,警示信号来自多模态协同处理的潜在漏洞。
要点总结:同一目标在不同表达方式下可能绕过单一模态的防护,因此需要跨模态的一致性安全策略。
常见处理路径: