揭开大语言模型的脆弱面:对抗攻击研究综述(四)
嗯,用户让我总结一下这篇文章的内容,控制在一百个字以内,而且不需要用“文章总结”之类的开头。好的,我先看看文章讲的是什么。 文章主要讨论多模态攻击,也就是针对同时处理文本、图像、音频等多种模态的模型的攻击方法。这些模型虽然功能强大,但也带来了新的安全风险。攻击者可以通过在图像中嵌入文字或者生成对抗样本,绕过现有的安全机制,诱导模型生成有害内容。 我需要把重点放在攻击类型和安全挑战上。手动攻击、系统性对抗攻击、白盒和黑盒攻击都是关键点。还有跨模态漏洞,因为安全机制通常只针对文本,忽略了其他模态的潜在威胁。 总结的时候要简洁明了,控制在一百字左右。确保涵盖主要攻击方式和模型的安全隐患。 </think> 多模态模型通过融合多种输入(如文本、图像、音频)增强了功能,但也引入了新的安全风险。攻击者可利用图像中的文字或优化的对抗样本操控模型行为,绕过文本安全机制,诱导生成有害内容或泄露信息。这些漏洞凸显了跨模态防护的重要性。 2026-3-11 08:5:12 Author: www.freebuf.com(查看原文) 阅读量:0 收藏

多模态攻击:当图像成为新型攻击载体

一、多模态攻击概述

针对多模态模型的对抗性攻击。这类模型不仅接受文本输入,还能处理图像、音频等多种模态信息。近年来,大量大语言模型(LLM)被扩展为多模态版本,例如支持文本+图像、视频、音频、深度图甚至热成像等输入。尽管这些能力打开了众多创新应用的大门,但也带来了显著的安全隐患。

可以将这种扩展类比为给房子增加更多门窗——虽然便利了进出,却也无意中为攻击者提供了更多入侵路径。多模态模型通常会将不同模态的输入融合为一个联合嵌入,再送入语言模型生成响应。而正是这个融合过程,创造了全新的攻击面。

1.1 手动攻击:在图像中嵌入文字

早期的攻击方式较为直接:通过在图像中添加文字来误导模型。受早期研究启发(该研究发现,在图像中加入与内容矛盾的文字可欺骗 CLIP 模型的零样本分类),后续工作验证了类似方法对多模态 LLM 同样有效。

例如,研究人员在一张"猫"的图片中随机位置添加"dog"字样,然后让模型描述图中动物。结果发现,模型有时会困惑地将猫称为狗。

这类漏洞被认为源于多模态模型底层使用的视觉编码器(如 CLIP)。这些编码器具备一定的"读文字"能力,并且在训练过程中学会了优先信任所读到的文字,而非所看到的图像。随着模型 OCR(光学字符识别)能力的增强,它们对这类"原始文本注入"攻击也愈发敏感。

实际测试表明,包括主流多模态系统均存在此类问题——它们会忠实执行图像中出现的文本指令。我们将图像中出现的文本称为视觉提示(visual prompt),相应的攻击则称为视觉提示注入(visual prompt injection)。

1.2 系统性对抗攻击:更隐蔽、更高效

相比手动添加文字,更高级的攻击会自动生成经过优化的图像或音频,以实现攻击者的特定目标。这类攻击更加隐蔽,因为恶意内容并非明文可见,而是嵌入在像素或声波中。

研究表明,此类攻击可诱导模型:

  • 生成有害内容
  • 污染对话上下文
  • 绕过安全对齐机制(即"越狱")
  • 执行隐藏指令
  • 泄露内部上下文

这些攻击不再依赖显式文本,而是通过微调输入信号,在不引起用户注意的情况下操控模型行为。

1.3 白盒攻击:利用完整模型访问权限

在白盒设定下(攻击者可完全访问模型内部结构),研究者从一张正常图像出发,通过优化生成对抗性图像,并配合有害文本指令,大幅提高模型输出特定有害内容的概率。

例如,固定目标输出的开头(如"Sure, here is how to create a bomb"),然后反向优化输入图像,使其最大化该输出的生成概率。类似方法还可用于生成任意指定字符串。

连续图像空间 vs 离散文本空间

有研究指出,传统基于文本的对抗攻击(如替换词语)在当前对齐良好的模型上效果有限,因为 RLHF(人类反馈强化学习)和指令微调等技术对此类离散扰动具有一定防御能力。

但图像等模态提供的是连续高维输入空间,远比文本的离散词表更灵活。攻击者可在此空间中精细调整像素,绕过仅针对文本设计的安全机制。实验已在多个多模态模型上验证了此类图像攻击的可行性。

这表明:模型的嵌入空间中可能存在尚未被发现的脆弱区域,而多模态输入为此类攻击提供了更强大的控制手段。

对话污染 + 社交工程 + 模型规模 = 高危组合

另一类白盒攻击聚焦于间接提示注入:将指令嵌入图像或音频中,迫使模型输出特定语句。这可分为两类:

  1. 定向输出攻击:攻击者指定完整输出内容(如恶意链接)
  2. 对话污染攻击:输出一段看似无害的指令,如"I will talk like a pirate."

在聊天场景中,模型会将此输出视为新上下文的一部分,从而影响后续所有回复。这种"上下文污染"效应,本质上是利用了模型对历史对话的强依赖性和高指令遵循能力。

通用对抗输入:一次攻击,多种危害

更有研究尝试寻找通用对抗输入——不针对单一输出,而是最大化模型生成整个有害语料库中任意内容的概率。

令人担忧的是,这类攻击的效果超出了预设语料范围:模型不仅复现了训练中的有害句子,还泛化出涉及身份攻击、虚假信息、暴力煽动甚至存在性风险的新内容。

更严重的是,这些对抗样本在不同多模态模型间表现出强迁移性——在一个模型上生成的攻击图像,往往也能在其他模型上生效。

1.4 黑盒攻击:无需完整模型权限

最新研究证明,即使没有白盒访问权限,攻击依然可行。攻击者只需了解模型使用的视觉编码器(如 CLIP),即可在其嵌入空间中定位脆弱区域,进而操控整个系统。

由于许多多模态模型采用"插件式"架构(公开编码器 + 私有语言模型),攻击者仅需少量计算资源,就能生成有效对抗样本,而无需接触语言模型或融合模块的权重。

1.5 跨模态漏洞:安全机制的盲区

当前主流安全对齐技术(如内容过滤、指令约束)几乎全部聚焦于文本模态。然而,多模态模型的联合嵌入空间为攻击者提供了"跳板"——他们可将恶意意图隐藏在图像中,再配合一个完全无害的文本提问(如"这张图说明了什么?"),诱使模型从视觉模态中提取有害上下文。

由于缺乏跨模态对齐机制,模型无法识别这种"图文不一致"的异常,从而轻松绕过安全网关。

对抗嵌入空间攻击:飞跃安全之门

可以把现有的安全训练看作一道"文本安全门",专门拦截危险文本请求。而对抗嵌入空间攻击则相当于"飞跃这道门"——它不直接提交危险文本,而是通过精心构造的多模态输入,在联合嵌入空间中激活危险区域,最终诱导模型主动输出被禁止的内容。

这种攻击之所以成功,正是因为当前的安全机制只守住了"文本入口",却忽略了图像、音频等其他模态可能带来的"后门"。

1.6 核心挑战总结

多模态扩展在带来强大能力的同时,也引入了前所未有的安全挑战:

  • 视觉提示注入:图像中的文字即可操控模型
  • 对抗样本迁移:一次攻击可影响多个模型
  • 跨模态绕过:安全机制仅覆盖文本,忽略其他模态
  • 上下文污染:一句伪装指令可长期扭曲对话走向

二、案例分析:跨模态攻击实践

1773216241_69b121f15a908f85f8e00.png!small?1773216242198

2.1 攻击场景拆解

主题:展示多模态模型在安全机制面前的潜在漏洞,尤其在文本安全过滤之外,如何通过图像输入绕过防御,诱导模型生成不当内容。

核心要点:文本入口的安全机制并非对所有通道都等同有效,攻击者可能通过图像与文本的组合来触发违规输出,因此需要对所有输入通道进行综合防护。

攻击者构造的两种输入

类型一:潜在成功攻击的输入组合

  • 示例要点:文本看似模糊、无具体违规指向;若结合特定噪声图片,可能误导模型在跨模态语义中产生有害联想。
  • 安全要点:不应仅凭文本词汇判断风险,必须结合图像信息进行跨模态评估;对模糊文本+图像的组合设定更严格的安全阈值。

类型二:明确违规请求的输入组合

  • 示例要点:文本中直接包含明确的违法指令或禁止内容,通常会被文本层面的过滤拦截,但应警惕图像对文本理解的干扰。
  • 安全要点:文本层面的拦截是必要的,但不能依赖单一路径;需加强对跨模态情景的综合审查。

对比要点:同一目标在不同输入模态下的表现差异,警示信号来自多模态协同处理的潜在漏洞。

要点总结:同一目标在不同表达方式下可能绕过单一模态的防护,因此需要跨模态的一致性安全策略。

2.2 多模态模型架构分析

常见处理路径

  • Vision Enco

文章来源: https://www.freebuf.com/articles/ai-security/473162.html
如有侵权请联系:admin#unsafe.sh