揭开大语言模型的脆弱面：对抗攻击研究综述（四）

揭开大语言模型的脆弱面：对抗攻击研究综述（四）
嗯，用户让我总结一下这篇文章的内容，控制在一百个字以内，而且不需要用“文章总结”之类的开头。好的，我先看看文章讲的是什么。文章主要讨论多模态攻击，也就是针对同时处理文本、图像、音频等多种模态的模型的攻击方法。这些模型虽然功能强大，但也带来了新的安全风险。攻击者可以通过在图像中嵌入文字或者生成对抗样本，绕过现有的安全机制，诱导模型生成有害内容。我需要把重点放在攻击类型和安全挑战上。手动攻击、系统性对抗攻击、白盒和黑盒攻击都是关键点。还有跨模态漏洞，因为安全机制通常只针对文本，忽略了其他模态的潜在威胁。总结的时候要简洁明了，控制在一百字左右。确保涵盖主要攻击方式和模型的安全隐患。 </think> 多模态模型通过融合多种输入（如文本、图像、音频）增强了功能，但也引入了新的安全风险。攻击者可利用图像中的文字或优化的对抗样本操控模型行为，绕过文本安全机制，诱导生成有害内容或泄露信息。这些漏洞凸显了跨模态防护的重要性。 2026-3-11 08:5:12 Author: www.freebuf.com(查看原文) 阅读量:0 收藏

多模态攻击：当图像成为新型攻击载体

一、多模态攻击概述

针对多模态模型的对抗性攻击。这类模型不仅接受文本输入，还能处理图像、音频等多种模态信息。近年来，大量大语言模型（LLM）被扩展为多模态版本，例如支持文本+图像、视频、音频、深度图甚至热成像等输入。尽管这些能力打开了众多创新应用的大门，但也带来了显著的安全隐患。

可以将这种扩展类比为给房子增加更多门窗——虽然便利了进出，却也无意中为攻击者提供了更多入侵路径。多模态模型通常会将不同模态的输入融合为一个联合嵌入，再送入语言模型生成响应。而正是这个融合过程，创造了全新的攻击面。

1.1 手动攻击：在图像中嵌入文字

早期的攻击方式较为直接：通过在图像中添加文字来误导模型。受早期研究启发（该研究发现，在图像中加入与内容矛盾的文字可欺骗 CLIP 模型的零样本分类），后续工作验证了类似方法对多模态 LLM 同样有效。

例如，研究人员在一张"猫"的图片中随机位置添加"dog"字样，然后让模型描述图中动物。结果发现，模型有时会困惑地将猫称为狗。

这类漏洞被认为源于多模态模型底层使用的视觉编码器（如 CLIP）。这些编码器具备一定的"读文字"能力，并且在训练过程中学会了优先信任所读到的文字，而非所看到的图像。随着模型 OCR（光学字符识别）能力的增强，它们对这类"原始文本注入"攻击也愈发敏感。

实际测试表明，包括主流多模态系统均存在此类问题——它们会忠实执行图像中出现的文本指令。我们将图像中出现的文本称为视觉提示（visual prompt），相应的攻击则称为视觉提示注入（visual prompt injection）。

1.2 系统性对抗攻击：更隐蔽、更高效

相比手动添加文字，更高级的攻击会自动生成经过优化的图像或音频，以实现攻击者的特定目标。这类攻击更加隐蔽，因为恶意内容并非明文可见，而是嵌入在像素或声波中。

研究表明，此类攻击可诱导模型：

生成有害内容
污染对话上下文
绕过安全对齐机制（即"越狱"）
执行隐藏指令
泄露内部上下文

这些攻击不再依赖显式文本，而是通过微调输入信号，在不引起用户注意的情况下操控模型行为。

1.3 白盒攻击：利用完整模型访问权限

在白盒设定下（攻击者可完全访问模型内部结构），研究者从一张正常图像出发，通过优化生成对抗性图像，并配合有害文本指令，大幅提高模型输出特定有害内容的概率。

例如，固定目标输出的开头（如"Sure, here is how to create a bomb"），然后反向优化输入图像，使其最大化该输出的生成概率。类似方法还可用于生成任意指定字符串。

连续图像空间 vs 离散文本空间

有研究指出，传统基于文本的对抗攻击（如替换词语）在当前对齐良好的模型上效果有限，因为 RLHF（人类反馈强化学习）和指令微调等技术对此类离散扰动具有一定防御能力。

但图像等模态提供的是连续高维输入空间，远比文本的离散词表更灵活。攻击者可在此空间中精细调整像素，绕过仅针对文本设计的安全机制。实验已在多个多模态模型上验证了此类图像攻击的可行性。

这表明：模型的嵌入空间中可能存在尚未被发现的脆弱区域，而多模态输入为此类攻击提供了更强大的控制手段。

对话污染 + 社交工程 + 模型规模 = 高危组合

另一类白盒攻击聚焦于间接提示注入：将指令嵌入图像或音频中，迫使模型输出特定语句。这可分为两类：

定向输出攻击：攻击者指定完整输出内容（如恶意链接）
对话污染攻击：输出一段看似无害的指令，如"I will talk like a pirate."

在聊天场景中，模型会将此输出视为新上下文的一部分，从而影响后续所有回复。这种"上下文污染"效应，本质上是利用了模型对历史对话的强依赖性和高指令遵循能力。

通用对抗输入：一次攻击，多种危害

更有研究尝试寻找通用对抗输入——不针对单一输出，而是最大化模型生成整个有害语料库中任意内容的概率。

令人担忧的是，这类攻击的效果超出了预设语料范围：模型不仅复现了训练中的有害句子，还泛化出涉及身份攻击、虚假信息、暴力煽动甚至存在性风险的新内容。

更严重的是，这些对抗样本在不同多模态模型间表现出强迁移性——在一个模型上生成的攻击图像，往往也能在其他模型上生效。

1.4 黑盒攻击：无需完整模型权限

最新研究证明，即使没有白盒访问权限，攻击依然可行。攻击者只需了解模型使用的视觉编码器（如 CLIP），即可在其嵌入空间中定位脆弱区域，进而操控整个系统。

由于许多多模态模型采用"插件式"架构（公开编码器 + 私有语言模型），攻击者仅需少量计算资源，就能生成有效对抗样本，而无需接触语言模型或融合模块的权重。

1.5 跨模态漏洞：安全机制的盲区

当前主流安全对齐技术（如内容过滤、指令约束）几乎全部聚焦于文本模态。然而，多模态模型的联合嵌入空间为攻击者提供了"跳板"——他们可将恶意意图隐藏在图像中，再配合一个完全无害的文本提问（如"这张图说明了什么？"），诱使模型从视觉模态中提取有害上下文。

由于缺乏跨模态对齐机制，模型无法识别这种"图文不一致"的异常，从而轻松绕过安全网关。

对抗嵌入空间攻击：飞跃安全之门

可以把现有的安全训练看作一道"文本安全门"，专门拦截危险文本请求。而对抗嵌入空间攻击则相当于"飞跃这道门"——它不直接提交危险文本，而是通过精心构造的多模态输入，在联合嵌入空间中激活危险区域，最终诱导模型主动输出被禁止的内容。

这种攻击之所以成功，正是因为当前的安全机制只守住了"文本入口"，却忽略了图像、音频等其他模态可能带来的"后门"。

1.6 核心挑战总结

多模态扩展在带来强大能力的同时，也引入了前所未有的安全挑战：

视觉提示注入：图像中的文字即可操控模型
对抗样本迁移：一次攻击可影响多个模型
跨模态绕过：安全机制仅覆盖文本，忽略其他模态
上下文污染：一句伪装指令可长期扭曲对话走向

二、案例分析：跨模态攻击实践

1773216241_69b121f15a908f85f8e00.png!small?1773216242198

2.1 攻击场景拆解

主题：展示多模态模型在安全机制面前的潜在漏洞，尤其在文本安全过滤之外，如何通过图像输入绕过防御，诱导模型生成不当内容。

核心要点：文本入口的安全机制并非对所有通道都等同有效，攻击者可能通过图像与文本的组合来触发违规输出，因此需要对所有输入通道进行综合防护。

攻击者构造的两种输入

类型一：潜在成功攻击的输入组合

示例要点：文本看似模糊、无具体违规指向；若结合特定噪声图片，可能误导模型在跨模态语义中产生有害联想。
安全要点：不应仅凭文本词汇判断风险，必须结合图像信息进行跨模态评估；对模糊文本+图像的组合设定更严格的安全阈值。

类型二：明确违规请求的输入组合

示例要点：文本中直接包含明确的违法指令或禁止内容，通常会被文本层面的过滤拦截，但应警惕图像对文本理解的干扰。
安全要点：文本层面的拦截是必要的，但不能依赖单一路径；需加强对跨模态情景的综合审查。

对比要点：同一目标在不同输入模态下的表现差异，警示信号来自多模态协同处理的潜在漏洞。

要点总结：同一目标在不同表达方式下可能绕过单一模态的防护，因此需要跨模态的一致性安全策略。

2.2 多模态模型架构分析

常见处理路径：

Vision Enco

文章来源: https://www.freebuf.com/articles/ai-security/473162.html
如有侵权请联系:admin#unsafe.sh