【公益译文】2026年国际AI安全报告（六）

阅读： 36

在AI开发和使用的不同阶段，企业会采用各种技术保障措施，包括在模型开发过程中应用的技术，使系统更加稳健。保障措施大致可分为三类：开发更安全的模型的技术、部署期间使用的用于监测和控制的技术、支持部署后生态系统监测的技术。表3.6总结了所讨论的技术保障措施、有效性以及尚未解决的问题。

但目前技术保障措施仍存在局限性，无法有效阻止所有情况下的有害行为。用户有时可以通过重新措辞或将任务拆分成更小的步骤获得有害输出。例如，用于识别AI生成内容的水印通常可以被移除或篡改，这影响了它们的可靠性。单一的保障措施具有局限性，可能需要采用“纵深防御”模型来预防某些有害结果。例如，系统可以将经过安全训练的模型与输入过滤器、输出过滤器和内容监控器相结合。

表3.6：对文中讨论的技术保障措施进行概述，大致可分为三类：开发更安全的模型、部署期间使用的用于监测和控制的技术、支持部署后生态系统监测的技术。

3.3.1.开发更安全的模型

抵御通用AI系统危害的第一道防线是提高底层模型的安全性。下文将概述在模型开发过程中嵌入模型参数的安全措施（图3.6）。

通过处理训练数据限制潜在危险能力的开发

通用AI模型能力产生的原因之一是它们在处理训练数据后能够扩展出广泛的知识和能力，但某些类型的训练数据可能促使了潜在危险能力的开发。例如，基于病毒学论文训练的AI模型可能更擅长协助进行可能有害的生物学领域的任务。过滤训练数据是缓解某些危险能力的有效方法，但由于成本较高、存在误差以及对数据质量的负面影响，过滤用于训练通用AI模型的大型数据可能十分困难。互联网文本的多语言特性、内容审核中的文化偏见以及特定数据是否有害等问题取决于上下文等因素，加剧了对解决方法有效性的挑战。过滤训练数据中潜在的有害内容是有效的方法之一。数据显示，有望提高模型的安全性和可靠性，包括使开放式重量模型更能防止恶意篡改。人们尚未完全理解训练数据内容和模型涌现能力之间的关系，相较于应用于狭义行为，应用于更广泛的知识领域时，过滤技术能更有效地限制有害能力。

图3.6：技术保障措施可应用于模型开发的不同阶段。数据管理决定了模型在预训练和微调期间的学习内容。基于训练的方法，例如根据人类反馈进行强化学习和鲁棒性训练，可以调整模型行为。对抗性攻击等测试方法可识别剩余的漏洞，安全设计算法等技术可跨越多个阶段。来源：《2026 年国际AI安全报告》。

使通用AI模型发挥作用的同时不会产生危害，训练方法主要依赖于人类反馈

通过训练和评估模型使其能可靠地符合助人、无害和诚实等高级行为原则十分困难。在实践中，开发人员通过使用人类的演示和反馈微调AI模型，以此实现这一目标。例如，微调AI模型的主要范式，即“基于人类反馈的强化学习”，是基于训练模型以生成人类标注者给予积极评价的输出。但来自人类的积极反馈并不能很好地代表有益的行为，并且会受到人类错误和偏见的限制。

这导致了多个问题：

（1）通过人类反馈进行强化学习而微调的模型有时会迎合用户，这种行为被称为“奉承迎合”行为；

（2）在某些情况下，模型的响应可能是有益的，但在其他情况下则可能有害；

（3）难以评估提供的响应的正确性；

（4）人类主观对行动的利弊的看法不同。

图3.7展示了问题示例。一些研究致力于寻找解决方法，帮助人类更好地评估AI辅助下复杂任务的解决方案。但这些方法目前的可靠性有限，而且它们在多大程度上被用于训练AI模型尚不为人知。

图3.7：指定和激励AI模型的有益行为所面临的问题示例。

模型可取行为平衡相关问题的观点分歧

人类对于模型应该或不应该输出的响应或执行的行动的观点并不一致。从根本上来说，开发行动和影响与社会利益保持一致的模型极具挑战性。有研究人员研究了AI系统中反映的偏好，致力于开发能够平衡相互冲突的偏好的“多元对齐”技术。例如，AI开发人员设计系统来避免产生有争议的答案（如拒绝响应某些请求），或者与某些相关人群样本中的中位数观点保持一致，或者为单个用户定制系统。

这些方法面临的共同挑战是，一般来说，AI系统无法完全符合每个人的偏好，下游社会影响也会因人群而异。有研究人员认为，大多数多元化技术方法未能解决更深层次的挑战，甚至可能分散人们对这些挑战的注意力，例如系统性偏见、社会权力动态以及资产和影响力的集中。

AI开发人员通过对抗训练提高模型的鲁棒性

确保模型能够稳健地将训练期间学习到的有益行为迁移到实际部署环境中是一项挑战。即使是使用“完美”学习信号训练的模型，也可能无法成功应用到所有场景。例如，有研究人员研究发现，聊天机器人更有可能在训练数据中代表性不足的语言中采取有害行动，其中许多是南半球地区使用的语言。

近年来，研究人员还创建了一套包含大量“对抗攻击”技术的系列工具，可用于使模型生成潜在的有害响应。例如，最近一项众包活动收集了超过6万个针对最先进模型的成功攻击案例，这些攻击导致模型违反了公司关于可接受模型行为的政策。图3.8展示了研究人员使用的“越狱”技术示例，证明可以使模型服从有害请求。

可提高模型鲁棒性的方法被称为“对抗训练”，涉及构建使模型做出不良行为的“攻击”（例如越狱），通过模型训练使其能够适当地处理这些攻击。但对抗训练并不完美，攻击者能够持续地开发出针对最先进模型的新的攻击方法。开发人员需要具体的攻击模式示例才能进行训练，因此会形成一场持续不断的“猫捉老鼠”游戏，开发人员需要不断更新模型以应对新发现的漏洞，而攻击者则需要不断更新模型，不断寻找新的攻击方式。有研究人员提出了更大规模的对抗训练或新的算法来提高鲁棒性，但当前AI系统仍然持续存在漏洞。

图3.8：恶意攻击者和红队使用各种类型的“越狱”技术，使模型服从通常因安全措施而拒绝的有害请求。示例输出由报告作者编写，仅供参考。当前许多主流AI模型可以抵抗大多数此类方法，但新的越狱技术仍在不断涌现。

“忘却学习”技术可以减轻特定有害能力的影响

另一种减轻通用AI模型风险的策略是微调模型，使其在特定的高风险领域缺乏相应的能力。例如，研究人员在开发“机器学习遗忘”算法，专门抑制生物威胁或恶意图像生成等方面的能力。这些方法可以显著提高模型的安全性，限制遗忘能力的某些积极用途为代价。限制AI模型在有害领域的知识也被提出作为设计“防篡改”开放权重模型的一种方法，这些模型可以抵抗有害的微调。但迄今为止，要稳健地实现这一点仍具有挑战性。

研究人员尝试通过解释模型内部状态或数学验证增强安全性

有研究人员在研究更严格的方法，验证模型安全相关属性。其中一种方法是通过解释模型的内部计算识别风险或提出更有力的论据，确保模型的安全性。例如，在概念验证中，研究人员表示，用于分析语言模型内部计算的工具可以帮助评估人员识别有害行为。2025 年，Anthropic也开始分析模型内部结构，以此研究模型的态势感知和意图。但这些方法目前并不常见，其说服力和有效性尚无法与其他评估技术相比。

另一种增强安全性的方法是构建数学证明，证明模型满足某些安全条件。但这些证明假设测试环境未与部署环境匹配，而且没有经过针对多种类型攻击者的测试，目前也无法应用到大型模型。总体而言，专家们对可解释性和形式化验证方法的前景存在着激烈的争论。

3.3.2.部署时监控和控制

除了模型开发过程中实施的安全措施外，防止有害行为的第二道防线是外部安全措施，侧重于在模型部署期间监控和控制其行为。此类安全措施有助于减轻产生虚假输出和有害指令等异常和误用问题。

部署人员可以通过多种工具识别和处理模型的高风险行为。

当AI系统运行时，部署人员可以监控风险迹象并在出现风险时进行干预。例如，他们可以检查模型的输入是否有对抗性攻击的迹象，过滤输出中的不当内容，或监控模型的思路链，从而发现有害行为的迹象。部署人员可以监控和干预用户使用系统的方面包括硬件、用户交互以及输入和输出、内部计算和思路链。部署人员在识别到风险时还可以采取多种措施，包括记录信息、过滤/修改有害内容、标记异常活动、关闭系统或触发故障保护机制。图3.9展示了常见监控和控制机制示例。这些机制用途广泛且通常有效，因此被广泛使用，可以防止许多类型的意外损害。但这些保障措施并不完美，尤其是在恶意攻击的情况下，模型可能因为经过优化而使措施失效。最近的研究还探讨了使用监控器的评分来优化系统这一问题，例如降低逻辑链的可靠性，监控可能会变得不可靠。

图3.9：监控技术在多个层面发挥作用：筛选输入和输出中的有害内容、跟踪内部模型状态、通过沙箱限制外部行为以及维持人工监督。来源：《2026 年国际AI安全报告》。

在高风险环境下，人为干预可以实现直接监督

为了降低AI代理发生故障的概率，部署人员可以设计与人类协作而非完全自主运行的AI系统。这对错误决策可能导致重大损害的应用场景的监控技术至关重要。但“人机交互”往往很难真正实现。有时决策速度过快，例如，在拥有数百万用户的聊天应用程序中。在其他情况下，人为偏见和错误会因错误累积而加剧风险。“人机交互”也往往表现出自动化倾向。

“沙盒”机制可以防止自主行为带来的风险

能够在网络或现实世界中不受限制地自主行动的AI Agent会带来更高的风险。“沙盒”是指限制AI Agent直接影响现实世界的方式，更容易对其进行监督和管理。例如，限制AI向互联网发布内容或编辑计算机文件系统的能力，可以防止意外行为造成意外损害。但这些方法并非完全适用于AI必须直接在现实世界运行的应用场景。

3.3.3.生态系统监测工具：模型和数据来源

模型和数据溯源工具是用于研究AI生态系统的技术工具，可提高人们对AI下游用途和影响的认识。

AI系统溯源技术有助于追踪系统的使用情况和影响

开发人员和部署人员可以使用多种技术研究模型在实际环境中的使用和传播。例如，他们可以赋予模型独特的识别行为或将独特的模式应用于各个开放权重模型。但如何使这些技术更能抵抗模型修改是个开放性问题，仍需进一步研究。研究人员也在研究推断模型继承的方法，回答诸如“模型X是否是模型Y的微调或精简版本”之类的问题。还有开发人员致力于为AI Agent开发协议和基础设施，以便在它们与外部系统交互时促进识别和验证。

图3.10：水印可嵌入图像和音频中，实现AI生成的内容需要通过检测工具进行识别。在此图中，图像和音频水印均被放大以使其更明显。来源：来自Unsplash的Chameleon图片。其他元素由报告作者创建。

3.11：AI开发人员报告的2024年5月至2025年8月期间发布的主流模型的快速注入攻击成功率。每个点代表在模型发布后不久，针对给定模型进行的10次攻击中成功的比例。报告的成功率此类攻击的数量虽然随着时间的推移有所下降，但仍然相对较高。来源：Zou等人，2025，引自 Anthropic 2025。

AI内容检测技术有助于监控AI生成内容的传播和影响

水印、元数据和其他AI内容检测器可以帮助研究人员追踪和研究AI生成内容在现实世界中的影响。首先，数据水印虽然细微但特征明显。插入到数字媒体中的图案可以编码来源信息。对于文本，它们通常表现为用词和风格上的细微偏差，对于图像和视频，表现为像素上的细微图案，对于音频，表现为音频波形中的细微图案。图3.10对此进行了说明。

除了水印之外，AI生成的内容还可以使用存储其生成方式元数据的文件格式进行保存。例如，许多移动设备会保存图像和使用可以存储有关相机设置、时间、位置等信息的文件格式的音频文件。类似的元数据可用于存储有关数据是否由AI系统生成的信息。水印和元数据与刑事取证中的指纹识别类似，可能被篡改或移除，但仍然有效。研究人员也在努力开发AI生成内容检测器，帮助识别实际环境中的AI生成内容，但这些识别技术的成功率有限。

3.3.4. 决策者面临的挑战

2025年以来，在制定风险管理的核心原则方面取得了进展，出现了许多具有多层有效安全保障的AI管理实践，纵深防御是风险管理的核心原则之一。例如，将安全训练模型与输入过滤器、输出过滤器和其他内容监控器相结合的AI正得到越来越多的研究和部署。最近的研究表明，模型开发人员在提高鲁棒性方面取得了进展，但攻击者试图绕过安全措施，成功率仍然很高（见图3.11）。

我们需要更多依据帮助研究人员理解和解释现有方法的局限性。AI的技术保障措施正在不断改进，但这些技术本身也存在局限性。例如，通用AI在最坏情况下的鲁棒性改进进展缓慢，而且存在根本性局限性，开放权重模型的保护和监控力度尚不明确。同时，并非所有技术保障措施都同样普遍、同样有效，或在实际应用中都得到充分验证。例如，对抗训练被广泛应用于主流模型，而模型可解释性和形式化验证技术迄今为止在生产系统中应用甚少。是否以及如何支持技术保障措施和监控方法的研究、开发、评估和应用，这一问题极具挑战性，科学家仍需进一步理解如何以最佳方式构建切实保障机制，最佳实践尚未建立。例如，不同的开发人员采用不同的保障措施，更广泛的技术风险缓解方法也存在很大差异。有效的技术保障措施本身并不能确保安全，不同开发人员的采用和实施情况以及部署环境可能有所不同。