2026年国际AI安全报告（七）

阅读： 5

3.4. 开放权重模型

权重是使模型能够处理输入并生成输出的数学参数，AI企业对其模型权重具有的访问权限级别会影响模型带来的风险。对于任何特定的模型，公司可以选择完全保密权重，给予部分用户有限的访问权限，或者允许任何人下载完整权重。各国或各地区的参与者，尤其是资源较少的参与者，可以将开放权重模型用于研究和商业用途。但与封闭权重模型相比，开放权重模型更容易被修改，表现出潜在的有害行为，而且对其使用情况的监控也更加困难。

开放权重模型的参数可公开下载，对前文讨论的许多挑战有着显著的影响。AI模型的权重包含使其能够为用户生成有用响应的关键信息。开放权重模型一旦发布，这些权重就无法撤回，任何人都可以下载、研究、修改、共享，在自己的计算机或云账户中使用，使得减轻因发布具有危险能力的模型而造成的潜在危害变得更加困难。权重公开可用时，其他人可以更容易地在此基础上构建和修改模型，满足各种需求并推动创新。但通过同样的机制，恶意攻击者也可以更容易地移除安全措施并修改开放权重模型，用于恶意用途。这就引发了一个问题，是否应该对某些开放权重模型提出特殊要求，例如，发布前进行更严格的测试，或者是否应该给予特殊豁免，例如，免除监管报告要求。

3.4.1. 开放权重模型背景

大多数公开发布的模型不被称为开源，而是称为开放权重，因为虽然开发人员提供了模型权重，但他们并不发布相关的训练代码或数据集。此外，开源软件通常具有宽松的许可协议，对使用或修改该软件的下游参与者的要求极低。例如，Meta的Llama模型具有严格的许可条件，并且仅包含推理代码，不包含训练代码，因此通常不被视为开源软件。模型发布选项涵盖了从完全闭源到完全开源的各个层面，每个层面都存在不同的风险和收益之间的权衡问题。表3.7对这些选项进行了说明。

表3.7：模型共享示例，从完全封闭的模型（模型私有，仅供专有用途）到完全开放和开源的模型（模型权重、数据和代码均可免费公开获取，不受使用、修改和共享的限制）。前四类模型通常被称为封闭模型。来源：改编自Bommasani，2024。

3.4.2. 优势与风险

开放权重模型为研究、创新和访问提供了显著优势。训练通用模型的成本极高，主流模型开发成本高达数亿美元。开放发布模型权重使得资源较少的参与者能够复制、研究和构建现有系统。如果没有这种访问权限，资源匮乏地区的人们可能无法获得AI带来的益处，因此开放权重对于促进全球大多数地区参与AI开发至关重要。下游开发人员可以针对不同的应用场景对模型进行微调，例如，使模型适用于资源匮乏的少数族裔语言，或针对特定任务（如法律文书起草或医疗记录）优化性能，开放权重模型可以让更多的群体使用AI并从中受益。对于功能不足以构成危险的模型而言，这些益处可能超过公开权重所带来的额外风险，这取决于相关的决策风险承受能力。

开放权重发布还能扩大能够研究模型、评估其功能、测试漏洞并迭代改进的开发人员和研究人员的范围。这使得发现有益的应用和有害的缺陷的可能性更大。用户还可以在自己的设备上运行开放权重模型，从而能够保持对敏感数据的控制，避免将其发送到第三方服务器。开发人员共享训练数据、代码、评估工具和文档以及模型权重等信息，还能带来其他益处。下游开发人员和其他研究人员能够获取更多的信息，就可以更好地理解开放权重模型，将其应用于新场景。

虽然可以通过对开放权重模型和封闭模型设置安全措施使其拒绝有害的用户请求，但开放权重模型中的安全措施更容易被移除，带来额外的风险。恶意攻击者可以通过微调模型优化其在有害应用中的性能，移除部分用于预防恶意应用的代码，或撤销之前的安全微调。因此，开放模型权重可能会加剧恶意行为带来的风险。开放权重模型允许攻击者利用和增强现有功能用于恶意行为，而无需监管。此外，恶意攻击者还可能利用开放权重模型识别类似封闭模型中的漏洞。此类缺陷由于发布封闭式模型的企业采取了更严格的控制和监控措施，仅靠运行封闭式模型更难找到能够实施的合适企业。

一旦模型权重可用于公开下载，无法实现对所有已经下载的信息进行全面回滚。GitHub和Hugging Face等互联网托管平台可以从其平台上移除模型，有些攻击者难以找到可下载的副本，为许多普通恶意用户设置了重大障碍。但如果模型已被下载并重新托管到其他地方或存储在本地，攻击者仍然可以获得副本。此外，集成到系统中的开放权重模型也会包含已出现的缺陷，例如可能引起对抗性攻击的漏洞或模型绕过监控系统的能力。与托管方可以普遍发布修复程序的封闭模型不同，开放权重模型开发人员无法保证用户会采用更新。

2025年以来，主流开放权重模型和封闭模型之间的能力差距已经缩小。中国的开发企业已成为开放权重模型的重要提供者。2025年1月，DeepSeek发布了R1模型，在多个基准测试中取得了与OpenAI的o1模型相当的性能。阿里巴巴的Qwen模型也同样获得了广泛关注，截至2025年8月，在广泛使用的性能基准测试工具Chatbot Arena上，其开放权重模型排名第一。2025年8月，OpenAI发布了自2019年GPT-2发布以来的首批开放权重模型gpt-oss-120b和gpt-oss-20b，Meta也发布了新的开放权重模型Llama。目前，在主要的AI基准测试中，主流封闭模型的性能领先主流开放模型不到一年（图3.12）。

3.4.3. 决策者面临的挑战

关键的证据缺口之一在于防止滥用开放权重模型的技术解决方案在实际应用中的有效性。研究人员提出了各种方法增强模型的抗篡改能力，包括使模型能够抵抗有害修改的新训练技术、过滤训练数据中的有害内容以及防御越狱。这些技术目前已被主要开发企业应用于实际模型中。例如，OpenAI在gpt-oss模型中采用了部分技术，OpenAI报告称，经过对抗性微调的版本并未达到较高的能力阈值。有研究表明，恶意攻击者可以通过重新训练模型在恶意场景中禁用安全措施。此外，如何可靠评估安全措施的鲁棒性，使得它们在应对现实攻击方面的有效性这一问题存在不确定性。

图3.12：Epoch 能力指数（ECI）显示表现最佳的开放权重模型（深蓝色）和封闭模型（浅蓝色）的得分。ECI将39个基准测试的得分合并为一个通用的能力等级。最佳开放权重模型的性能大约落后于封闭模型一年。来源：Epoch AI，2025。

针对开放权重模型风险的技术缓解措施贯穿AI开发和部署的整个过程。例如，在模型开发过程中，开发人员和下游适配程序可以从训练数据中过滤敏感内容，以最大限度地减少有害功能。从模型的训练数据中移除有害示例，可以比在训练后添加防御措施更有效地防止对抗性微调，效果高出10倍，尽管它也可能影响有益功能。AI企业还可以实施事件报告和响应机制。

此外，HuggingFace和GitHub等托管平台可以制定平台服务条款，移除被修改用于有害目的的模型。模型开发人员可以在发布前向审核人员提供完整访问权限，或者选择分阶段发布策略，逐步向更广泛的受众发布模型组，有助于在模型广泛应用之前识别潜在的故障或漏洞。

决策者面临的一项关键挑战是如何在不显著增加风险的情况下确保开放权重模型共享的益处。为避免灾难性损害，开放权重模型的开发人员在发布模型之前，应使用既定的评估方法评估风险。对于封闭模型，除了额外的测试，还需考虑恶意攻击者可能对模型进行微调并移除安全保护措施。在实践中，这可能很困难，因为能力发展难以预测，而且需要评估工作来预测发布何时会造成重大潜在危害。一种方法是评估开放发布的边际风险，即发布在多大程度上会增加社会风险，使其超出现有模型或其他技术风险。

评估系统部署后下游风险的增减情况十分复杂，而且取决于具体情况。即使每次发布的边际风险看似可以接受，但随着版本迭代，风险的逐步增加也会随着时间的推移而累积，最终导致总风险的大幅上升。AI能力的双重用途进一步加剧了治理的复杂性，用于医疗或研究等有益应用的功能可能被挪作他用，造成危害。一旦权重公开，区分合法用途和恶意用途就会十分困难。此外，开放权重模型被修改用于有害目的时，谁应该承担责任这一问题也尚不明确。

3.5. 构建社会韧性

社会韧性指社会系统抵抗、吸收、恢复和适应冲击和损害的能力。技术保障措施在部署过程中可能失效，一些风险仅在新的部署环境、与其他社会系统的交互或超出开发人员控制范围的连锁反应中才会出现。AI韧性构建工作是对风险管理实践和技术保障措施的补充，增加了在社会层面建立纵深防御层。

不同领域的不同参与者可以实施韧性建设措施。针对通用AI带来的风险，韧性建设措施的例子包括DNA合成筛查（针对AI引发的生物风险）、事件响应协议（针对AI辅助的网络攻击）和媒体素养计划（针对危害来自AI生成的内容），以及人机交互框架（用于应对可靠性和控制方面的挑战）。

当前的AI韧性构建工作发展不均衡，且大多未经检验。网络安全事件响应协议等措施相对成熟，但AI生成的内容检测算法等措施仍处于起步阶段。在AI领域，大多数措施的有效性缺乏依据，而且适当的干预措施会因地理、语言和社会经济背景而异。

主动构建韧性有助于创建安全、有益地采用和推广AI的生态系统。韧性代表了一种防御模型，加强社会抵御AI相关危害的能力。最终，AI系统的风险不仅源于孤立的AI模型，还源于其与资源、个人、组织、机构和技术的交互。随着通用AI系统越来越多地与更广泛的社会、技术和制度基础设施交互，它们可能会产生不可预测的新风险，而仅靠现有的安全措施无法预防这些风险。分层采取多种干预措施应对AI风险，避免过度依赖单一的安全措施，对组织风险管理实践和技术保障措施方面进行了补充。

即使技术保障措施能够减轻特定程度的危害，AI系统与社会基础设施之间复杂的交互作用仍可能带来风险。在现实世界的复杂性中，当AI模型与其他模型、工具、环境、参与者和网络交互时，保障措施的有效性会变得难以确定。灾害风险降低、气候、健康等其他领域的研究表明，增强韧性的措施可以降低技术系统带来的脆弱性，改善恢复结果。

3.5.1. 韧性增强措施

韧性建设措施按功能可分为四类（图3.13），抵抗措施在冲击发生前降低冲击的可能性或严重程度，吸收措施使社会系统能够在冲击期间维持关键功能，恢复措施帮助在冲击发生后恢复正常功能，适应措施改变社会系统，降低未来冲击的脆弱性。四个类别并不互斥，甚至经常出现重叠，一项措施可以同时且迭代地发挥多种功能。韧性建设措施可以针对特定风险，也可以广泛应用于多个领域。

图3.13：构建韧性涉及在冲击发生之前降低其发生的可能性或严重程度（抵抗）。如果发生冲击，增强韧性的措施包括：通过维持关键功能来吸收冲击（吸收），从损害和中断中恢复（恢复），以及降低对未来冲击的脆弱性（适应）。来源：《2026年国际AI安全报告》。

需要具备韧性的AI相关风险范围涵盖了从AI驱动的生物和化学攻击到大规模社会挑战。表3.7列举了针对生物和化学攻击、网络攻击、合成媒体和犯罪、影响和操纵以及可能适用于多个风险领域的跨领域措施的韧性建设措施示例，展示了其他领域的方法如何为本领域提供AI韧性策略。

表3.7：针对生物和化学、网络、合成媒体、影响和操纵以及跨领域风险的韧性建设措施示例。本表中的示例借鉴了非AI风险的历史案例。

仍然缺少证明AI韧性建设措施有效性的依据

目前仍然缺少针对AI的韧性建设措施有效性的具体证据或研究。教育是跨领域干预的例子之一，它可能与社会预测能力相关，需要应对与AI相关的风险。但要理解任何韧性建设措施的适当性和价值，需要进一步分析预期的危害及其可能发生的途径。背景以及地理、语言、社会经济因素、相关群体的特征都会影响韧性建设措施的有效性和适用性。

有效的韧性措施需要迭代开发

如图3.14所示，迭代框架可用于构建四个功能层面韧性建设措施的讨论框架。例如，在劳动力市场和不平等风险的背景下，抵抗措施可以包括预测技能监控机制，标记高风险职业，扩展数字基础设施，确保广泛获得AI赋能的机会。吸收措施可能包括公私合作培训和失业保险，支持帮助工人应对与AI相关的工作转型。恢复措施可能包括技能再培训和再发展计划，适应措施可能包括终身学习计划。

图3.14：韧性建设是迭代过程，受益于循证实施。它涉及预测、试点和评估，以及在部署后衡量结果，如观察-判断-决策-行动（OODA）反馈循环所示。来源：Enck，2012 。

韧性建设工作具有连锁效应

韧性建设措施可在不同领域相互作用。一个领域中未解决的脆弱性可能会在其他领域造成或加剧脆弱性。例如，2012年纽约飓风桑迪的案例表明，机场相对迅速地恢复了运营，但公路和铁路的延误导致航空公司员工无法上班，造成航班持续延误。另一方面，在积极的情况下，跨领域韧性的综合方法可以增强整体社会韧性，因为韧性建设措施可以相互促进。例如，跨社会系统和领域收集和共享数据可以支持对突发行为的情景分析，而实时信息共享能够促成更具适应性的应对措施。

AI本身可以增强社会韧性

AI本身既可能具有带来风险的能力，也能帮助加强社会防御。例如，AI可以通过增强大规模异常检测、恶意软件分类和网络钓鱼攻击防御来支持网络防御。同样，AI可以加强深度伪造检测和数字水印工具，降低AI生成内容导致的风险。针对不同的风险，证据表明AI可以通过提高预测、监测和响应工作的准确性、速度和效率，帮助加强应急、危机和灾害管理。新兴的通用AI能力预示着更加复杂的韧性应用。例如，AI可以通过加速潜在的医疗对策研发帮助应对生物和化学风险。研究表明，通用AI系统还可以支持对生物威胁的早期检测、快速响应和遏制。最近的研究表明，AI Agent可以识别软件漏洞，包括以前未发现的安全缺陷（称为零日漏洞），有助于相关人员采取防御措施。例如，谷歌的Big Sleep AI帮助安全研究人员发现零日漏洞，它直接破坏了攻击者对实际存在的漏洞的利用。此外，AI还展现出有效解决将高度脆弱的遗留计算机代码转换为更安全形式的巨大问题的潜力。

除了特定领域的应用之外，AI还可以通过加强机构和公共管理增强韧性，支持社会预测威胁、抵御冲击和适应新挑战。例如，有研究预测，AI可以提高透明度、降低监测和合规成本、促进协作并加强身份验证系统。正如互联网催生了新的商业模式和社交平台一样，AI可以促进公民参与、机构决策和跨部门文化合作的新方法。此外，AI还有可能加强政府职能。当人力不堪重负时，需要以前所未有的规模和速度重组政府机构以维持运转，有助于实现持续的民主投入。

利用AI增强韧性需要管理攻防平衡问题

利用AI增强韧性的方法存在风险。由于其双重用途的特性，开发用于防御AI威胁的AI能力可能会同时加速攻击能力的提升。这反过来可能会以不可预测的方式改变攻防平衡，改变攻击者和防御者之间的相对优势。防御能力更强时，损害发生的可能性和严重程度都会降低，但当攻击能力更强时，危害发生的可能性或破坏性就会增加。例如，软件漏洞检测工具也可能帮助恶意攻击者识别和利用攻击途径。通过分析海量数据流来增强政府透明度的AI系统也可能实现监控和社会控制。在生物安全领域，有研究表明，目前攻击能力被利用的更多。AI可能会进一步改变这种平衡。因此，致力于增强韧性的AI研究可能会无意中加剧风险，关于如何引导方向，仍存在许多悬而未决的问题。

攻防平衡向安全倾斜。决策者、投资者和研究人员必须权衡防御性AI的发展是否会带来净安全效益，或者它们是否可能使平衡向不利方向倾斜。这种评估要求他们不仅要预见防御技术的直接价值，还要预见它们可能带来的新危害。

图3.15：数据来自世界经济论坛的《全球网络安全展望》，该报告调查了来自57个国家的409名受访者，了解他们对关键基础设施遭受网络攻击的准备情况的看法。来源：世界经济论坛，2025年。

3.5.2. 技术研究、激励措施和韧性建设投资

社会韧性可以带来广泛的益处，但这些益处较为分散，可能导致各个利益相关者投资不足。因此，加强韧性通常需要不同利益相关方之间的协调，而这些利益相关方的激励机制各不相同。文献报告探讨了决策者可以利用其监管机构和机构能力影响韧性建设措施投资的多种途径，包括积极激励措施，例如提前作出市场承诺、提供税收抵免、推行公共采购政策以及降低监管门槛，增强私营企业参与韧性建设措施的积极性。另一方面，采取强制措施，例如责任框架和保险市场，与潜在损害成本的分配方式以及如何通过提高数据质量和自动化分析来收集证据有关。

市场对韧性研究和活动的支持不足，而政府机构、行业和慈善捐助者弥补了这些不足。例如，此前美国的国防高级研究计划局（DARPA）为互联网、合成生物学和碳纳米管的创建做出了关键贡献。目前，DARPA资助了“将老旧C代码全部转换为Rust”项目（Translating All C TO Rust，TRACTOR）。TRACTOR项目的目的是消除内存安全漏洞，增强网络安全。企业和机构也为支持韧性研究做出了贡献，例如，微软和OpenAI社会韧性基金会提供200万美元作为AI生成媒体的水印技术和风险教育活动等技术研究的催化资金。与此同时，非营利组织OpenAI基金会承诺投入250亿美元用于AI韧性技术解决方案等各项研究。竞赛和奖项也能促进韧性研究的提升。例如，在AI网络安全挑战赛中，顶尖的AI企业与美国政府合作开发AI系统，保护关键软件基础设施。政府机构还可以召集前沿AI企业，激励他们提供早期价格优惠的AI模型访问权限等技术支持，支持AI赋能的韧性建设工作。

依据收集通常依赖于协调的生态系统，需要对数据基础设施和访问协议进行大量投资。建立更强大的部署前评估、部署后监测和事件报告的依据基础，可以实现预测、韧性建设措施的试点、持续评估和迭代，如图3.14所示。法律建立AI开发人员、关键基础设施运营商和公共机构之间跨境数据共享的运营路径可以促进这一进程，AI本身也可以增强这一进程。通过提高数据质量和自动化分析来收集证据对社会基线特征的理解以及社会应对风险的准备情况，还可以支持韧性建设措施的评估。不同地区对风险和准备情况的认知可能存在很大差异，如图3.15所示。数字基础设施、技术素养、机构能力、监管框架、文化规范、语言特征和AI部署模式等都可能影响特定干预措施的最佳方法。有些国家政府在关键基础设施和社会韧性等领域开展了韧性评估。

3.5.3. 决策者面临的挑战

2025年以来，多方承诺为增强韧性建设工作提供初步资金。例如，OpenAI基金会承诺提供250亿美元用于AI韧性技术解决方案等技术研究，OpenAI自身也承诺投入5000万美元支持增强AI素养和公众理解、社会创新等各项举措。Anthropic宣布提供1000万美元用于对AI的经济影响进行严谨的研究和政策构想。英国AI安全研究所为专注于保护社会系统的项目提供了20万英镑的种子基金，总额高达400万英镑。与此同时，这些韧性投资相对于整体AI投资而言仍然有限，仅私人对生成式AI的投资一项，到2024年总投资额就将达到339亿美元，而OpenAI的“星门计划”等基础设施投资则涉及四年内5000亿美元的投入。

除了资金外，数据收集也有所增加。亚马逊、Anthropic、Cohere、谷歌、IBM、微软、Mistral AI和OpenAI等AI开发企业签署了欧盟的《通用人工智能行为准则》，这是一项不具约束力的治理文件。签署方承诺系统跟踪、记录和向欧盟AI办公室报告严重事件，加强有效韧性战略的知识基础，该准则将于2026年年中全面生效。

韧性建设方面的主要依据缺口在于通用AI风险方面和韧性建设措施有效性以及韧性增强方面的信息有限。虽然AI评估已通过自愿承诺和政策获得认可，但衡量通用AI系统能力和风险的方法仍处于起步阶段。对于AI系统与技术、社会和金融、教育或医疗等制度系统交互而产生的新兴风险，相关依据仍然十分匮乏，这些系统很可能会意外故障。尽管已有部署使用数据，但研究仍存在空白。不清楚哪些风险最有可能发生或后果最严重，因此难以设计有针对性的韧性建设措施。即使对风险有了更深入的了解，韧性建设措施有效性的相关依据仍然有限。迄今为止，许多AI韧性建设措施仍处于早期开发阶段或缺乏系统评估。

AI开发企业目前仅将通用AI潜在风险的部分成本内部化，但在投资韧性建设措施方面的动力和能力有限。这与资金缺口有关，已经实施的韧性投资相对于潜在风险的规模而言仍然有限。决策者面临以下问题：是否以及如何将激励机制在利益相关者之间转移，以及政府在多大程度上解决韧性建设措施的资金问题。决策者还面临着评估攻防权衡取舍的挑战，通用AI系统可以在网络安全等领域支持韧性建设，但同样的能力可能加剧这些领域的进攻性风险的问题。