大模型安全实践(白皮书下载)
《生成式人工智能服务管理暂行办法》等政策发布,强调发展与安全并重原则。大模型作为AI重要分支,在推动社会进步的同时面临安全性、可靠性、可控性等挑战。白皮书提出总体框架和技术实施方案,并探讨了机器幻觉、智能涌现及外部攻击等问题。强调"以人为本,AI向善"原则,确保技术服务于人类福祉。 2025-10-10 02:52:56 Author: www.freebuf.com(查看原文) 阅读量:4 收藏

图片

《生成式人工智能服务管理暂行办法》《科技伦理审查办法(试行)》等政策相继发布,提出要坚持发展与安全并重原则,强化科技伦理风险防控,并从技术发展与治理、服务规范、监督检查与法律责任等层面对大模型安全发展提出了要求。大模型作为 AI领域的一个重要分支,日益成为推动社会进步和创新的关键力量。依托于庞大的参数规模、海量的训练数据、强大的算力资源,大模型在多个领域的能力已超越人类。而纵观历史,每一轮新技术革命都会带来社会的变革与不确定性,随着大模型能力的不断增强,大模型的安全性、可靠性、可控性正面临前所未有的挑战。

伴随大模型的深度应用,产学研用各方也加强了大模型安全威胁和防御技术体系研究,在原有可信人工智能治理体系框架基础上,提升大模型的鲁棒性、可解释性、公平性、真实性、价值对齐、隐私保护等方向的能力成为行业研究热点。安全评测技术和安全防御技术不断成熟也有效护航了大模型发展。大模型正在成为推动各垂类领域产业升级的关键核心力量。金融、医疗、教育、政务、制造等众多领域都在积极探索大模型安全应用范式,以应对大模型安全风险。

《大模型安全实践(2024)》白皮书首次系统化提出安全实践总体框架,从安全性、可靠性、可控性等维度给到了技术实施方案,同时提供了金融、医疗、政务等领域的大模型安全应用案例,以及"五维一体"协同共治的治理框架,为大模型行业规范高质量发展提供技术和实践的建议与参考。

大模型技术正成为推动社会进步和创新的关键力量。然而随着大模型能力的不断增强,其安全性、可靠性、可控性受到前所未有的挑战,如研发过程中引发信息泄露、价值对齐、机器幻觉等问题,以及落地过程中面临的数据、模型、算法及其运行的软硬件环境安全风险。

图片

该白皮书确立了"以人为本,AI向善"为大模型安全建设的核心,确保技术进步服务于人类福祉;以"安全、可靠、可控"三个核心维度的大模型安全技术体系,并涵盖了大模型安全测评与防御的综合技术方案;以及"端、边、云"为大模型安全技术的主要承载实体。

作为报告核心,大模型安全技术体系里,安全性意味着确保模型在所有阶段都受到保护,涉及数据安全、模型安全、系统安全、内容安全、认知安全和伦理安全等;可靠性要求大模型在各种情境下都能持续提供准确、一致、真实的结果;可控性关乎模型在提供结果和决策时能否让人类了解和介入,可根据人类需要进行调适和操作。通过这三个维度,可提升大模型的鲁棒性、可解释性、公平性、真实性、价值对齐、隐私保护等方向的能力。

白皮书指出安全评测技术和安全防御技术也是保障大模型安全的有效手段,但目前大模型的安全评测绝大多数是针对内容类场景,随着大模型技术快速发展和广泛应用,对Agent这类复杂大模型应用架构和未来通用AGI的评估是当下面临的挑战。制定标准建立面向未来的大模型可信测评体系将会变得越来越重要,这需要政府、高校等机构,联合有相关经验的企业共同合作。

大模型技术面临的主要挑战

大模型技术存在自身缺陷,包括生成内容不可信、能力不可控以及外部安全隐患等问题,带来诸多风险挑战。

一是机器"幻觉"问题影响生成内容的可信度。模型在遵循语法规则的同时,可能产生包含虚假或无意义的信息。这一现象源于大模型基于概率推理的输出方式,它可能导致对模糊预测的过度自信,从而编造错误或不存在的事实。

二是"智能涌现"效应使模型能力不可控。虽然"智能涌现"让模型展现出色性能,但其突发性、不可预测性和不可控性带来了潜在风险。例如,某些大型语言模型在被激怒时甚至威胁用户,显示了其不可控性,引起研究人员对强大AI 模型可能带来的灾难性后果的警觉。

三是大模型的脆弱性和易受攻击性使得外部安全隐患难以消除。技术特性上的绝对安全无法保证,随着大模型技术的快速发展,相关的网络攻击也在增多。大模型应用降低了查找漏洞和发动系统攻击的难度,若被恶意植入后门,其安全性将受严重威胁。例如,攻击者利用某些大型语言模型生成自动攻击代码,加剧了系统安全隐患。

大模型安全建设基本原则

"以人为本,AI 向善"作为人工智能发展的核心原则之一,是大模型安全建设的最基本指导思想,也是发展大模型安全的最初立意以及最终目的。其基本要求在于:

——安全:数据安全、模型安全、应用安全、内容安全、伦理安全、认知安全
——可靠:鲁棒性、真实性、价值对齐
——可控:可解释、可标识、指令遵循
——可持续发展:社会福祉、环境保护

可控性关乎模型在提供结果和决策时能否让人类了解和介入,可根据人类需要进行调适和操作。可控的模型可以增加透明度,允许用户根据需要调整模型的行为。基于大模型训练的原理特性,其可解释性和可控性都更为困难。为此,对于大模型的可解释性、大模型应用系统的可解构设计和对大模型生成内容的标识和追踪,以及提升大模型的指令遵循能力等方面都值得深入研究。

图片

大模型安全技术实施方案

云平台服务凭借其成熟的安全防御体系,能够支撑起广泛的服务需求。然而,这也要求企业从基础设施安全、系统级安全到应用和数据层面的安全上进行全面的考虑和实施,以确保云环境中每一层都得到充分的保护。这既包括实现可靠的身份认证和授权管理系统,也包括在云环境中实施端到端的数据加密策略,以及制定严格的数据访问和处理规则,确保在云平台上运行的服务和数据的安全。

图片

端侧部署模式考虑到终端设备的物理可接触性、较浅的安全防御深度以及广泛的攻击面,安全策略应集中在确保设备的物理安全,保护用户隐私,以及维护模型的完整性上。这包括但不限于加强设备访问控制,采用数据加密技术保护用户数据隐私,以及实施模型加固措施,以防止潜在的恶意篡改。相比云平台服务的大模型,边缘设备和端侧的大模型安全,因其受设备安全和算力等诸多资源的限制,其安全防护方案相对云端会有轻量和易受攻击的特点。

图片

在海量数据上训练的大规模生成式模型还可能遭受数据窃取攻击。具体来说,模型在训练过程中会记忆一部分训练数据,攻击者可以设计特定的攻击策略将这些训练数据从模型内部窃取,严重威胁了模型的数据安全。在生成式语言模型上,针对GPT-2 进行了数据窃取攻击研究,在正常情况下GPT-2 很少生成包含个人隐私的回复,模型的基本安全性有所保障。

在生成式人工智能的训练过程中,常常要用到第三方提供的数据集,这已经成为深度学习中一个主流的范式,但是模型训练过程中隐藏的风险还未被全面发现并解决。模型在训练时若使用了未经过检查的第三方数据集,或者直接使用未经过检查的模型,便有可能遭受数据投毒攻击。

图片

具体而言,攻击者尝试在数据注入有毒数据引起后门,一旦后门被注入成功,攻击者可以轻松操纵模型输出,使得模型在干净的输入样本的表现与正常的模型并无二样,但是对于一些恶意的被"下毒"的输入样本,模型的输出被攻击者控制。

图片

生成式人工智能系统可以被理解为基于大规模复杂分布式系统建立的人工智能系统。除了多模态数据、人工智能模型外,人工智能系统平台还包括硬件基础设施、框架依赖库等多种计算机系统组件,通过分布式计算集群为多方终端用户提供生成式人工智能服务。

面向海量承载和连接人工智能运转的AI 机器人等物联网设备和具身化应用,攻击者可以通过多种攻击方式对智能体设备进行打击,从而驱使人工智能体成为犯罪工具。例如,攻击者可以从外部访问物联网设备,基于物理攻击修改内存或计算,通过与有故障的智能体设备交互从而实现攻击。

图片

数据层面保护训练数据的安全及对话过程中的交互数据安全,模型安全包括提高模型对抗恶意攻击的能力,增强模型的解释性以及保护模型中的隐私信息。其次,系统安全,强调模型运行环境和周边系统的安全性。讨论部署环境的安全性、通信的安全性、访问控制以及审计和监控的重要性。

图片

面对大模型越狱攻击,在大模型推理生成的不同关键阶段中,采用差异化的防御策略可以显著提升系统整体的安全性,有效遏制可能产生的越狱威胁。当前的防御方法可以分为,模型生成优化:通过在模型的训练和部署过程中引入更加复杂的加密算法和鲁棒性强的深度学习技术,可以有效降低越狱攻击的成功概率;系统提示优化:指大模型内置的提示词,在用户输入提示词后,系统提示词和用户输入的提示词进行拼接之后输入到大模型当中;输入输出检测:通过监测模型输入和输出的内容,系统可以及时发现并拦截潜在的越狱攻击行为。

![图片](https://mmbiz.qpic.cn/sz_mmbiz_png/L1thbEUDRFTpl7UZU6VSyyKNKZdxsYgtLyZotVicRs4wVOr4GT562lB4E5siayUdk2XUNOuy8wZgOyM4cnXrgHSQ/640?wx_fmt=png&from=appmsg&watermark=1&tp=wxpic&wxfrom=


文章来源: https://www.freebuf.com/articles/452114.html
如有侵权请联系:admin#unsafe.sh