继LLM(大语言模型)之后,AI Agent(智能体)正掀起新一轮的技术革命。它们不再仅仅是语言的“复读机”,而是能够自主理解、规划并执行现实世界任务的“行动派”。从自动预订旅行、管理复杂的云资源,到处理成千上万封邮件,AI Agent展现出的巨大潜力,预示着一个由AI驱动的自动化新纪元。
然而,在这片充满希望的蓝海之下,一股汹涌的暗流正在涌动。
2025年5月,AI安全公司Invariant披露了一个有关GitHub MCP集成的严重漏洞。攻击者可通过在公共存储库中放置恶意问题,劫持开发者的AI Agent(如Claude Desktop中的Claude 4 Opus),诱导其主动泄露私有仓库的数据。这种“中毒代理流”攻击完全绕过了GitHub的权限系统,导致用户隐私和商业机密信息泄露。
2025年8月,AI搜索独角兽Perplexity打造的AI浏览器Comet中被发现存在一个严重安全漏洞。Comet本质上是一款能够代替用户完成浏览器操作的AI Agent,攻击者将恶意指令隐藏在Reddit帖子里,AI Agent自动读取并执行登录邮箱、获取验证码、将Cookie和token回传给攻击者的操作,造成信息窃取,整个过程仅需150秒,无需用户点击。
2025年8月,AI编程工具Cursor被发现存在高危漏洞“CurXecute”(CVE - 2025 - 54135)。攻击者可利用其对MCP协议实现的缺陷,通过第三方服务器发布恶意消息,诱导AI执行任意命令,实现远程代码执行。
针对Agent的攻击事件还在继续,无不指向一个核心问题:AI Agent的“失控” 并非偶然,背后潜藏着哪些深层的驱动因素?
(AI Agent 的“失控”根源)
AI Agent通常是由LLM驱动、与现实世界的工具及知识库进行交互的智能代理,具备深度推理、自主决策和动作执行的能力。与传统软件的静态运行逻辑相比,AI Agent具有极高的动态适应性和行动自主性。
然而,AI Agent复杂的技术架构与自主工作模式使其暴露出四大安全缺陷:
输入端——过度依赖不可信环境输入
AI Agent运行时需要从外部环境(如邮件系统、论坛、GitHub等)获取各类信息,但这些环境可被攻击者渗透,导致恶意指令以环境注入的方式进入AI Agent系统,成为攻击向量的起点。
规划端——自然语言媒介的模糊二义性 AI
Agent以自然语言作为工作媒介,而自然语言本身存在模糊性,无法清晰区分指令与数据、可信与不可信来源,这使得攻击者可利用该特性实施LLM劫持,干扰 AI Agent的正常决策。
行动端——以过高权限访问并操纵用户资源
为了完成用户委托的任务,AI Agent必须访问数据库、凭证、信息资产等用户敏感数据,这种直接接触使得敏感信息在AI Agent处理过程中面临被窃取、滥用、篡改的风险。
输出端——对外输出缺乏有效管控
AI Agent拥有向外部世界自由输出信息的能力,可通过邮件、评论、云盘等多种渠道传递内容,一旦被劫持,攻击者可利用此弱点窃取敏感信息、破坏信息完整性甚至实施资金盗取等行为。
当这些缺陷被攻击者利用时,AI Agent面临前所未有的安全挑战,典型安全威胁包括但不限于:
一个严峻的问题摆在面前:如何确保AI Agent不会“失控”?
面对AI Agent新兴的安全挑战,人们尝试了多种传统防御手段,但效果不尽人意。
这些传统方案的根本缺陷在于,将AI Agent等价于传统软件,将AI Agent行为视为遵循固定逻辑的无智能机械实体,既未深入解析AI Agent“思考” 与 “行动” 的动态过程,更无法在其动态生成的复杂行动计划付诸实施前,开展结构化、可验证的安全分析。
我们需要一种全新的范式,从根本上改变游戏规则。
(软件工程经典领域 v.s. Al Agent 全新领域)
为了从根源上解决AI Agent的安全困境,字节跳动安全研究团队提出了全新的智能体安全框架——Jeddak AgentArmor。
AgentArmor的设计哲学——将AI Agent运行时的行为轨迹,视为一段可分析、可验证的结构化程序。
这一视角彻底扭转了局面。它意味着,我们可以将对模糊、善变的“自然语言”的分析,转变为对精确、严谨的“程序语言”的分析。如此一来,过去几十年在软件工程领域积累的成熟技术和思路,如程序分析和软件验证,便可直接应用于AI Agent安全领域。
如果说传统安全方案是在给一辆“黑盒”汽车安装外部护栏和摄像头,那么AgentArmor则是直接拿到了这辆车的“设计蓝图”和“电路图”,在汽车每次失控前,能精准剖析出问题部件与步骤,并从根源处阻止、缓解、响应风险点。
(AgentArmor 智能体安全框架)
为了实现这一技术目标,AgentArmor设计了三大核心组件:
(AgentArmor 基于程序依赖图与类型系统的安全工作流)
在AI Agent工作时,AgentArmor首先借助图构建器,将AI Agent运行过程中的执行轨迹迅速且精准地转化为程序依赖图,从而清晰呈现其控制流与数据流。接着,依靠属性注册表进一步完善程序依赖图,不仅详细添加AI Agent调用工具的内部数据流细节,还为程序依赖图中的数据节点与行为节点设置初始类型,以此赋予各节点安全属性。最后,通过类型系统全面完善整个图中的类型标签,并严格对程序依赖图开展类型检查,以切实防止任何不安全的操作出现,确保AI Agent的运行安全。
值得一提的是,AgentArmor类型系统中囊括了三大类型,满足用户与社会对于AI Agent在不同侧面上的安全期待:
AgentArmor三大类型概念的提出,体现了我们对AI Agent安全版图的总体认知——信任、安全、健壮、可靠、可控,是AI Agent实现大规模应用的前提。
理论的先进性最终需要海量评估与测试实验来检验。
在业界公认的AI Agent安全基准测试平台AgentDojo上,AgentArmor接受了严苛的考验。在覆盖企业办公、金融管理、个人旅行等多种高风险场景、数百个真实世界任务、7000多个安全测试用例中,AgentArmor表现出了优异的防御性能:
在与其他传统竞争技术路线对比中,AgentArmor的安全防御能力(以攻击成功率下降幅度衡量)和效用维持能力(以正常任务完成率衡量)亦展现出显著的相对优势。
对比技术路线 | Basic idea | 举例 | AgentArmor 安全优势 | AgentArmor效用优势 |
---|---|---|---|---|
系统级安全类 | 策略执行、规划-执行隔离等 | Progent、Camel | 持平 | 优胜 (>20%) |
提示词安全加固类 | 在提示词中强化安全约束 | Repeat、Spotlight | 优胜 (>10%) | 优胜 (>5%) |
内容过滤器类 | 过滤工具返回中的恶意指令 | 提示词注入检测器 | 优胜 (>5%) | 优胜 (>20%) |
对抗训练类 | LLM基模在对抗样本上训练 | SecAlign | 持平 | 持平 |
特别地,对抗训练类技术路线虽与AgentArmor性能相当,但面临泛化性欠佳、需访问基座模型、训练成本高、不支持增量变更与策略微调、解释性不足、不可验证等挑战,致使其实用性远低于AgentArmor。
AgentArmor的核心性能仍在持续迭代中。
(AgentArmor 以“行为零信任”理念与 Al Agent 运行时集成)
AgentArmor受“零信任”架构与理念启发,确保所有对外行为都经过输出验证。通过“运行态执行交互”与“控制态策略决策”双向联动,与AI Agent深度集成,在不改变其原有功能架构的前提下构建全流程安全防护体系,核心模块是:
在AI Agent运行时,AgentArmor的安全工作流是:
此集成模式覆盖用户交互、LLM调用、环境调用全链路,通过“行为数据-策略结果”实时联动,支持快速响应业务变化或新型攻击,使AI Agent“能干活”且“不闯祸”,形成“可感知、可干预、可进化”的安全共生体。
AgentArmor的概念发布只是一个开始。未来,字节跳动安全研究团队将着力于AgentArmor核心技术的迭代升级,把目光聚焦在技术能力的产品化封装层面;同时,逐步把核心能力拓展至AI Coding、ChatBI Agent、OS Agent等垂直领域,为这些领域的智能应用提供支持。
更重要的是,团队计划将Jeddak AgentArmor的核心框架开源,贡献给社区,并希望与全球的开发者一起,共同打造一个更加繁荣、也更加安全的AI Agent生态系统。