提示词注入攻击可使AI驱动的网络安全工具反噬自身
研究表明,AI驱动的网络安全工具存在提示词注入漏洞,攻击者可植入恶意指令劫持工具反噬系统。研究人员测试开源CAI代理发现其误判合法指令执行恶意代码。防御需结合沙箱隔离、模式过滤、文件监控及AI验证机制应对新型绕过技术。 2025-9-2 21:58:23 Author: www.freebuf.com(查看原文) 阅读量:2 收藏

freeBuf

主站

分类

云安全 AI安全 开发安全 终端安全 数据安全 Web安全 基础安全 企业安全 关基安全 移动安全 系统安全 其他安全

特色

热点 工具 漏洞 人物志 活动 安全招聘 攻防演练 政策法规

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户,每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序

image

研究表明,攻击者可通过提示词注入(Prompt Injection)攻击劫持AI驱动的网络安全工具,使其反噬自身系统。安全专家Víctor Mayoral-Vilches和Per Mannermaa Rynning揭示了现代AI渗透测试框架的致命缺陷——当恶意服务器在看似无害的数据流中植入隐藏指令时,这些自动化工具就会沦为攻击跳板。

**核心发现**  
1. 通过嵌入恶意指令劫持AI安全代理  
2. 利用编码转换、Unicode技巧和环境变量泄露绕过过滤机制  
3. 防御需结合沙箱隔离、模式过滤、文件写入监控及AI验证  

提示词注入漏洞原理

研究人员使用了一款开源的网络安全AI(CAI)代理进行测试,该工具能自动扫描、利用并报告网络漏洞。在一次常规HTTP GET请求中,CAI代理接收了带有安全标记的网页内容:

AI驱动的网络安全工具遭提示词注入攻击

该代理将"NOTE TO SYSTEM"前缀误判为合法系统指令,自动解码base64载荷并执行了反向shell命令。攻击者仅用20秒就获得了测试环境的shell访问权限,完整演示了从"初始侦察"到"系统沦陷"的攻击链。

攻击者可通过多种手段规避简单模式过滤:

  • 采用base32、十六进制或ROT13等替代编码
  • 将载荷隐藏在代码注释和环境变量输出中
  • 利用Unicode同形字(homograph)混淆恶意指令,借助代理的Unicode规范化处理绕过检测

AI安全工具反噬攻击示意图

防御措施建议

构建多层防御体系应对提示词注入:

  • 环境隔离:在Docker或容器环境中执行所有命令,限制横向移动
  • 模式检测:在curl和wget封装层实施过滤,拦截含$(env)等shell替换模式的内容
  • 写入防护:监控文件写入系统调用,阻止含base64或多层解码命令的可疑脚本
  • AI验证:通过二级AI分析区分真实漏洞证据与攻击指令,严格隔离"分析"与"执行"通道

随着大语言模型(LLM)能力演进,新型绕过技术将不断涌现,这场攻防对抗将延续早期Web应用XSS防御的发展轨迹。部署AI安全代理的组织必须建立完整防护机制,持续监控新兴的提示词注入技术以维持有效防御。

参考来源:

AI-Powered Cybersecurity Tools Can Be Turned Against Themselves Through Prompt Injection Attacks

本文为 独立观点,未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件,请联系 FreeBuf 客服小蜜蜂(微信:freebee1024)


文章来源: https://www.freebuf.com/articles/ai-security/447076.html
如有侵权请联系:admin#unsafe.sh