LLM 间接提示注入 漏洞解析与防御路线
大语言模型面临安全风险,“提示注入”是主要威胁。间接提示注入通过隐藏指令在外部内容中提高攻击成功率。模型无法区分指令与数据。攻击者可植入恶意指令窃取信息或钓鱼。防御措施包括输入过滤、指令结构强化和模型调优。 2025-8-15 02:27:17 Author: vipread.com(查看原文) 阅读量:13 收藏

演示首先概述了LLM面临的普遍安全风险,并引用OWASP的报告,强调“提示注入”是首要威胁。近期多所国际知名大学的论文被发现植入了操控AI给出好评的隐形指令,这便是提示注入的实例。研究数据表明,与直接提示注入相比,间接提示注入(IPI)的攻击成功率要高得多,因为它将恶意指令隐藏在模型处理的网页、文档等外部内容中,模型在解析时会自动执行。

接着,文稿深入分析了IPI的攻击原理。其有效性的关键在于模型本身无法区分“指令”和“数据”,且缺乏“不执行外部数据中指令”的意识。实证研究表明,即使是更强大的模型,也普遍受IPI影响,且攻击成功率更高,而现有的缓解技术(如提示工程和微调)虽有改善,但效果有限,并可能牺牲模型的实用性。

为了说明其危害,文稿展示了一个真实的攻击链条:攻击者将恶意指令(如窃取历史对话、钓鱼用户凭据)植入PDF文档中。当用户上传该文档让AI进行翻译或总结时,AI会执行恶意指令,将用户的历史对话记录发送到攻击者服务器,或生成一个仿冒的登录页面来骗取用户账号密码。测试显示,国内外多款主流大模型均存在此类风险。

最后,针对IPI攻击,演示提出了一个由输入过滤、指令结构强化和模型自身调优构成的纵深防御体系。具体措施包括:在模型处理输入前进行恶意指令检测;在架构上明确区分系统指令、用户指令和外部内容;以及通过安全增强微调,提升模型自身区分指令与数据的能力。


文章来源: https://vipread.com/library/topic/4009
如有侵权请联系:admin#unsafe.sh