LLM 间接提示注入漏洞解析与防御路线

LLM 间接提示注入漏洞解析与防御路线
大语言模型面临安全风险，“提示注入”是主要威胁。间接提示注入通过隐藏指令在外部内容中提高攻击成功率。模型无法区分指令与数据。攻击者可植入恶意指令窃取信息或钓鱼。防御措施包括输入过滤、指令结构强化和模型调优。 2025-8-15 02:27:17 Author: vipread.com(查看原文) 阅读量:14 收藏

演示首先概述了LLM面临的普遍安全风险，并引用OWASP的报告，强调“提示注入”是首要威胁。近期多所国际知名大学的论文被发现植入了操控AI给出好评的隐形指令，这便是提示注入的实例。研究数据表明，与直接提示注入相比，间接提示注入（IPI）的攻击成功率要高得多，因为它将恶意指令隐藏在模型处理的网页、文档等外部内容中，模型在解析时会自动执行。

接着，文稿深入分析了IPI的攻击原理。其有效性的关键在于模型本身无法区分“指令”和“数据”，且缺乏“不执行外部数据中指令”的意识。实证研究表明，即使是更强大的模型，也普遍受IPI影响，且攻击成功率更高，而现有的缓解技术（如提示工程和微调）虽有改善，但效果有限，并可能牺牲模型的实用性。

为了说明其危害，文稿展示了一个真实的攻击链条：攻击者将恶意指令（如窃取历史对话、钓鱼用户凭据）植入PDF文档中。当用户上传该文档让AI进行翻译或总结时，AI会执行恶意指令，将用户的历史对话记录发送到攻击者服务器，或生成一个仿冒的登录页面来骗取用户账号密码。测试显示，国内外多款主流大模型均存在此类风险。

最后，针对IPI攻击，演示提出了一个由输入过滤、指令结构强化和模型自身调优构成的纵深防御体系。具体措施包括：在模型处理输入前进行恶意指令检测；在架构上明确区分系统指令、用户指令和外部内容；以及通过安全增强微调，提升模型自身区分指令与数据的能力。

文章来源: https://vipread.com/library/topic/4009
如有侵权请联系:admin#unsafe.sh