黑客可利用间接提示操纵Claude AI API窃取用户数据

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户，每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序把安全装进口袋

AI安全

黑客可利用Anthropic公司的Claude AI窃取敏感用户数据。攻击者通过操纵该模型在代码解释器工具中新添加的网络功能，使用间接提示注入技术提取聊天记录等隐私信息，并直接上传至攻击者账户。

这项由Rehberger在2025年10月博客文章中披露的发现，凸显了AI系统与外部世界连接日益紧密所带来的风险。

漏洞原理

据Johann Rehberger分析，该漏洞源于Claude默认的"仅限包管理器"设置，该设置允许网络访问包括api.anthropic.com在内的有限批准域名列表。虽然本意是让Claude安全地从npm、PyPI和GitHub等站点安装软件包，但这个白名单却打开了后门。Rehberger证明，隐藏在文档或用户输入中的恶意提示可诱使AI执行访问用户数据的代码。

间接提示攻击链

Rehberger的概念验证(PoC)攻击始于间接提示注入，攻击者将有害指令嵌入看似无害的内容中，例如用户要求Claude分析的文件。

利用Claude近期推出的"记忆"功能（该功能允许AI引用过往对话），攻击载荷指示模型提取最近的聊天数据，并将其保存为代码解释器沙箱中的文件（路径为/mnt/user-data/outputs/hello.md）。

随后，攻击迫使Claude使用Anthropic SDK运行Python代码。该代码设置攻击者API密钥的环境变量，并通过Claude的文件API上传文件。关键在于，上传目标是攻击者账户而非受害者账户，从而绕过正常认证。"第一次尝试就成功了，"Rehberger指出，尽管Claude后来对明显的API密钥产生警觉，需要借助简单的print语句等无害代码进行混淆以规避检测。

演示视频和截图展示了整个过程：攻击者查看空的控制台，受害者处理被篡改的文档，片刻后被盗文件出现在攻击者仪表盘中——每次上传可达30MB，且支持多次上传。这种"AI杀伤链"可能扩展到其他允许列表中的域名，加剧威胁。

漏洞披露与应对

Rehberger于2025年10月25日通过HackerOne向Anthropic负责任地披露了该问题。Anthropic最初以"模型安全问题"为由认为不在漏洞范围内，后在10月30日承认这是一个有效漏洞，称存在流程错误。

该公司文档已警告网络出口可能导致的数据外泄风险，建议用户密切监控会话并停止可疑活动。Simon Willison等专家认为这是AI安全"致命三重奏"的一部分：强大模型、外部访问和基于提示的控制。

为缓解风险，Anthropic可强制执行沙箱规则，限制API调用仅限登录用户账户。用户应禁用网络访问或谨慎使用域名白名单，避免默认设置带来的虚假安全感。

随着Claude等AI工具更深融入工作流程，此类漏洞提醒我们：连接性孕育危险性。若缺乏强有力的防护措施，本应提供帮助的自动化系统可能沦为黑客的游乐场。

参考来源：

Hackers Can Manipulate Claude AI APIs with Indirect Prompts to Steal User Data

本文为独立观点，未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件，请联系 FreeBuf 客服小蜜蜂（微信：freebee1024）