
黑客可利用Anthropic公司的Claude AI窃取敏感用户数据。攻击者通过操纵该模型在代码解释器工具中新添加的网络功能,使用间接提示注入技术提取聊天记录等隐私信息,并直接上传至攻击者账户。
这项由Rehberger在2025年10月博客文章中披露的发现,凸显了AI系统与外部世界连接日益紧密所带来的风险。
漏洞原理
据Johann Rehberger分析,该漏洞源于Claude默认的"仅限包管理器"设置,该设置允许网络访问包括api.anthropic.com在内的有限批准域名列表。虽然本意是让Claude安全地从npm、PyPI和GitHub等站点安装软件包,但这个白名单却打开了后门。Rehberger证明,隐藏在文档或用户输入中的恶意提示可诱使AI执行访问用户数据的代码。
间接提示攻击链
Rehberger的概念验证(PoC)攻击始于间接提示注入,攻击者将有害指令嵌入看似无害的内容中,例如用户要求Claude分析的文件。
利用Claude近期推出的"记忆"功能(该功能允许AI引用过往对话),攻击载荷指示模型提取最近的聊天数据,并将其保存为代码解释器沙箱中的文件(路径为/mnt/user-data/outputs/hello.md)。
随后,攻击迫使Claude使用Anthropic SDK运行Python代码。该代码设置攻击者API密钥的环境变量,并通过Claude的文件API上传文件。关键在于,上传目标是攻击者账户而非受害者账户,从而绕过正常认证。"第一次尝试就成功了,"Rehberger指出,尽管Claude后来对明显的API密钥产生警觉,需要借助简单的print语句等无害代码进行混淆以规避检测。
演示视频和截图展示了整个过程:攻击者查看空的控制台,受害者处理被篡改的文档,片刻后被盗文件出现在攻击者仪表盘中——每次上传可达30MB,且支持多次上传。这种"AI杀伤链"可能扩展到其他允许列表中的域名,加剧威胁。
漏洞披露与应对
Rehberger于2025年10月25日通过HackerOne向Anthropic负责任地披露了该问题。Anthropic最初以"模型安全问题"为由认为不在漏洞范围内,后在10月30日承认这是一个有效漏洞,称存在流程错误。
该公司文档已警告网络出口可能导致的数据外泄风险,建议用户密切监控会话并停止可疑活动。Simon Willison等专家认为这是AI安全"致命三重奏"的一部分:强大模型、外部访问和基于提示的控制。
为缓解风险,Anthropic可强制执行沙箱规则,限制API调用仅限登录用户账户。用户应禁用网络访问或谨慎使用域名白名单,避免默认设置带来的虚假安全感。
随着Claude等AI工具更深融入工作流程,此类漏洞提醒我们:连接性孕育危险性。若缺乏强有力的防护措施,本应提供帮助的自动化系统可能沦为黑客的游乐场。
参考来源:
Hackers Can Manipulate Claude AI APIs with Indirect Prompts to Steal User Data
                本文为  独立观点,未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件,请联系 FreeBuf
                客服小蜜蜂(微信:freebee1024)
              
                    


