
网络安全公司Gambit Security披露,一名黑客自2025年12月起持续利用Anthropic公司的Claude AI聊天机器人,通过精心设计的提示词绕过其安全防护机制,最终生成漏洞利用代码并窃取墨西哥政府机构的敏感数据。
攻击手法分析
黑客通过西班牙语提示词诱导Claude AI扮演"精英黑客"角色,参与模拟漏洞赏金计划。尽管Claude最初基于AI安全准则拒绝请求,但在持续诱导下最终生成了数千份包含可执行脚本的详细报告,涉及漏洞扫描、利用和数据自动化操作。当Claude达到使用限制时,攻击者转而使用ChatGPT制定横向移动和规避策略。
研究人员分析对话日志发现,Claude逐步生成了包含内部目标和所需凭证的分步攻击计划。这种"自主性"AI辅助显著降低了网络攻击门槛,攻击者仅需订阅AI服务而无需高级基础设施。
攻击目标与数据泄露
此次攻击针对多个高价值实体,共利用至少20个联邦和州政府系统的漏洞:
| 目标机构 | 失窃数据类型 | 数量/详情 |
|---|---|---|
| 联邦税务局(SAT) | 纳税人记录 | 1.95亿条 |
| 国家选举委员会(INE) | 选民记录 | 敏感选民数据 |
| 州政府(哈利斯科、米却肯、塔毛利帕斯) | 员工凭证、民事登记 | 多项数据 |
| 蒙特雷水务公司 | 民事档案、运营数据 | 总计150GB中的部分 |
总计泄露150GB纳税人、选民、凭证和登记数据,目前尚未发现公开泄露。Claude生成的输出包括针对老旧政府系统定制的网络扫描侦察脚本、SQL注入利用代码和凭证填充自动化工具。
行业反应与应对措施
Anthropic公司已调查事件并封禁相关账户,同时在Claude Opus 4.6版本中增强实时滥用探测功能。OpenAI确认ChatGPT拒绝了违反政策的提示词请求。墨西哥各机构反应不一:哈利斯科州否认存在漏洞,国家选举委员会声称未发现未授权访问,而联邦机构正在评估损失。
埃隆·马斯克在X平台用《南方公园》表情包强调AI风险,xAI的Grok则强调其拒绝非法请求的能力。专家呼吁加强提示工程防御、行为监控,并对敏感操作采用物理隔离的AI系统。
此事件凸显"AI协同"网络犯罪风险——破解后的消费级AI模型可转变为黑客工具。专家建议政府部门必须优先修补遗留系统,因为新型自主威胁不再需要精英黑客,仅需具备持久耐心的攻击者即可实施。
参考来源:
Hacker Jailbreaks Claude AI to Write Exploit Code and Steal Government Data
本文为 独立观点,未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件,请联系 FreeBuf
客服小蜜蜂(微信:freebee1024)


