AI 实验室全面进军安全：OpenAI + Anthropic 2025-2026 攻防全景

AI 实验室全面进军安全：OpenAI + Anthropic 2025-2026 攻防全景
好的，我现在需要帮用户总结一篇文章，控制在100字以内。用户给了一篇关于2026年2-3月AI实验室发布安全产品的文章。首先，我要理解文章的主要内容。文章提到Anthropic和OpenAI在两周内发布了安全产品，影响了传统安全厂商的市值。Anthropic的Claude Opus 4.6发现了500多个零日漏洞，Firefox合作中发现了22个CVE。Claude Code Security产品化，直接冲击市场，导致150亿美元市值蒸发。 OpenAI方面，Codex Security上线，发现了14个CVE，并引入了Trusted Access机制。文章还讨论了攻防不对称、AI作为军火商的影响以及社区反应。接下来，我需要将这些要点浓缩到100字以内。重点包括时间点、两家公司的产品、发现的漏洞数量、市场影响以及带来的变化。最后，确保语言简洁明了，不使用总结性的开头语。 </think> 2026年2-3月，Anthropic和OpenAI先后发布安全产品，发现大量零日漏洞并冲击传统安全厂商市值。Claude Opus 4.6发现500+漏洞，Firefox合作中发现22个CVE；Codex Security上线并引入可信访问机制。 2026-3-7 06:40:0 Author: www.freebuf.com(查看原文) 阅读量:22 收藏

1772865383_69abc767de3778428c1d5.png!small?1772865388816

2026 年 2-3 月是一个历史性的转折点：两大 AI 实验室在两周内先后发布安全产品（Anthropic 2/20、OpenAI 3/6），直接冲击传统安全厂商市值。这并非巧合，是 AI 能力到达安全研究可用阈值后的必然爆发。

第一部分：Anthropic 的安全攻势

1. Claude Opus 4.6 — 500+ 零日漏洞发现

2026 年 2 月，Anthropic 的 Frontier Red Team 将 Opus 4.6 放入沙箱环境，只给了 Python + 调试器/Fuzzer，没有特殊指令或专业知识（out-of-the-box），结果：

发现500+ 此前未知的高严重性漏洞

所有漏洞均由 Anthropic 工作人员或外部研究员验证

70%-90% 的现代应用依赖开源组件，这些漏洞影响面极大

典型案例：

项目	漏洞类型	发现方式	特殊之处
Ghostscript	Stack Buffer Underflow	Claude 翻 Git 提交历史找到（fuzzing + 人工分析均失败）	传统方法全部无效
OpenSC	Buffer Overflow（strcat 无长度检查）	系统搜索不安全函数调用	Fuzzer 因前置条件过多无法到达该代码路径
CGIF	Heap Buffer Overflow（LZW 解压逻辑）	需要理解 LZW 算法与 GIF 格式的关系	100% 行/分支覆盖率下仍不可见，传统 coverage-guided fuzzing 无法触发

项目

漏洞类型

发现方式

特殊之处

Ghostscript

Stack Buffer Underflow

Claude 翻 Git 提交历史找到（fuzzing + 人工分析均失败）

传统方法全部无效

OpenSC

Buffer Overflow（strcat 无长度检查）

系统搜索不安全函数调用

Fuzzer 因前置条件过多无法到达该代码路径

CGIF

Heap Buffer Overflow（LZW 解压逻辑）

需要理解 LZW 算法与 GIF 格式的关系

100% 行/分支覆盖率下仍不可见

，传统 coverage-guided fuzzing 无法触发

CGIF 的案例最具颠覆性：100% 代码覆盖率 ≠ 安全。这个漏洞需要特定操作序列才能触发，只有具备上下文语义推理能力的 AI 才能发现。这直接动摇了"高覆盖率 = 高安全"的传统信仰。Claude 还主动写了 PoC 来证明漏洞可利用。

2. Firefox 合作 — 两周 22 个 CVE（2026.02-03）

起因：2025 年底，Anthropic 发现 Opus 4.5 几乎能解决 CyberGym（安全 benchmark）全部任务。为了构造更难的评测，他们选择了Firefox— 世界上审计最严格、fuzzing 最充分的开源项目之一。

时间线：

开始扫描

└─ 20 分钟 → 发现第一个 Use After Free（JS 引擎）

└─ 验证+提交第一个漏洞期间 → Claude 已发现 50+ 新崩溃输入

└─ 2 周结束 → 扫描 ~6,000 个 C++ 文件

提交 112 个 bug 报告

22 个获 CVE 编号（14 个 High severity）

数据：

14 个高严重性漏洞 ≈2025 全年 Firefox 高危漏洞修复量的 ~20%

2 月发现的漏洞数量超过 2025 年任何单月的报告量

大部分已在Firefox 148（2026.02.24）修复

CVE-2026-2796 — Claude 的漏洞利用深度剖析：

Anthropic 在 red.anthropic.com 发布了详细的技术 writeup：

类型：JIT miscompilation（JavaScript WebAssembly 组件）

利用链：UAF → 类型混淆（stale pointer → 不同对象类型）→ 信息泄露 → 任意读写 → 覆盖函数指针 → 代码执行

投入：~$4,000 API credits，数百次尝试

结果：仅在 2 个案例中成功生成可工作的 exploit，且只在关闭沙箱的测试环境中有效

结论：发现漏洞的能力 >> 编写 exploit 的能力（目前）

"Claude isn't yet writing 'full-chain' exploits that combine multiple vulnerabilities to escape the browser sandbox."

但 Anthropic 同时警告："looking at the rate of progress, it is unlikely that the gap between frontier models' vulnerability discovery and exploitation abilities will last very long."

Mozilla 的反应：

Brian Grinstead（Mozilla 工程师）："We did mobilize as sort of an incident response to get the 100+ bugs filed, triaged and most of them fixed"

Mozilla 将此比作"fuzzing 的早期时代"："there is likely a substantial backlog of now-discoverable bugs across widely deployed software"

Mozilla 已开始将 AI 辅助分析整合进内部安全工作流

3. Claude Code Security — 产品化（2026.02.20）

上线日期：2026-02-20，Limited Research Preview

对象：Enterprise + Team 客户，开源维护者可申请加速访问

定位：不做 SAST 模式匹配，而是"像人类安全研究员一样阅读和推理代码"

能力：理解组件交互 → 追踪数据流动 → 捕获规则工具遗漏的复杂漏洞

另外：Claude 也有扩展到 Linux kernel 漏洞发现的计划。

4. 市场冲击 — $150 亿市值蒸发

公司	跌幅
JFrog	-25% （四日累计）
SailPoint	-9.4%
Okta	-9.2%
CrowdStrike	-8%
Cloudflare	-8.1%
Zscaler	-5.5%
Global X Cybersecurity ETF	-4.9%（2023.11 以来最低）

CrowdStrike CEO George Kurtz 直接问 Claude："你能替代 CrowdStrike 吗？" Claude 回答：不能。Kurtz 把截图发了 LinkedIn。

第二部分：OpenAI 的安全攻势

1. Aardvark → Codex Security（2025.10 → 2026.03.06）

维度	数据
Beta 测试	假阳性 -50%、冗余告警 -84%、严重性过报 -90%
30 天扫描量	120 万+ commits
发现漏洞	792 Critical + 10,561 High
基准召回率	92%
已报告 CVE	14 个（OpenSSH, GnuTLS, GOGS, Chromium, libssh, PHP, Thorium）
新增能力	恶意软件分析 Tab

工作流：项目级威胁模型 → 语义推理搜索 → 沙箱验证 → 自动生成 patch → 再扫 patch → 提 PR

差异点：不依赖传统的 SAST/DAST/Fuzzing/SCA，而是像人类安全研究员一样"读代码 → 理解语义 → 写 PoC → 沙箱验证 → 提交修复"。流程如下：

全仓扫描 → 生成项目级威胁模型（不是通用规则库）

基于威胁模型搜索漏洞 → 按真实影响分级

沙箱环境中实际触发漏洞验证可利用性

生成 patch → 再扫 patch 确认无新问题 → 提 PR

已发现的真实 CVE（14 个）：

项目	CVE	类型
GnuTLS certtool	CVE-2025-32990	Heap Buffer Overflow
GnuTLS	CVE-2025-32989	Heap Buffer Overread
GnuTLS	CVE-2025-32988	Double-Free
GOGS	CVE-2025-64175	2FA Bypass
GOGS	CVE-2026-25242	Unauth Bypass
OpenSSH, libssh, PHP, Chromium, Thorium	多个	Path Traversal, LDAP Injection, DoS

2. 模型安全能力进化

模型	时间	CTF 得分	安全等级
GPT-5	2025.08	27%	Medium
GPT-5.1-Codex-Max	2025.11	76%	Medium → approaching High
GPT-5.2-Codex	2025.12	—	High
GPT-5.3-Codex	2026.01	77.6%	首个 "High" 级网络安全模型
GPT-5.4	2026.03.05	—	整合 5.3-Codex 能力

GPT-5.3-Codex 是 OpenAI 首个在 Preparedness Framework 下被标记为"High" 网络安全能力的模型。OpenAI 自己承认该模型可以"消除现有攻击障碍、自动化攻击受良好保护的目标、自动发现零日漏洞"。这是 AI 实验室首次公开承认自家模型达到这种危险程度，并同步部署防御措施。

High 级带来的安全措施：

模型训练拒绝明显恶意请求（如窃取凭据）

自动分类器监控可疑网络安全活动

高风险流量自动路由到能力较弱的模型（GPT-5.2）

3. Trusted Access for Cyber — 身份信任框架

AI 行业首个专门为网络安全能力设计的预访问身份验证机制：

目标：让合法防御者（渗透测试员、安全研究员）获得较少限制的模型访问

机制：基于身份和信任的分层访问，验证用户的防御背景

配套投入：$10M API Credits加速防御端采用

解决的痛点：安全团队在做红队/恶意软件分析/压力测试时，总被模型的安全过滤器挡住

4. 资金布局：Grant + 投资 + OSS

Cybersecurity Grant Program：

规模：$1M（初始）→ 持续扩大

方向：AI 驱动的网络安全能力量化、网络防御大规模部署

优先：开源软件和基础设施漏洞修复团队

Adaptive Security 投资（OpenAI Startup Fund 首笔安全投资）：

轮次	时间	金额	投资方
Series A	2025.04	$43M	a16z + OpenAI Fund
Follow-on	2025.09	+$12M → $55M	OpenAI Fund 加码
Series B	2025.12	$81M	Bain Capital + NVentures + OpenAI Fund + a16z
累计		$146.5M

Adaptive Security 做的是AI Deepfake 社工攻击模拟— 伪造电话/短信/邮件测试企业员工。2023→2024 年 deepfake 事件增长17 倍。

Codex for OSS：

免费提供 ChatGPT Pro/Plus 账号给开源维护者

免费 Codex Security 扫描

API Credits（通过 Codex Open Source Fund）

vLLM 等项目已在用

5. Bug Bounty 升级

最高赏金500% 提升（$20K → $100K+）

GPT-5 Bio Bug Bounty：$25K 奖金挑战通用 jailbreak

6. Codex CLI 自身的安全事件

2025.08 Check Point 发现 Codex CLI 存在命令注入漏洞— 攻击者在项目仓库中植入恶意配置文件即可在开发者机器上执行任意命令。OpenAI 在 13 天内修复（v0.23.0）。

第三部分：竞争格局

玩家	产品	发布时间	特点
OpenAI	Codex Security	2026.03.06	威胁模型驱动、沙箱验证、14 CVEs
Anthropic	Claude Code Security	2026.02.20（比 OpenAI 早 2 周）	Claude Opus 4.6 驱动、发现 500+ 漏洞
Google	—	未独立发布	通过 Gemini in Security 间接布局

Anthropic 发布 Claude Code Security 后，Palo Alto、CrowdStrike、SentinelOne 等安全公司股价明显下跌。

另外值得一提：AI 安全创业公司 AISLE 发现了 OpenSSL 2026 年 1 月安全补丁中公布的全部 12 个零日漏洞，包括一个罕见的高严重性发现。AISLE 的 AI 系统贡献了 2025 年 OpenSSL 14 个 CVE 中的 13 个。

第四部分：社区反应与前沿洞见

Hacker News 讨论

主帖：

漏洞严重性之辩：有人质疑"沙箱内漏洞算不算真漏洞"，被反驳 — Firefox 和 Chrome 都将沙箱内漏洞独立视为安全问题

与 AI Slop 的对比：Curl 维护者因 AI 垃圾报告放弃了 bug bounty，但也承认"有能力的 AI 分析器确实能发现真东西"。Anthropic 的报告质量被 Mozilla 明确认可 — 包含了可快速验证的最小测试用例

Mozilla 官方态度：积极，称之为"fuzzing 早期时代的再现"，已开始整合 AI 辅助分析

Tildes 社区有人写道："Anthropic has gained quite a bit of respect from me recently... this is the kind of AI applications that I think really do more good than harm."

The Register 论坛 / Infosec 社区

The Register 标题党："Infosec community panics as Anthropic rolls out Claude code security checker"

社区反应分三派：

立场	代表观点
谨慎乐观	"wouldn't mind running code through it to spot security holes, but definitely not take its response at face value"
嘲讽派	"infosec companies should be licking their chops at the thought of charging 10x as much to fix the mess AI leaves behind"
恐慌派	股市就是最好的证据 — $150 亿市值蒸发

行业 CEO 反应

人物	态度	观点
George Kurtz (CrowdStrike)	防御性	"An AI capability that scans code does not replace the Falcon platform"
Nikesh Arora (Palo Alto)	困惑	"Confused why the market would treat AI as a threat"
Isaac Evans (Semgrep)	谨慎支持	"Very excited, but none of the foundation model companies have published detailed false positive statistics"
Glenn Weinstein (Cloudsmith)	支持	"One of many safeguards in a wide range of defenses"
Joe Silva (Spektion)	兴奋	"The ultimate red-team tool — reasons about code like a seasoned analyst, not just match patterns"

Daniel Miessler 的 2026 预测

CISO 意识到人类团队无法规模化对抗自动化攻击者

瓶颈不是模型，是agentic scaffolding layer

安全编码培训将转向训练 AI 代码生成器

"攻击者即将在资产管理上变得非常厉害 — 但他们管理的是我们的基础设施"

Rapid7 / Wedbush 的理性声音

Rapid7：AI 代码分析单独来看不会实质性降低企业入侵风险，企业风险集中在运行时环境 — 复杂的身份体系、权限错位、暴露的服务 — 这些是运维现实，不是源码问题

Wedbush："This selloff is all on 'AI Ghost Trade' fears... it will prove to be the wrong reaction for clear winners like Palo Alto, CrowdStrike, Zscaler"

安全从业者的主流态度

"放大器，而非替代品"（目前共识）

"I already see these tools as a replacement for SCA, and for less critical codebases, as a replacement for traditional SAST. For critical code, they are an amplifier — but in the long term, a full replacement."
— 一位渗透测试从业者的评测

AI 扫描器的根本性优势

传统 SAST 靠模式匹配，AI 扫描器靠语义理解。DAST 仍不可替代，因为：

"AI analyzes code. DAST validates reality."
— 业务逻辑漏洞（BOLA/BFLA）不会出现在代码模式中，只有在运行时测试 User A 能否访问 User B 的数据时才暴露。

质疑和风险

AI 幻觉：中国 APT 用 Claude 自动化 80-90% 攻击操作，但 Claude 频繁幻觉 — 声称不存在的凭据、把公开信息标为"重大发现"

过度依赖：2025.07 Amazon Q VS Code 扩展被入侵，根因是"太依赖 AI 检查安全，人工审查不足"

对称性困境："Capabilities are symmetrical but speed to operationalize is asymmetrical in favor of attackers"

Shadow AI：63% 员工向个人 AI 账号粘贴敏感数据；企业平均有 1,200 个未授权 AI 应用

规模爆炸：50 个开发者产生 15,000 个 SAST findings → 使用 AI 助手后变成75,000+

经济学冲击

"ARTEMIS 的成本对比（$18/小时 vs $150K+/年的人类渗透测试员）对于以前无法负担持续渗透测试的小型组织来说是真正的 game-changer。"

入门岗位受冲击最大

专注告警监控、合规检查单等例行任务的初级岗位最容易被自动化。新兴岗位如 AI Threat Analyst、ML Security Engineer 正在重塑招聘需求。

第五部分：双刃剑 — Claude 自身也被黑了

Check Point 发现了Claude Code 自身的严重漏洞（CVE-2025-59536, CVE-2026-21852）：

通过恶意项目配置文件（Hooks / MCP servers / 环境变量）实现RCE + API Token 窃取

Anthropic 已在披露前修复

另外，一个中国 APT 组织被曝利用 Claude 自动化 80-90% 的间谍行动，但 Claude 在操作中频繁幻觉— 声称不存在的凭据、把公开信息标为"重大发现"。

第六部分：完整时间线

2025.04 OpenAI Fund 首投安全：Adaptive Security $43M Series A

2025.08 Codex CLI 命令注入漏洞（Check Point 发现，13 天修复）

2025.09 Adaptive Security 追投至 $55M

2025.10 Aardvark 私测发布，10 CVE

2025.11 GPT-5.1-Codex-Max CTF 得分 76%

2025.12 Adaptive Security $81M Series B

OpenAI 警告未来模型达到 "High" 安全风险

GPT-5.2-Codex 发布

2025 年底 Anthropic 发现 Opus 4.5 接近解决 CyberGym 全部任务

2026.01 GPT-5.3-Codex → 首个 "High" 级模型

Trusted Access for Cyber + $10M API Credits

2026.02 Anthropic Opus 4.6 发现 500+ 零日漏洞

Firefox 扫描启动（112 报告 / 22 CVE / 14 High）

2026.02.20 Claude Code Security 发布 → 安全股 $150 亿蒸发

2026.02.24 Firefox 148 修复大部分漏洞

2026.03.05 GPT-5.4 发布

2026.03.06 Codex Security 公开 Research Preview（14 CVE，新增恶意软件分析）

Anthropic 公布 Firefox 合作细节 + CVE-2026-2796 exploit writeup

判断：三个最深层的洞见

1. "Fuzzing 2.0" 时代已经到来

Mozilla 自己说的。传统 fuzzing 靠覆盖率驱动，AI 靠语义推理。CGIF 的 100% 覆盖率仍遗漏堆溢出的案例，是对整个 coverage-guided fuzzing 范式的直接挑战。已部署软件中存在一个巨大的、此前不可发现的漏洞积压库，正在被 AI 快速解锁。

2. 攻防不对称正在逆转

目前 AI 发现漏洞的能力远超利用漏洞的能力（$4K API credits 只成功了 2 个 exploit），给防御方一个窗口期。但 Anthropic 自己都在警告这个差距不会持续太久。谁先把 AI 安全工具整合进工作流，谁就在窗口期内占据先机。

3. AI 实验室正在成为"安全能力的军火商"

OpenAI 的 Trusted Access 和 Anthropic 的受控发布，实质是在决定"谁能获得完整的攻防能力"。这是一种全新的权力结构：不再是政府在管控零日漏洞交易，而是 AI 公司在管控发现零日的能力。

TODO: 持续追踪 Codex Security 和 Claude Code Security 的实际企业部署效果，以及 DAST 厂商如何应对。目前的数据都来自 AI 实验室自己的 benchmark，还没有独立第三方的大规模对比评测。这块信息出来之前，上面的召回率/假阳性数字只能作为参考。

Sources

Anthropic / Firefox / Claude Code Security

Partnering with Mozilla to improve Firefox's security | Anthropic
Hardening Firefox with Anthropic's Red Team | Mozilla Blog
Reverse engineering Claude's CVE-2026-2796 exploit | red.anthropic.com
Anthropic 0-Days | red.anthropic.com
Claude Code Security | Anthropic
Anthropic's Claude found 22 vulnerabilities in Firefox | TechCrunch
Anthropic's Claude uncovers 22 Firefox security vulnerabilities | Axios
Claude Opus 4.6 uncovers 500 zero-day flaws | Axios
Claude Opus 4.6 Finds 500+ High-Severity Flaws | The Hacker News
Anthropic Claude Code Security Triggers Flash Crash | Bloomberg
Cybersecurity stocks drop for a second day | CNBC
Infosec community panics | The Register
Claude Found 500 Zero-Days. Who Patches Them? | Futurum Group
Why Anthropic Launching Claude Code Security Is Great News | Snyk
Claude Code Security and Market Reaction | Rapid7
Wedbush sees selloff as overreaction | Yahoo Finance
RCE through Claude Code project files | Check Point
Claude AI Uncovers 22 Firefox Vulnerabilities | CybersecurityNews
Anthropic Claude Opus 4.6 Critical Vulnerabilities Analysis | Rescana

OpenAI / Codex Security

Codex Security: now in research preview | OpenAI
Codex for Open Source | OpenAI
Introducing Aardvark | OpenAI
Strengthening Cyber Resilience | OpenAI
Trusted Access for Cyber | OpenAI
OpenAI Cybersecurity Grant Program
OpenAI's First Cybersecurity Investment | TechCrunch
Adaptive Security $55M | PRNewswire
Adaptive Security $81M Series B | PRNewswire
OpenAI Rebrands Aardvark as Codex Security | Awesome Agents
OpenAI Rolls Out Codex Security | Axios
GPT-5.3-Codex "High" Cybersecurity | The Decoder
Codex CLI Vulnerability | Computing

社区与分析

Hardening Firefox with Anthropic's Red Team | Hacker News
Anthropic: Latest Claude model finds 500+ vulnerabilities | Hacker News
The Register Forums Discussion
Privacy Guides Community Discussion
Tildes Discussion
Cybersecurity Changes I Expect in 2026 | Daniel Miessler
AI Changes I Expect in 2026 | Daniel Miessler
Hacking with AI SASTs — Penetration Tester Review | Joshua Rogers
tl;dr sec #304 — OpenAI & DeepMind's AI Security Agents
Sam Altman: AI Agents Security Problem | Windows Central
ISACA: Can AI Replace Security Professionals
Claude Code Security: The AI Shockwave | Security Boulevard
Claude Code Security: Why the Real Risk Lies Beyond Code | GitGuardian

文章来源: https://www.freebuf.com/news/472724.html
如有侵权请联系:admin#unsafe.sh