Published at 2025-07-06 | Last Update 2025-07-06
本文翻译自 2025 年的一篇英文博客 The Second Half。 拆分了一些章节并增加标题,方便个人学习理解。

文章几个核心点:
Agent + Reasoning + prior knowledge,使得强化学习终于能泛化,一套组合拳能完成所有场景的任务, 因此专攻算法和模型变得没以前那么重要;
针对特定任务的新算法可能只能提高 5%, 而得益于预训练、强化学习和良好的泛化能力,下一代推理模型可以在不明确针对这个任务的情况下直接提高 30%。
模型已经在大多数任务上超越人类选手,但还并未对真实世界产生太大影响(例如,经济、GDP);
基于 1 & 2,认为 AI 发展进入中场时刻,需要做出方向性转变,
水平及维护精力所限,译文不免存在错误或过时之处,如有疑问,请查阅原文。 传播知识,尊重劳动,年满十八周岁,转载请注明出处。
最近几十年,人工智能领域主要致力于提出新的训练方法和模型(new training methods and models)。 这个方向是成功的,例如 AI 已经能:
教科书中的一系列里程碑模型(DeepBlue、AlphaGo、GPT-4、GPT-o 系列)背后, 是人工智能方法的根本性创新:
deep RL)scaling)reasoning)一切都在沿着这个方向不断进步。那么,现在为什么突然说要进入下半场了呢?
用一句话来回答:强化学习终于奏效了(RL finally works)。
更准确地说:强化学习终于能够泛化了(RL finally generalizes)。
人工智能的下半场,重点将从解决问题(solving problems)转移到定义问题(defining problems)。 具体来说,
要在下半场取得成功,需要及时转变思维方式和技术储备 —— 也许要更多地像产品经理那样思考。
要理解上半场,可以先看看它的赢家是谁。你认为到目前为止最有影响力的 AI 论文是什么?
我在斯坦福 224N 课程中做了调研,答案并不令人惊讶:Transformer、AlexNet、GPT-3 等等。
这些论文有什么共同点?
首先,都提出了一些根本性的创新,能训练出更好的模型。
其次,还有一个不那么明显的共同点:这些“赢家”都是训练方法或模型(methods or models),而不是基准测试或任务(benchmarks or tasks)。

这说明了上半场的游戏 专注于构建新的模型和方法,而评估和基准测试是次要的(尽管是论文系统正常运转所必要的)。
为什么呢?一个很大的原因是,在人工智能的上半场,方法/算法比任务更难、更令人兴奋。
方法(methods)也往往比单个任务(task)更具通用性和普适性,这使得它们非常有价值。
例如,Transformer 架构最终推动了计算机视觉(CV)、自然语言处理(NLP)、强化学习(RL)以及许多其他领域的进步 —— 远远超出了它最初证明自己的单一数据集(WMT’14 translation)。
一个伟大的新方法可以在许多不同的基准测试中不断改进提升,因为它简单且通用,因此其影响往往超出单个任务。
这种方式已经持续了几十年,并激发了很多改变世界的思想和突破 —— 体现在各个领域不断提高的基准测试性能上。
那么,为什么说此时到了一个分水岭了呢?因为这些思想和突破的积累已经产生质变(made a qualitative difference), 能让我们用一种新方式完成不同类型的任务。
训练组合拳包括什么呢?
这些术语大家应该已经司空见惯了。 但为什么称它们为组合拳呢?可以通过强化学习(RL)来理解一下。
强化学习通常被认为是人工智能的“终极游戏” —— 毕竟, 从理论上讲,RL 能够完成任何任务,而且很难想象不用 RL 就能实现的超级人类系统(例如 AlphaGo)。
在 RL 中,有三个关键组成部分:
长期以来,RL 研究者主要关注算法(例如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO……)—— 这是 agent 学习的智力核心 —— 而将环境和先验知识视为固定或最小化的。 例如,Sutton 和 Barto 的经典教科书几乎只关注算法,而几乎不涉及环境或先验知识。

在深度 RL 时代,从经验上说,环境很重要:算法的性能往往与其开发和测试环境高度相关。
如果忽视环境,你可能构建出来的就是一个只在 toy 设置中表现出色的“最优”算法。
也就是说,我们需要先确定我们真正想要解决的环境,然后才能找到最适合它的算法。 这正是 OpenAI 最初的计划。
一旦我们将所有数字世界变成一个环境,就能用 RL 算法解决它 —— 最终我们就拥有了通用人工智能(AGI)。
计划是好的,但并不完全奏效。OpenAI 在这条道路上取得了巨大的进展,使用 RL 解决了 Dota、robotic hands 等问题。 但它从未接近解决 computer use 或 web navigation 问题,而且在不同领域工作的 RL agents 无法相互转移学到的知识。 中间似乎缺少了什么。
直到 GPT-2 或 GPT-3 出现后,才发现缺失的部分是先验知识。
事实证明,RL 最重要的部分可能不是 RL 算法或环境,而是先验知识, 这些可以通过与 RL 完全无关的方式获得。
预训练为聊天场景(chatting)创造了良好的先验知识,但并不同样适用于控制计算机或玩电子游戏。
为什么呢?因为这些领域与互联网文本的分布相距较远,而简单地在这些领域进行 SFT/RL 很难泛化。
我在 2019 年注意到了这个问题,当时 GPT-2 刚刚问世,我在其基础上进行了 SFT/RL,以解决基于文本的游戏 —— CALM 是世界上第一个通过预训练语言模型构建的 agent。 但该 agent 需要数百万次 RL 步骤才能学会一个游戏,而且无法转移到新游戏中。
尽管这是 RL 的典型特征,RL 研究者对此并不陌生,但我发现这很奇怪,因为我们人类可以轻松地玩一个新游戏,并且在零样本的情况下表现得更好。 然后我迎来了人生中的第一个顿悟时刻 —— 我们之所以能够泛化,是因为我们不仅可以选择“走到橱柜 2”、“用钥匙 1 打开宝箱 3”或“用剑打开地牢”等动作,还可以选择思考像“地牢很危险,我需要武器来战斗。没有可见的武器,也许我需要在锁着的箱子或宝箱中找到一个。宝箱 3 在橱柜 2 里,我先去那里打开它”这样的事情。

思考,或者说推理,是一种奇怪的动作 —— 它并不直接影响外部世界, 而推理空间是开放的、无限组合的 —— 你可以去想一个词、一句话、一段文字, 或者 10000 个随机的单词,但你周围的世界并不会立即改变。
在经典 RL 理论中,这是一个糟糕的事情,因为它导致无法做出决策。 想象一下,
But by adding reasoning into the action space of any RL environment, we make use of the language pre-training priors to generalize, and we afford to have flexible test-time compute for different decisions.
但是,往任何 RL 环境的 action space 加入 reasoning 能力之后, 我们就利用预训练的先验知识来泛化, 并且可以为不同的决策提供灵活的 test-time compute。
这是一件非常神奇的事情,我为不能在这里完全解释清楚而致歉,可能需要再写一篇文章来专门来解释它。 你可以阅读我的 paper ReAct 了解最原始的 agent 推理的故事,感受一下我当时的感受。
目前,我的直观解释是:即使增加了无数个空盒子,但你此生已经在玩过的各种游戏中都见过它们, 因此在任何给定的游戏中,你能尽量排除掉它们,仍然选出最有可能装了钱的那个盒子。
我的抽象解释是:agents 中,语言通过推理实现泛化(language generalizes through reasoning in agents)。
先验知识 > 环境 > 算法一旦我们有了正确的 RL 先验知识(语言预训练)和 RL 环境(将语言推理作为动作), 事实证明 RL 算法可能就是最不重要的部分了。
因此,我们有了 GPT-o 系列、DeepSeek R1、深度研究、computer-use agent ,还会有更多出现。
真是一个讽刺的转折!长期以来,RL 研究者一直最关注算法,然后才是环境,而没有人关注过先验知识 —— 所有 RL 实验基本上都是从头开始的。 我们经过了数十年的曲折才意识到,也许优先级应该完全颠倒过来。
但正如史蒂夫·乔布斯所说:You can’t connect the dots looking forward; you can only connect them looking backward。
这个发现正在彻底改变游戏规则。
回顾上半场的游戏:
这个游戏现在玩不下去了,因为:
即使创建更难的基准测试,很快(而且越来越快)它们也会被以上方式解决。 我的同事 Jason Wei 制作了下图,很好地可视化了这一趋势:

那么,在下半场还剩下什么呢?如果不再需要新方法,而更难的基准测试很快就会被解决,我们该怎么办?
我认为,我们应该从根本上重新思考评估(evaluation)。
这很难,因为人类有惯性,很少质疑基本假设 —— 你把它们当作理所当然,而没有意识到它们是假设,而不是法则。
为了说明惯性,假设你基于人类考试发明了历史上最成功的评估之一。 这是一个在 2021 年非常大胆的想法,但 3 年后它已经饱和了。 你会怎么做?最有可能的是创建一个更难的考试。 或者假设你解决了简单的编程任务。你会怎么做?最有可能的是找到更难的编程任务来解决,直到你达到了 IOI 金牌水平。
人工智能已经在国际象棋和围棋中击败了世界冠军, 在 SAT 和律师资格考试中超越了大多数人类,并在 IOI 和 IMO 中达到了金牌水平。但世界并没有因此而发生太大变化,至少从经济和 GDP 来看是这样。
我称这为效用问题,并认为这是人工智能最重要的问题。
这个问题我们也许会很快解决,也许不会。但不管怎样,这个问题的根本原因可能出人意料地简单: 我们的评估 setups 在许多基本方面与现实世界 setups 不同。
举两个例子。
根据这个假设,通常 agent 接收任务输入,自主地做事情,然后接收任务奖励。
但在现实中, agent 必须在整个任务过程中与人类互动 —— 你不会给客户服务发一条超长的信息,等 10 分钟, 然后期望一个详细的回复来解决所有问题。
解决这类问题就需要提出一些新的基准测试,要么引入真人打分(例如 Chatbot Arena),要么引入用户模拟(例如 tau-bench)。

如果你有一个包含 500 个任务的测试集,你会独立运行每个任务,平均任务指标,然后得到一个总体指标。
但在现实中,你是顺序解决任务,而不是并行解决。
我们显然需要长期记忆方法(已经有了),但学术界没有合适的基准测试来证明这种需求, 甚至没有勇气质疑机器学习的基础假设 —— 独立同分布。
这些假设“一直”以来都是这样,而在人工智能的上半场,在这些假设下开发基准测试是可以的, 因为当智能水平较低时,提高智能通常会提高效用(when the intelligence is low, improving intelligence generally improves utility)。
下半场的游戏方式:
下半场的游戏很难,因为大家对它还比较陌生,但它令人兴奋。
欢迎来到下半场!
This blog post is based on my talk given at Stanford 224N and Columbia. I used OpenAI deep research to read my slides and write a draft.