这篇文章确实是指出了当前 LLM 存在的问题，但解决方案并不见得可行，另外这文章实在太长了点。如果几句话总结一下，这篇文章主要就是想讲清楚：强化学习（RL）的教父、图灵奖得主 Richard Sutton 到底在担心什么？为什么我们现在的 Agent 这么“笨”？以及，我们该如何跨过这道鸿沟？Sutton 就是“AI

发布时间: 2025-10-25 12:40:16

1分

数据加载中

这篇文章确实是指出了当前 LLM 存在的问题，但解决方案并不见得可行，另外这文章实在太长了点。
如果几句话总结一下，这篇文章主要就是想讲清楚：强化学习（RL）的教父、图灵奖得主 Richard Sutton 到底在担心什么？为什么我们现在的 Agent 这么“笨”？以及，我们该如何跨过这道鸿沟？
Sutton 就是“AI
IT技术
( twitter.com )

这篇文章确实是指出了当前 LLM 存在的问题，但解决方案并不见得可行，另外这文章实在太长了点。

如果几句话总结一下，这篇文章主要就是想讲清楚：强化学习（RL）的教父、图灵奖得主 Richard Sutton 到底在担心什么？为什么我们现在的 Agent 这么“笨”？以及，我们该如何跨过这道鸿沟？

Sutton 就是“AI 圣经”《苦涩的教训》(The Bitter Lesson) 的作者，他的理念就是：
> 在人工智能领域，长远来看，依赖大规模计算的通用方法（如搜索和学习）最终将胜过依赖人类专家知识的复杂方法。

按理说，他应该对 GPT-5、Claude 这样的大模型拍案叫绝才对。

但他没有。相反，他直言不讳：今天所有的 LLM（大语言模型）都是一条死路。

为什么？Sutton 的原话：LLM 只是在模仿人会“说什么”，而不是在理解世界是“如何运转”的。

这个观点引发了很多讨论，AI 大神 Andrej Karpathy 前几天在播客中也对此有回应和深入探讨（参见：https://t.co/GbNyI7PZxl ）。
> “我以前就说过，人类不使用强化学习。我认为人类的学习方式完全不同。强化学习比普通人想的要糟糕得多。强化学习很烂。只不过，我们以前有的其他算法比它还要烂得多罢了。”

两位大神都在揭露一个真相：
我们今天津津乐道的“推理器”（Reasoner），离一个真正的“智能体”（Agent）还差得远。而这个鸿沟，就叫“持续学习”。

1. 为什么 Sutton 说 LLM 是“死路”？

Sutton 的批评主要集中在两点。

批评一：LLM 是“鹦鹉”，不是“物理学家”

Sutton 说，LLM 根本不是真正的“世界模型”。

- 真正的世界模型：能预测“如果我做了A，世界会发生B”。比如，我松开手（动作A），杯子会掉地上摔碎（结果B）。这是对因果和物理规律的理解。

- LLM 在做什么：它在预测“如果我问了A，人类会回答B”。比如，我问“杯子掉了会怎样？”，它会回答“会摔碎”。

看到区别了吗？LLM 是在模仿一个“观察者”会如何描述这个世界，而不是作为“参与者”去理解这个世界的规律。它学的是“人会说什么”，而不是“世界会怎样”。

批评二：现在的强化学习“笨得可以”

Sutton 的另一个批评是，我们现在主流的 RL 算法（比如 PPO）样本效率低到发指，而且它们只从“奖励”中学习，不从“观察”中学习。

这话说得有点绕，用原文里的一个例子，你一下就懂了：

> 假设我们开发一个 AI Agent，帮用户打电话给 Xfinity（一家运营商）客服。
>
> 第一次尝试：Agent 打过去，客服说：“我需要您的信用卡后四位来验证身份。” Agent 没有这个信息，任务失败，挂断。
>
> 好了，问题来了：
>
> - 传统 RL Agent (PPO)：它只知道这次尝试失败了（Reward = 0）。它不知道为什么失败。客服明明已经告诉它答案了（“需要信用卡后四位”），但这个信息是“观察”（Observation），不是“奖励”（Reward）。所以，这个笨蛋 Agent 只能下次再试，再失败……可能要试几百次，某一次瞎猫碰上死耗子，它碰巧提供了信用卡信息，成功了（Reward = 1），它这才“学会”了。
>
> - 人类：第一次被告知需要信用卡信息，立刻就记住了。下次打电话前就会主动要这个信息。

这就是差距。人类能从环境的丰富反馈（观察）中学习，而现在的 RL 算法大多是“无模型”的，它们只关心“我这么做能不能拿分”，而无视了环境给出的所有其他宝贵信息。

2. “无限上下文”的陷阱：为什么 RAG （检索增强生成）不是学习？

很多人可能会反驳：“没关系，我们现在有超长上下文（Long Context）了！我把 Agent 第一次失败的经验（“客服要信用卡后四位”）直接放进下一次任务的提示词里不就行了？”

这就是目前大多数 Agent 的做法，包括 In-Context Learning（上下文学习）或者 RAG。

但这是对“学习”最大的误解。

把历史记录塞进上下文，不叫“学习”，这叫“开卷考试”。

原文中打个比方：

> 让你计算 100 个案例中黑猫和白猫的比例。
>
> - 真正的学习（压缩）：你看完一遍，在脑子里总结出一个结论：“90只黑猫，10只白猫”。下次再问你，你直接给出答案。
> - 长上下文（RAG）：你把 100 个案例的原始记录全堆在桌上。每次有人问你，你就重新把这 100 个案例再数一遍，然后得出结论。

这种方式极其低效，因为知识没有被提炼和压缩。你只是在进行一次又一次的重复检索，而不是把经验内化成了“规律”或“知识”。

AK 在前几天播客里面有一个引起很多人共鸣的结论：人类记性差，这不是 Bug，反而是 Feature（特性）。

正因为我们记不住所有原始细节，才被迫去提炼、总结、压缩知识，找出事物背后的规律。而这个“压缩”和“提炼”的过程，才是学习的本质。

3. “新员工”的困境：为什么 Agent 没法“上班”？

这就引出了一个核心问题：为什么现在的 Agent 解数学题比99%的人都强，但你让它去你公司干个具体工作，它却一塌糊涂？

你可以这么想：你找一个再聪明的天才，不培训就让他来你公司上班，他能干好吗？

大概率不能。因为他不知道：
- 公司的代码规范 (Coding Style)
- 公司的业务逻辑和黑话
- 团队的协作流程
- 哪些是不能碰的隐形红线

这些知识，绝大部分是非公开的、特定的、隐性的，你没法用一个简短的 prompt 教会它。

人类是怎么做的？在工作中持续学习。

这就带出了 Sutton 坚信的“大世界假设”（Big World Hypothesis）：世界上的信息是无限的，模型不可能在预训练阶段就学完所有东西。你必须在与具体环境的交互中不断学习新知识。

而很多 LLM 派持有的是“小世界假设”：世界是复杂的，但规律是简洁的。只要模型足够大（比如 GPT-5），就能掌握绝大部分重要知识，不需要再学了。

显然，现实世界更符合“大世界”假设。

4. 怎样才算“真学习”？从“奖励”到“预测”

既然必须持续学习，而传统 RL 又那么笨（只认 Reward），那该怎么办？

原文作者结合实践，提出了一个非常有启发的改进思路，我把它称为“双 LoRA”策略。（LoRA 是一种高效微调技术，你可以理解为给大模型打上一个小小的“能力补丁”）

这个策略的核心是：在学习“怎么做对”（Policy）的同时，也要学习“世界会怎样”（World Model）。

回到那个 Xfinity 客服的例子：
1. LoRA 1 (策略补丁)：它还是从 Reward 学习。任务失败，Reward = 0，它学不到东西。
2. LoRA 2 (世界模型补丁)：它不关心 Reward，它的唯一任务是预测环境的下一个反馈。当客服说“我需要信用卡后四位”时，这个补丁会因为“预测失败”（它没料到客服会说这个）而产生一个 loss，然后它就会更新自己，学会“哦，原来打电话给 Xfinity，对方会要信用卡信息”。

看，这就是一种时序差分学习（TD-Learning）。Agent 不再是只看重“得分”的偏科生，还成了能“理解”环境反馈的好学生。

效果是天差地别的：
- 传统 RL：要试几百次才能学会。
- 双 LoRA：只要 1、2 个 step 就能学会。

这，才开始有点“持续学习”的样子了。

5. 另一个“致命”瓶颈：AI 为什么反应这么慢？

解决了学习效率，还有一个大问题：现在的 Agent 交互起来为什么那么“卡”？

明明模型的输入输出速度（token/s）都比人类快得多，为什么我们总觉得它反应迟钝？

作者认为根源在于一个僵化的“ReAct 循环”：观察 → 思考 → 行动。

现在的 Agent 都是这个死循环：
1. 观察（听）：必须等你把话说完，看到句号了，它才开始下一步。
2. 思考：开始处理你的话，进行推理。
3. 行动（说）：把思考完的结果一口气说出来。

但人类根本不是这样工作的！

人类是“事件驱动”的，我们的“听、想、说”是交错进行的 (interleaved)：
- 边听边想：你刚说开头，我就开始思考和预测你后面要说什么了。等你把话说完，我可能已经想好答案了。
- 边想边说：如果我没想好，我会先说点“嗯……”、“让我想想啊……”这样的“填充词”，在说这些话的同时，我的大脑在高速进行下一步思考。

人类充分利用了所有“间隙”在思考，所以交互体验才如此流畅。

未来的 Agent 必须抛弃僵化的 ReAct 循环，转向这种“边听边想边说”的事件驱动架构。这对于语音助手、机器人、甚至 AI 帮你打游戏都至关重要。

对于这点我觉得虽然“ReAct 循环”，但是实现起来是最简单直接的，作者所说的那种思路看起来很好，但真要实施当前技术未必做的到。

当然很多事情还是得要加上时间维度，有时候并不能用现在的眼光来看这些问题。

至少当前 AI Agent 存在的问题是客观存在的：

- 一个真正的 Agent，其核心价值不在于它“知道多少”，而在于它“能学多快”。
- Agent 必须要有持续学习的能力，能从丰富的“观察”中学习世界模型
- “ReAct 循环”很慢，Agent 也应该想人一样能具有“边听边想边说”的实时架构