这篇文章确实是指出了当前 LLM 存在的问题,但解决方案并不见得可行,另外这文章实在太长了点。
如果几句话总结一下,这篇文章主要就是想讲清楚:强化学习(RL)的教父、图灵奖得主 Richard Sutton 到底在担心什么?为什么我们现在的 Agent 这么“笨”?以及,我们该如何跨过这道鸿沟?
Sutton 就是“AI 圣经”《苦涩的教训》(The Bitter Lesson) 的作者,他的理念就是:
> 在人工智能领域,长远来看,依赖大规模计算的通用方法(如搜索和学习)最终将胜过依赖人类专家知识的复杂方法。
按理说,他应该对 GPT-5、Claude 这样的大模型拍案叫绝才对。
但他没有。相反,他直言不讳:今天所有的 LLM(大语言模型)都是一条死路。
为什么?Sutton 的原话:LLM 只是在模仿人会“说什么”,而不是在理解世界是“如何运转”的。
这个观点引发了很多讨论,AI 大神 Andrej Karpathy 前几天在播客中也对此有回应和深入探讨(参见:https://t.co/GbNyI7PZxl )。
> “我以前就说过,人类不使用强化学习。我认为人类的学习方式完全不同。强化学习比普通人想的要糟糕得多。强化学习很烂。只不过,我们以前有的其他算法比它还要烂得多罢了。”
两位大神都在揭露一个真相:
我们今天津津乐道的“推理器”(Reasoner),离一个真正的“智能体”(Agent)还差得远。而这个鸿沟,就叫“持续学习”。
1. 为什么 Sutton 说 LLM 是“死路”?
Sutton 的批评主要集中在两点。
批评一:LLM 是“鹦鹉”,不是“物理学家”
Sutton 说,LLM 根本不是真正的“世界模型”。
- 真正的世界模型:能预测“如果我做了A,世界会发生B”。比如,我松开手(动作A),杯子会掉地上摔碎(结果B)。这是对因果和物理规律的理解。
- LLM 在做什么:它在预测“如果我问了A,人类会回答B”。比如,我问“杯子掉了会怎样?”,它会回答“会摔碎”。
看到区别了吗?LLM 是在模仿一个“观察者”会如何描述这个世界,而不是作为“参与者”去理解这个世界的规律。它学的是“人会说什么”,而不是“世界会怎样”。
批评二:现在的强化学习“笨得可以”
Sutton 的另一个批评是,我们现在主流的 RL 算法(比如 PPO)样本效率低到发指,而且它们只从“奖励”中学习,不从“观察”中学习。
这话说得有点绕,用原文里的一个例子,你一下就懂了:
> 假设我们开发一个 AI Agent,帮用户打电话给 Xfinity(一家运营商)客服。
>
> 第一次尝试:Agent 打过去,客服说:“我需要您的信用卡后四位来验证身份。” Agent 没有这个信息,任务失败,挂断。
>
> 好了,问题来了:
>
> - 传统 RL Agent (PPO):它只知道这次尝试失败了(Reward = 0)。它不知道为什么失败。客服明明已经告诉它答案了(“需要信用卡后四位”),但这个信息是“观察”(Observation),不是“奖励”(Reward)。所以,这个笨蛋 Agent 只能下次再试,再失败……可能要试几百次,某一次瞎猫碰上死耗子,它碰巧提供了信用卡信息,成功了(Reward = 1),它这才“学会”了。
>
> - 人类:第一次被告知需要信用卡信息,立刻就记住了。下次打电话前就会主动要这个信息。
这就是差距。人类能从环境的丰富反馈(观察)中学习,而现在的 RL 算法大多是“无模型”的,它们只关心“我这么做能不能拿分”,而无视了环境给出的所有其他宝贵信息。
2. “无限上下文”的陷阱:为什么 RAG (检索增强生成)不是学习?
很多人可能会反驳:“没关系,我们现在有超长上下文(Long Context)了!我把 Agent 第一次失败的经验(“客服要信用卡后四位”)直接放进下一次任务的提示词里不就行了?”
这就是目前大多数 Agent 的做法,包括 In-Context Learning(上下文学习)或者 RAG。
但这是对“学习”最大的误解。
把历史记录塞进上下文,不叫“学习”,这叫“开卷考试”。
原文中打个比方:
> 让你计算 100 个案例中黑猫和白猫的比例。
>
> - 真正的学习(压缩):你看完一遍,在脑子里总结出一个结论:“90只黑猫,10只白猫”。下次再问你,你直接给出答案。
> - 长上下文(RAG):你把 100 个案例的原始记录全堆在桌上。每次有人问你,你就重新把这 100 个案例再数一遍,然后得出结论。
这种方式极其低效,因为知识没有被提炼和压缩。你只是在进行一次又一次的重复检索,而不是把经验内化成了“规律”或“知识”。
AK 在前几天播客里面有一个引起很多人共鸣的结论:人类记性差,这不是 Bug,反而是 Feature(特性)。
正因为我们记不住所有原始细节,才被迫去提炼、总结、压缩知识,找出事物背后的规律。而这个“压缩”和“提炼”的过程,才是学习的本质。
3. “新员工”的困境:为什么 Agent 没法“上班”?
这就引出了一个核心问题:为什么现在的 Agent 解数学题比99%的人都强,但你让它去你公司干个具体工作,它却一塌糊涂?
你可以这么想:你找一个再聪明的天才,不培训就让他来你公司上班,他能干好吗?
大概率不能。因为他不知道:
- 公司的代码规范 (Coding Style)
- 公司的业务逻辑和黑话
- 团队的协作流程
- 哪些是不能碰的隐形红线
这些知识,绝大部分是非公开的、特定的、隐性的,你没法用一个简短的 prompt 教会它。
人类是怎么做的?在工作中持续学习。
这就带出了 Sutton 坚信的“大世界假设”(Big World Hypothesis):世界上的信息是无限的,模型不可能在预训练阶段就学完所有东西。你必须在与具体环境的交互中不断学习新知识。
而很多 LLM 派持有的是“小世界假设”:世界是复杂的,但规律是简洁的。只要模型足够大(比如 GPT-5),就能掌握绝大部分重要知识,不需要再学了。
显然,现实世界更符合“大世界”假设。
4. 怎样才算“真学习”?从“奖励”到“预测”
既然必须持续学习,而传统 RL 又那么笨(只认 Reward),那该怎么办?
原文作者结合实践,提出了一个非常有启发的改进思路,我把它称为“双 LoRA”策略。(LoRA 是一种高效微调技术,你可以理解为给大模型打上一个小小的“能力补丁”)
这个策略的核心是:在学习“怎么做对”(Policy)的同时,也要学习“世界会怎样”(World Model)。
回到那个 Xfinity 客服的例子:
1. LoRA 1 (策略补丁):它还是从 Reward 学习。任务失败,Reward = 0,它学不到东西。
2. LoRA 2 (世界模型补丁):它不关心 Reward,它的唯一任务是预测环境的下一个反馈。当客服说“我需要信用卡后四位”时,这个补丁会因为“预测失败”(它没料到客服会说这个)而产生一个 loss,然后它就会更新自己,学会“哦,原来打电话给 Xfinity,对方会要信用卡信息”。
看,这就是一种时序差分学习(TD-Learning)。Agent 不再是只看重“得分”的偏科生,还成了能“理解”环境反馈的好学生。
效果是天差地别的:
- 传统 RL:要试几百次才能学会。
- 双 LoRA:只要 1、2 个 step 就能学会。
这,才开始有点“持续学习”的样子了。
5. 另一个“致命”瓶颈:AI 为什么反应这么慢?
解决了学习效率,还有一个大问题:现在的 Agent 交互起来为什么那么“卡”?
明明模型的输入输出速度(token/s)都比人类快得多,为什么我们总觉得它反应迟钝?
作者认为根源在于一个僵化的“ReAct 循环”:观察 → 思考 → 行动。
现在的 Agent 都是这个死循环:
1. 观察(听):必须等你把话说完,看到句号了,它才开始下一步。
2. 思考:开始处理你的话,进行推理。
3. 行动(说):把思考完的结果一口气说出来。
但人类根本不是这样工作的!
人类是“事件驱动”的,我们的“听、想、说”是交错进行的 (interleaved):
- 边听边想:你刚说开头,我就开始思考和预测你后面要说什么了。等你把话说完,我可能已经想好答案了。
- 边想边说:如果我没想好,我会先说点“嗯……”、“让我想想啊……”这样的“填充词”,在说这些话的同时,我的大脑在高速进行下一步思考。
人类充分利用了所有“间隙”在思考,所以交互体验才如此流畅。
未来的 Agent 必须抛弃僵化的 ReAct 循环,转向这种“边听边想边说”的事件驱动架构。这对于语音助手、机器人、甚至 AI 帮你打游戏都至关重要。
对于这点我觉得虽然“ReAct 循环”,但是实现起来是最简单直接的,作者所说的那种思路看起来很好,但真要实施当前技术未必做的到。
当然很多事情还是得要加上时间维度,有时候并不能用现在的眼光来看这些问题。
至少当前 AI Agent 存在的问题是客观存在的:
- 一个真正的 Agent,其核心价值不在于它“知道多少”,而在于它“能学多快”。
- Agent 必须要有持续学习的能力,能从丰富的“观察”中学习世界模型
- “ReAct 循环”很慢,Agent 也应该想人一样能具有“边听边想边说”的实时架构
点击图片查看原图