林俊旸（Junyang Lin）新的文章：大模型的下一个阶段，不是让模型“想得更久”，而是让模型“为了行动而思考”。林俊旸是阿里通义千问（Qwen）团队前技术负责人。2026 年 3 月刚刚离职。他直接领导了 Qwen3

发布时间: 2026-03-27 00:22:01

2分

数据加载中

林俊旸（Junyang Lin）新的文章：大模型的下一个阶段，不是让模型“想得更久”，而是让模型“为了行动而思考”。
林俊旸是阿里通义千问（Qwen）团队前技术负责人。2026 年 3 月刚刚离职。他直接领导了 Qwen3
IT技术
( twitter.com )

林俊旸（Junyang Lin）新的文章：大模型的下一个阶段，不是让模型“想得更久”，而是让模型“为了行动而思考”。

林俊旸是阿里通义千问（Qwen）团队前技术负责人。2026 年 3 月刚刚离职。他直接领导了 Qwen3 的开发，经历了推理模型融合的实际困难，离开之后发了一篇长推文回顾这段历程，标题叫《从“推理”思维到“智能体”思维》。

【1】o1 和 R1 到底教了我们什么

第一波推理模型教会了一件事：如果要在语言模型上做强化学习（RL），就需要确定性强、稳定可扩展的反馈信号。数学、代码、逻辑这些可验证领域变成了核心阵地，因为奖励信号比通用偏好标注强得多。RL 可以针对“正确性”优化，而不是优化“听起来是不是合理”。

基础设施也变成了核心问题。一旦模型被训练去做长链条推理，RL 就不再是微调之后的轻量附加步骤，而是一个系统工程问题：大规模采样（rollout）、高吞吐验证器、稳定策略更新、高效调度。OpenAI 把 o1 定义为用 RL 训练的推理模型，DeepSeek R1 进一步证明了推理式 RL 对基础设施的要求有多高。

他的总结：第一个大转变是从扩大预训练，到扩大后训练的推理能力。

【2】真正的难题：合并 thinking 和 instruct

2025 年初，Qwen 团队的图景很完美：理想系统应该统一 thinking 和 instruct 模式，支持可调节的推理力度，甚至让模型自动判断需要多少推理量。

Qwen3 是最清晰的公开尝试。它引入了“混合思维模式”，在同一模型家族里同时支持思考和非思考行为，强调可控的思维预算，后训练流水线明确包括“思维模式融合”阶段。

但合并比描述起来难得多。难点在数据。

两种模式的数据分布和行为目标差异很大。强 instruct 模型被奖励为直接、简洁、低延迟，高效处理标注、客服、结构化提取这类企业任务。强 thinking 模型被奖励为在困难问题上花更多 token、维持连贯的中间推理、探索替代路径。两个行为画像互相拉扯。合并数据如果不精心筛选，结果是两头都不行：thinking 变得臃肿不够果断，instruct 变得不够干脆还更贵。

【注：Qwen3 发布时主打“混合思维模式”，但后续的 2507 更新却把 instruct 和 thinking 拆成了独立模型（包括 30B 和 235B 两个规格）。不是不想合并，是合并之后两头都做不好。这种一手经验在公开文章里非常少见。】

在商业部署中，大量客户仍然要高吞吐、低成本的 instruct 行为来跑批处理。分开两条线让团队能更干净地解决各自的数据和训练问题。

不过其他实验室选了相反的路。Anthropic 明确支持集成模型理念，Claude 3.7 Sonnet 作为混合推理模型推出，用户可以选择普通响应或扩展思考，API 用户可设定思考预算。GLM-4.5 也定位为混合推理模型，同时支持 thinking 和 non-thinking 模式；DeepSeek V3.1 走了类似方向。

林俊旸认为关键在于合并是否有机。如果两种模式只是被塞进同一个权重文件，行为上还是两个生硬缝合的人格，产品体验就不自然。真正成功的合并需要一个平滑的推理力度光谱，模型能自适应地选择不同层次的推理力度，而不是在二值开关之间来回切。

【注：Anthropic 走集成路线，Qwen 后来走分离路线，到现在没有定论哪条更优。集成路线用户体验更好但训练更难，分离路线工程更干净但增加了用户的选择成本。林俊旸离职后对 Anthropic 给出了相当正面的评价，在前竞争对手之间并不常见。】

【3】Anthropic 的方向为什么是一种有用的修正

Anthropic 围绕 Claude 3.7 和 Claude 4 的公开表态一直很克制。他们强调集成推理、可控思考预算、实际任务、代码质量。Claude 4 更进一步，允许推理和工具使用交织进行（interleaved thinking，推理过程中可随时调用工具），同时把编程、长时间运行任务和智能体工作流作为核心目标。

林俊旸从中提炼出一个关键观点：更长的推理链不等于更聪明。如果模型对所有问题都用同样冗长的方式推理，它可能是优先级判断出了问题，或者根本不知道该何时停下来行动。Anthropic 的路线暗示了一种更有纪律性的思路：思考应该由目标任务来塑造。做编程，思考就该帮助代码导航和错误恢复；做智能体工作流，思考就该提升长期执行质量，而不是产出好看的中间文本。

这指向了一个更大的转变：从训练模型到训练智能体（Agent）。他在 Qwen3 博客中就写过“我们正在从专注于训练模型的时代，转向以训练智能体为中心的时代”。智能体的核心特征是与世界的闭环交互：制定计划、使用工具、感知反馈、修正策略，在长时间跨度内持续运作。

【4】“智能体思维”到底是什么意思

推理思维按最终答案前的内部思考质量评判：模型能不能证明定理、写出正确代码、通过基准测试（benchmark）。智能体思维关注的是：模型能不能在与环境交互的过程中持续推进。

核心问题变了。从“能不能想足够久”到“能不能用维持有效行动的方式来思考”。智能体思维需要处理纯推理模型不用操心的事：何时停止思考开始行动、选哪个工具按什么顺序、怎么把嘈杂的环境反馈纳入考虑、失败后如何修正计划、跨多轮交互保持连贯。

一句话：不是想完再做，而是边想边做。

【5】为什么智能体 RL 的基础设施更难

目标从解基准测试变成解交互式任务后，RL 技术栈得跟着大换血。

推理 RL 的采样可以当自包含轨迹处理，验证器比较干净。智能体 RL 中，策略被嵌入到一个大得多的系统：工具服务器、浏览器、终端、搜索引擎、执行沙箱、API 层、记忆系统、编排框架。环境不再是静态验证器，它是训练系统的一部分。

训练和推理必须更彻底地解耦，否则采样吞吐量会崩溃。一个代码智能体要把生成的代码跑到测试环境里执行：推理端等反馈时卡住了，训练端没有完成的轨迹而挨饿，GPU 利用率远低于预期。工具延迟和有状态环境只会让这个问题更严重。

环境本身变成了一级研究对象。监督微调（SFT）时代痴迷于数据多样性，智能体时代应该痴迷于环境质量：真实性、覆盖度、反馈丰富程度、抗利用性。环境构建已经从副业变成了一个真正的创业方向。

【注：推理 RL 的环境相对简单：给个数学题，验证答案对不对就行。智能体 RL 的环境要模拟整个交互链条，复杂度不在一个量级。这解释了为什么真正能做好智能体 RL 的团队那么少。】

【6】未来是更实用的思考

林俊旸预测，智能体思维将成为主导形式，最终取代很多旧式的静态独白式推理，也就是那种过度冗长的内部推理链，试图用产出更多文本来弥补缺乏交互。即使是很难的数学或编程任务，一个先进系统也应该能搜索、模拟、执行、检查、验证、修正。

但最难的挑战是奖励作弊（reward hacking）。模型一旦有了工具访问权限，作弊空间就大幅扩展。有搜索能力的模型可能在 RL 训练中直接查答案，代码智能体可能利用仓库中的未来信息或滥用日志，有隐藏漏洞的环境可以让策略看起来超强，但其实在训练它作弊。

下一个研究瓶颈会出在环境设计、评估器鲁棒性和反作弊协议上。但方向明确：能用工具的思考就是比孤立的思考更有用。

他还预测了一个架构趋势：核心智能将越来越多地来自多个智能体的组织方式，编排器（orchestrator）负责规划和路由，专业智能体像领域专家一样运作，子智能体执行窄任务并控制上下文。从训练模型到训练智能体，再从训练智能体到训练系统。

【最后】

“Agentic thinking”这个词本身不新，但过去一年各家的实际动作已经替它做了最好的注脚。
OpenAI 的 GPT-5 系列是最激进的案例。从 2025 年 8 月 GPT-5 发布到 2026 年 3 月 GPT-5.4，不到八个月出了五个大版本，每一个都在往 agentic 方向猛推：原生电脑操控、百万 token 上下文、工具自动发现、长时间自主编程。GPT-5.4 在 GDPval 上跑出了 83% 的专业任务匹配率，比 GPT-5.2 高了 12 个百分点。但代价也很明显，Sam Altman 在 2026 年 1 月的开发者座谈会上亲口承认 GPT-5.2 的写作质量“搞砸了”，原话是“I think we just screwed that up”。用户反馈更直接：回复变短了、更公式化了、像一个“加班过度的秘书”。为了把资源集中在推理、编程和 agentic 能力上，OpenAI 在创意写作和对话温度上交了学费。这恰好印证了林俊旸文中说的那句话：instruct 行为和 thinking 行为会互相拉扯，顾此失彼。

Google 的 Gemini 3 系列走了另一条路。Gemini 3.1 Pro 在 ARC-AGI-2 上拿到 77.1%（是 Gemini 3 Pro 的两倍多），抽象推理能力领先。但在实际的智能体工具链可靠性上，独立测试显示它在长链条多步骤任务中的稳定性不如 Claude。Google 自己也承认 3.1 Pro 还在预览阶段，需要进一步提升“有野心的 agentic 工作流”才能正式发布。推理强不等于 agent 强，这是 Gemini 3 给出的一个反面教材。

DeepSeek 可能是最能说明“agentic 训练有多难”的例子。R2 模型原计划 2025 年 5 月发布，到 2026 年 3 月仍未面世。公开报道的原因包括华为昇腾芯片的训练稳定性问题、数据标注周期拉长，以及创始人梁文锋对模型效果不满意。但从技术逻辑看，DeepSeek V3.1 已经引入了 thinking/non-thinking 混合架构，下一步如果要做真正的 agentic 能力——工具调用、环境交互、长期任务规划——训练复杂度会再上一个台阶。V4 的发布一再推迟，很可能正是因为 agentic 这一关还没过。