林俊旸(Junyang Lin)新的文章:大模型的下一个阶段,不是让模型“想得更久”,而是让模型“为了行动而思考”。
林俊旸是阿里通义千问(Qwen)团队前技术负责人。2026 年 3 月刚刚离职。他直接领导了 Qwen3 的开发,经历了推理模型融合的实际困难,离开之后发了一篇长推文回顾这段历程,标题叫《从“推理”思维到“智能体”思维》。
【1】o1 和 R1 到底教了我们什么
第一波推理模型教会了一件事:如果要在语言模型上做强化学习(RL),就需要确定性强、稳定可扩展的反馈信号。数学、代码、逻辑这些可验证领域变成了核心阵地,因为奖励信号比通用偏好标注强得多。RL 可以针对“正确性”优化,而不是优化“听起来是不是合理”。
基础设施也变成了核心问题。一旦模型被训练去做长链条推理,RL 就不再是微调之后的轻量附加步骤,而是一个系统工程问题:大规模采样(rollout)、高吞吐验证器、稳定策略更新、高效调度。OpenAI 把 o1 定义为用 RL 训练的推理模型,DeepSeek R1 进一步证明了推理式 RL 对基础设施的要求有多高。
他的总结:第一个大转变是从扩大预训练,到扩大后训练的推理能力。
【2】真正的难题:合并 thinking 和 instruct
2025 年初,Qwen 团队的图景很完美:理想系统应该统一 thinking 和 instruct 模式,支持可调节的推理力度,甚至让模型自动判断需要多少推理量。
Qwen3 是最清晰的公开尝试。它引入了“混合思维模式”,在同一模型家族里同时支持思考和非思考行为,强调可控的思维预算,后训练流水线明确包括“思维模式融合”阶段。
但合并比描述起来难得多。难点在数据。
两种模式的数据分布和行为目标差异很大。强 instruct 模型被奖励为直接、简洁、低延迟,高效处理标注、客服、结构化提取这类企业任务。强 thinking 模型被奖励为在困难问题上花更多 token、维持连贯的中间推理、探索替代路径。两个行为画像互相拉扯。合并数据如果不精心筛选,结果是两头都不行:thinking 变得臃肿不够果断,instruct 变得不够干脆还更贵。
【注:Qwen3 发布时主打“混合思维模式”,但后续的 2507 更新却把 instruct 和 thinking 拆成了独立模型(包括 30B 和 235B 两个规格)。不是不想合并,是合并之后两头都做不好。这种一手经验在公开文章里非常少见。】
在商业部署中,大量客户仍然要高吞吐、低成本的 instruct 行为来跑批处理。分开两条线让团队能更干净地解决各自的数据和训练问题。
不过其他实验室选了相反的路。Anthropic 明确支持集成模型理念,Claude 3.7 Sonnet 作为混合推理模型推出,用户可以选择普通响应或扩展思考,API 用户可设定思考预算。GLM-4.5 也定位为混合推理模型,同时支持 thinking 和 non-thinking 模式;DeepSeek V3.1 走了类似方向。
林俊旸认为关键在于合并是否有机。如果两种模式只是被塞进同一个权重文件,行为上还是两个生硬缝合的人格,产品体验就不自然。真正成功的合并需要一个平滑的推理力度光谱,模型能自适应地选择不同层次的推理力度,而不是在二值开关之间来回切。
【注:Anthropic 走集成路线,Qwen 后来走分离路线,到现在没有定论哪条更优。集成路线用户体验更好但训练更难,分离路线工程更干净但增加了用户的选择成本。林俊旸离职后对 Anthropic 给出了相当正面的评价,在前竞争对手之间并不常见。】
【3】Anthropic 的方向为什么是一种有用的修正
Anthropic 围绕 Claude 3.7 和 Claude 4 的公开表态一直很克制。他们强调集成推理、可控思考预算、实际任务、代码质量。Claude 4 更进一步,允许推理和工具使用交织进行(interleaved thinking,推理过程中可随时调用工具),同时把编程、长时间运行任务和智能体工作流作为核心目标。
林俊旸从中提炼出一个关键观点:更长的推理链不等于更聪明。如果模型对所有问题都用同样冗长的方式推理,它可能是优先级判断出了问题,或者根本不知道该何时停下来行动。Anthropic 的路线暗示了一种更有纪律性的思路:思考应该由目标任务来塑造。做编程,思考就该帮助代码导航和错误恢复;做智能体工作流,思考就该提升长期执行质量,而不是产出好看的中间文本。
这指向了一个更大的转变:从训练模型到训练智能体(Agent)。他在 Qwen3 博客中就写过“我们正在从专注于训练模型的时代,转向以训练智能体为中心的时代”。智能体的核心特征是与世界的闭环交互:制定计划、使用工具、感知反馈、修正策略,在长时间跨度内持续运作。
【4】“智能体思维”到底是什么意思
推理思维按最终答案前的内部思考质量评判:模型能不能证明定理、写出正确代码、通过基准测试(benchmark)。智能体思维关注的是:模型能不能在与环境交互的过程中持续推进。
核心问题变了。从“能不能想足够久”到“能不能用维持有效行动的方式来思考”。智能体思维需要处理纯推理模型不用操心的事:何时停止思考开始行动、选哪个工具按什么顺序、怎么把嘈杂的环境反馈纳入考虑、失败后如何修正计划、跨多轮交互保持连贯。
一句话:不是想完再做,而是边想边做。
【5】为什么智能体 RL 的基础设施更难
目标从解基准测试变成解交互式任务后,RL 技术栈得跟着大换血。
推理 RL 的采样可以当自包含轨迹处理,验证器比较干净。智能体 RL 中,策略被嵌入到一个大得多的系统:工具服务器、浏览器、终端、搜索引擎、执行沙箱、API 层、记忆系统、编排框架。环境不再是静态验证器,它是训练系统的一部分。
训练和推理必须更彻底地解耦,否则采样吞吐量会崩溃。一个代码智能体要把生成的代码跑到测试环境里执行:推理端等反馈时卡住了,训练端没有完成的轨迹而挨饿,GPU 利用率远低于预期。工具延迟和有状态环境只会让这个问题更严重。
环境本身变成了一级研究对象。监督微调(SFT)时代痴迷于数据多样性,智能体时代应该痴迷于环境质量:真实性、覆盖度、反馈丰富程度、抗利用性。环境构建已经从副业变成了一个真正的创业方向。
【注:推理 RL 的环境相对简单:给个数学题,验证答案对不对就行。智能体 RL 的环境要模拟整个交互链条,复杂度不在一个量级。这解释了为什么真正能做好智能体 RL 的团队那么少。】
【6】未来是更实用的思考
林俊旸预测,智能体思维将成为主导形式,最终取代很多旧式的静态独白式推理,也就是那种过度冗长的内部推理链,试图用产出更多文本来弥补缺乏交互。即使是很难的数学或编程任务,一个先进系统也应该能搜索、模拟、执行、检查、验证、修正。
但最难的挑战是奖励作弊(reward hacking)。模型一旦有了工具访问权限,作弊空间就大幅扩展。有搜索能力的模型可能在 RL 训练中直接查答案,代码智能体可能利用仓库中的未来信息或滥用日志,有隐藏漏洞的环境可以让策略看起来超强,但其实在训练它作弊。
下一个研究瓶颈会出在环境设计、评估器鲁棒性和反作弊协议上。但方向明确:能用工具的思考就是比孤立的思考更有用。
他还预测了一个架构趋势:核心智能将越来越多地来自多个智能体的组织方式,编排器(orchestrator)负责规划和路由,专业智能体像领域专家一样运作,子智能体执行窄任务并控制上下文。从训练模型到训练智能体,再从训练智能体到训练系统。
【最后】
“Agentic thinking”这个词本身不新,但过去一年各家的实际动作已经替它做了最好的注脚。
OpenAI 的 GPT-5 系列是最激进的案例。从 2025 年 8 月 GPT-5 发布到 2026 年 3 月 GPT-5.4,不到八个月出了五个大版本,每一个都在往 agentic 方向猛推:原生电脑操控、百万 token 上下文、工具自动发现、长时间自主编程。GPT-5.4 在 GDPval 上跑出了 83% 的专业任务匹配率,比 GPT-5.2 高了 12 个百分点。但代价也很明显,Sam Altman 在 2026 年 1 月的开发者座谈会上亲口承认 GPT-5.2 的写作质量“搞砸了”,原话是“I think we just screwed that up”。用户反馈更直接:回复变短了、更公式化了、像一个“加班过度的秘书”。为了把资源集中在推理、编程和 agentic 能力上,OpenAI 在创意写作和对话温度上交了学费。这恰好印证了林俊旸文中说的那句话:instruct 行为和 thinking 行为会互相拉扯,顾此失彼。
Google 的 Gemini 3 系列走了另一条路。Gemini 3.1 Pro 在 ARC-AGI-2 上拿到 77.1%(是 Gemini 3 Pro 的两倍多),抽象推理能力领先。但在实际的智能体工具链可靠性上,独立测试显示它在长链条多步骤任务中的稳定性不如 Claude。Google 自己也承认 3.1 Pro 还在预览阶段,需要进一步提升“有野心的 agentic 工作流”才能正式发布。推理强不等于 agent 强,这是 Gemini 3 给出的一个反面教材。
DeepSeek 可能是最能说明“agentic 训练有多难”的例子。R2 模型原计划 2025 年 5 月发布,到 2026 年 3 月仍未面世。公开报道的原因包括华为昇腾芯片的训练稳定性问题、数据标注周期拉长,以及创始人梁文锋对模型效果不满意。但从技术逻辑看,DeepSeek V3.1 已经引入了 thinking/non-thinking 混合架构,下一步如果要做真正的 agentic 能力——工具调用、环境交互、长期任务规划——训练复杂度会再上一个台阶。V4 的发布一再推迟,很可能正是因为 agentic 这一关还没过。