No.
It shows that RL alone can lead to the emergence of reasoning.
It’s a profound discovery. It’s now one of the realistic path to AGI. Anyone who had doubts that LLM is just a “stochastic parrot” can now shush.
Deepseek R1 的价值在于把用纯强化学习就能实现模型“思考”这条路走通走宽了。如果之前对深度学习的大模型还有“这只是记住语言的统计特征”这种浅表的批评的话,这个工作揭示了使用强化学习也能导致思考。
这是一项有哲学意义的工作:思考(或者说意识)真的是一个涌现现象,不是人类特有的,是模型通过针对一个奖励函数学习就能完成的。这是往 AGI 上重要的一步
之前机器人的强化学习大都只学策略 policy ,所以泛化能力有限。有这个工作,或许下面会有思考加策略的机器人学习系统问世。