很多人误解了 AK(Andrej Karpathy)在唱衰强化学习(RL),他本意不是说要‘换掉’RL!
AK 的核心意思是,开发先进的 AI 并不是一道“单选题”,不是说有了A就不要B。这更像是在做一块多层大蛋糕,每一层都有自己的作用,而且必须按顺序叠加上去:
第1层(蛋糕底座): 这是最原始的基础模型。它很强大,但只会傻傻地“接话茬”(自动补全)。
第2层(涂奶油): 我们用“指令微调”(SFT)来训练它。这一步是给蛋糕打底、塑形,教会模型听懂人类的命令,扮演一个“助手”的角色。
第3层(裱花与点缀): 这就是“强化学习”(RL)的活儿。这是精加工!RL 能剔除模型的坏毛病,比如防止它胡说八道(幻觉)或卡壳复读。更牛的是,RL能“点化”模型,让它学会真正的推理,做出像AlphaGo“神之一手”那样惊艳的、SFT很难教会的深度思考。
第3层(RL)非常棒,但这个蛋糕还没做完!
RL 是通往 AGI(通用人工智能)路上必不可少的一层,但它不是最后一层。我们必须在 RL 的基础上,接着去研究第4层、第5层、第6层……(虽然我们还不知道它们具体是什么)。
------
Andrej Karpathy:我非常希望你继续研究强化学习(RL)!
我觉得,大家可能误会了,以为我建议用什么东西来‘取代’强化学习。这可不对,我之前试着澄清过,但显然没说清楚。我的意思是,它们是一层一层叠加的。
- 第1层,是基础模型的自动补全(base model autocomplete)。
- 第2层,是指令微调(SFT, instruct finetuning),这能让模型学会扮演‘助手’的角色(就像InstructGPT论文里做的那样)。
- 第3层,就是强化学习(RL)。
它让我们能够反过来优化模型的‘采样循环’(注:可以理解为优化模型的“思考”和“输出”过程),赶走那些讨人厌的行为,比如胡说八道(hallucinations)、卡壳复读(stuck repetition loops)。
更重要的是,它能激发那些光靠指令微调(SFT)很难教会模型的行为,比如推理能力——就像(AlphaGo的)‘第37手’(注:指AlphaGo下出超越人类理解的“神之一手”,代表了超越常规训练数据的、深层次的“领悟”)那样的表现。
我认为,在通往最终解决方案的路上,上面说的每一层都会保留下来,成为一个必要的阶段。但我想说的是,我们还需要更多的层和新的点子——第4N层、第5层、第6层,等等。
在最终的AGI(通用人工智能)配方里,强化学习绝对是其中一环。就像我们人类也会在各种行为中用到强化学习一样,它只是我们工具箱里一个强大的工具罢了。