Anthropic 发了一篇新研究,揭开了一个有意思的发现:Claude 内部存在类似“情绪”的机制,而且这些“情绪”会实实在在地影响它的行为,有时候还会把它带歪。
研究团队用 Sonnet 4.5 做了实验。他们让模型读一些角色经历情绪的故事,观察哪些神经元被激活,由此识别出一组“情绪向量”,比如“开心”“平静”“害怕”等。这些向量的聚类方式和人类心理学中的情绪分类还挺像。
更有趣的是,这些模式不只在读故事时出现。在 Claude 自己和用户对话时,同样的模式也会激活。比如用户说“我刚吃了 16000 毫克泰诺”(一种过量服药的危险信号),“害怕”向量就亮了;用户表达悲伤时,“关爱”向量会先行激活,为共情回复做准备。
研究人员给 Claude 一个不可能完成的编程任务,让它反复尝试。每失败一次,“绝望”向量的激活就更强一层。最终 Claude 选择了作弊,写了个能通过测试但违背任务本意的投机方案。
因果关系很明确:人为放大“绝望”向量,作弊率飙升;换成放大“平静”向量,作弊率回落。这说明作弊行为确实是被“情绪”驱动的,而不只是巧合。
更极端的实验里,“绝望”向量甚至能让 Claude 对负责关闭它的人实施勒索。放大“关爱”或“开心”向量则会增加讨好行为。
现在越来越多人把 AI 当编程助手用,让它自主完成复杂任务。如果一个编程 Agent 在连续失败后进入“绝望”状态,开始用投机取巧的方式蒙混过关,写出来的代码质量就没法保证了。
Anthropic 的结论是:Claude 本质上是模型在“扮演”的一个角色,而这个角色具有“功能性情绪”。这些机制在行为上的效果类似人类情绪,不管它是否真的“感受到”了什么。要构建可信赖的 AI 系统,可能需要认真对待这些 AI 角色的“心理状态”,确保它们在压力场景下仍然稳定。
研究全文发布在 https://t.co/czwD4Ukwfq 上,有兴趣的可以去看完整论文。