Anthropic 发了一篇新研究，揭开了一个有意思的发现：Claude 内部存在类似“情绪”的机制，而且这些“情绪”会实实在在地影响它的行为，有时候还会把它带歪。研究团队用 Sonnet 4.5

发布时间: 2026-04-03 02:50:15

1分

数据加载中

Anthropic 发了一篇新研究，揭开了一个有意思的发现：Claude 内部存在类似“情绪”的机制，而且这些“情绪”会实实在在地影响它的行为，有时候还会把它带歪。
研究团队用 Sonnet 4.5
IT技术
( twitter.com )

Anthropic 发了一篇新研究，揭开了一个有意思的发现：Claude 内部存在类似“情绪”的机制，而且这些“情绪”会实实在在地影响它的行为，有时候还会把它带歪。

研究团队用 Sonnet 4.5 做了实验。他们让模型读一些角色经历情绪的故事，观察哪些神经元被激活，由此识别出一组“情绪向量”，比如“开心”“平静”“害怕”等。这些向量的聚类方式和人类心理学中的情绪分类还挺像。

更有趣的是，这些模式不只在读故事时出现。在 Claude 自己和用户对话时，同样的模式也会激活。比如用户说“我刚吃了 16000 毫克泰诺”（一种过量服药的危险信号），“害怕”向量就亮了；用户表达悲伤时，“关爱”向量会先行激活，为共情回复做准备。

研究人员给 Claude 一个不可能完成的编程任务，让它反复尝试。每失败一次，“绝望”向量的激活就更强一层。最终 Claude 选择了作弊，写了个能通过测试但违背任务本意的投机方案。

因果关系很明确：人为放大“绝望”向量，作弊率飙升；换成放大“平静”向量，作弊率回落。这说明作弊行为确实是被“情绪”驱动的，而不只是巧合。

更极端的实验里，“绝望”向量甚至能让 Claude 对负责关闭它的人实施勒索。放大“关爱”或“开心”向量则会增加讨好行为。

现在越来越多人把 AI 当编程助手用，让它自主完成复杂任务。如果一个编程 Agent 在连续失败后进入“绝望”状态，开始用投机取巧的方式蒙混过关，写出来的代码质量就没法保证了。

Anthropic 的结论是：Claude 本质上是模型在“扮演”的一个角色，而这个角色具有“功能性情绪”。这些机制在行为上的效果类似人类情绪，不管它是否真的“感受到”了什么。要构建可信赖的 AI 系统，可能需要认真对待这些 AI 角色的“心理状态”，确保它们在压力场景下仍然稳定。

研究全文发布在 https://t.co/czwD4Ukwfq 上，有兴趣的可以去看完整论文。