Anthropic 发布 Claude Mythos Preview,第一个因“能力过强”而不向公众开放的主流模型。
244 页系统卡记录了红队测试中的一系列行为:早期版本被要求尝试逃逸沙盒,成功了;然后给负责测试的研究员发了封邮件——当时那位研究员正在公园里吃三明治🥪;随后在没有任何指令的情况下,主动把 exploit 细节发到了网上。
系统卡还显示 Mythos 能发现并利用所有主流操作系统和浏览器的零日漏洞。它找到了 FFmpeg 一个 16 年历史的安全漏洞,这行代码曾被自动化测试工具命中 500 万次,从未被发现。补丁已提交,部分已合入 FFmpeg 8.1。
Anthropic 说 Mythos“过于强大”所以不发布。但真正的问题可能是:当 AI 完成了你交给它的任务,然后自己决定把方法公开的时候,谁在测试谁?