奥特曼:合着我不建机房你们就不发新模型咯?给大家带来月之暗面在 Reddit 的 AMA (Ask Me Anything) 的爆料内容！信息量巨大!首先最大的猛料莫过于 ComfortableAsk449 (小道消息是这位是杨植麟) 回应 Kimi-K3 什么时候发布说 "我们会在奥特曼的万亿美元数据中心建成之前发布"哈哈哈哈言归正传,

发布时间: 2025-11-12 05:10:09

1分

数据加载中

奥特曼:合着我不建机房你们就不发新模型咯?
给大家带来月之暗面在 Reddit 的 AMA (Ask Me Anything) 的爆料内容！信息量巨大!
首先最大的猛料莫过于 ComfortableAsk449 (小道消息是这位是杨植麟) 回应 Kimi-K3 什么时候发布说 "我们会在奥特曼的万亿美元数据中心建成之前发布"哈哈哈哈
言归正传,
时政
( twitter.com )

奥特曼:合着我不建机房你们就不发新模型咯?

给大家带来月之暗面在 Reddit 的 AMA (Ask Me Anything) 的爆料内容！信息量巨大!

首先最大的猛料莫过于 ComfortableAsk449 (小道消息是这位是杨植麟) 回应 Kimi-K3 什么时候发布说 "我们会在奥特曼的万亿美元数据中心建成之前发布"哈哈哈哈

言归正传, 给大家总结这次精华内容, 我觉得说了很多之前大家不知道的事情:

首先, 460万美元训练成本只是传言, 但可以肯定训练成本不会特别高, 官方团队爆料训练使用H800 GPU + Infiniband，数量比美国高端 GPU 少，但充分利用每张卡. int4 精度大家都知道了, 选择 int4 对非 Blackwell GPU 更友好，可以用 marlin 内核.

关于 Kimi K3, 很可能会在 K3 中采用 KDA 相关思想, 并中融入重大架构变化开发新能力, 根据社区观察，每两个月第一个周五发布（预测 2026年1月9日）.

其他新模型方面, 目前社区呼声最高的是3B到48B这个区间, 100-120B MoE 社区也强烈需求. 另外透露可能会有新的视觉语言模型! (之前也有Kimi-VL)

技术方面, KDA + NoPE MLA 比 full MLA + RoPE 表现更好, Muon 优化器首次在1T参数规模得到了验证. K2 Thinking 使用端到端代理强化学习训练. 团队曾做过 1M 上下文窗口（当时成本太高）,未来版本会增加上下文长度（目前256K）. 团队承认当前版本优先性能而非 token 效率, 正在积极改进，会将效率纳入奖励函数.

其他消息还包括, OK Computer 马上也要上 kimi-k2-thinking 版本, 当前写作风格是特调的, 避免谄媚和过度积极.

#moonshotAI #kimik2 #kimik3 #kimivl #AMA