第一眼看过去平平无奇:Prefill/Decode 解耦,多了个跨数据中心
和 AI 聊了会,发现老中真的是在压满 GPU 这件事上,工程创新又一轮
你一句话发到服务端,服务器开始推理。Prefill 是思考——把你的输入读完、想明白,算力密集。Decode 是说话——一字一字往外蹦,不吃很高算力。中间递一份"思考笔记",叫 KV cache
既然两阶段的资源需求完全不同,为什么非得挤在同一台机器上甚至一个机房里?Prefill 集中到高算力卡上批量跑,Decode 散到其他卡上慢慢蹦,中间把 KV cache 传过去就行。
其他人肯定也这么想过,但是由于算法受限,KV cache 太大,跨机房传输就使命不达。
Kimi Linear 的 hybrid attention 压缩了 KV cache,这使得传输不再变得那么不可行。而即便是可能可行,也需要足够多的线上流量才能证明真的可行。
盲猜这种工程感觉 openai 之类的公司也肯定想过(也可能没想过,毕竟没那么缺卡),但不见得会分享出来。
而更有想象空间的是,这说话 decode 这一步的硬件,国产卡、二手卡都能做,这个想象空间可就更大了。