好吧,有一点我确实是忽略了,就是在一个rack内部,72个GPU之间的通信可能比我想象的要频繁
比如如果infra将模型分成了多个expert,或者将不同层的模型放在不同的gpu上,那么同一个inference,特别是agentic inference任务可能会在不同主板的gpu/hbm中计算,最后reduce到一个cpu上汇总,这需要板间通信。
这种model/expert parallelism是我刚才忽略的地方,毕竟现在模型太大,一个gpu确实放不下,甚至2个也放不下。
但问题是,rack里面用nvlink/nvswitch就够了,这是铜线。等到scale-up到一个rack里有144,288,甚至1000多个gpu的时候,那么铜线交换机带宽不足,确实会要用到cpo,但那一定是2028年之后才会发生的事
这个光的叙事逻辑,以及它对推理的重要性,其实和存储完全不同
存储是现在就需要,而且他能直接影响inference speed。
hbm处理kv-cache,超过部分offload到nand,所以两者的订单,价格和营收暴涨
我觉得如果投资存储和光通信,你一定要明白这些看起来没用的道理
谢谢大家