AI泡沫论,继循环投资/左脚踩右脚的故事淡化后,终于又迎来了新论据,这次轮到了GPU折旧问题
这次的叙事很简单,在几个主流CSP的财务报表里,GPU折旧年限很多都是平摊到6年来算
但是GPU使用寿命可能只有2~3年,那么这样做账就会让纸面上利润率虚高,而实际上AI云利润太低就是吹泡泡
真的是这样吗?
------------------------
首先我们要来看看,GPU实际使用寿命2~3年这个说法是哪里来的
目前比较靠谱的溯源基本上指向了公开的Llama3的技术报告
Meta在2024年训练Llama 3.1 405B模型时,使用了16,384个H100 GPU,训练时长54天。在这期间记录了:
466次中断(interruptions),其中419次是非计划故障
平均每3小时发生一次故障
有效训练时间维持在90%以上
根据Meta的这次54天训练数据推算,年化GPU故障率(AFR)约9%,最保守的估算,3年累计故障率约27%(超过1/4的GPU会在3年内失效)
虽然实际上肯定是用的时间越长故障率会更高,因为高负载导致的高温会更容易产生failure
所以训练用的GPU2~3年寿命并不是空穴来风,毕竟同步训练的脆弱性决定了AI训练过程要求单个GPU故障就能导致整个作业停止
另一个佐证就是,曾经GPU挖矿的矿卡,三年报废率也是很可观的,挖矿和训练的共通之处在于GPU利用率都很高
在这个Llama3技术报告之外,所有CSP,包括Azure,GCP,AWS的这类数据都是保密的,毕竟这个故障率直接关系到运营成本和服务质量,算是商业机密。
-----------------------------------------
确认了折旧率数据来源,接下来就要说“但是”了
--------
1. 是不是训练用的GPU寿命都一直会这么短?
首先Meta这个训练数据推算是按中断次数算的,但并不是每次中断都 = 1 GPU 坏了
实际上即便是现在的训练用GPU,中断故障率都比以前训练要低了,以前几乎每一两小时都要中断,现在每天中断几次,相比之下好一些
部分原因是validation的自动化流程做的更好了,训练时的硬件故障中断,其实有不少是重复来自于少数体质敏感易坏的GPU。于是Nvidia也一直在优化validation流程,在训练之前的测试做的更好,剔除掉这些易坏的GPU
所以现在的GPU年故障率AFR跟以前比已经低不少了,我的估算可能是<6%
---------
2. 一个更容易被忽视的问题是,训练用的GPU和推理用的GPU,折旧率是否一样?
很显然是不一样的,推理用的GPU年折旧率一般要低的多,原因是推理的平均负荷要小得多,不会因为持续性高负载高温,对延长寿命是有帮助的,一般年故障率都不会到3%甚至更低(<2%),这部分GPU的寿命以6年算,是完全符合实际情况的
那么在云上训练和推理GPU的比例如何,就决定了平均寿命折旧如何
推理GPU的比例其实是快速上升的,和训练GPU比起来,不管是模型公司还是云公司的利润其实主要也来自于推理,而长远来看,推理的比例是一定会远高于训练的
所以GPU长线按5~6折旧年限来记账,仔细来看并没有太过分
作为佐证,现在只要不是公司里最重要的部门,要做AI推理就只能用五年前的A100而并没有寿终正寝,是很常见的现象
----------
3. 技术的快速迭代,会让GPU在三四年之后,因为TCO使用成本占劣势而被淘汰吗?
这相当于是让GPU的残值可以忽略,比如现在A100用起来综合成本不如用最新的,所以会被淘汰吗?
今天CRWV的财报里,CEO的回答算是直接否定了这个说法:
"Let me provide a tangible example of our customer relationships and the durability of our platform. We had a large, multi-year contract up for renewal in 2026."
(我来提供一个关于我们客户关系和平台持久性的具体例子。我们有一个大型的多年期合同,原定于 2026 年续约。)
"Two quarters in advance, the customer proactively recontracted for the infrastructure at a price within 5% of the original agreement."
(客户提前两个季度,主动以原协议价格 5% 以内的价格续签了基础设施合同”)
H100在合同结束之后,新合同仍然能卖到原来合同95%的价格(看到这里其实我挺惊讶的,H100的租价其实还是下降了不少的),而且连A100也全都卖光了
所以在算力紧缺供不应求的时代,这个前代GPU得不到利用从而报废的担心,在短期的几年内可能都不是太大问题
----------------------------------------------
GPU折旧问题似乎不是大问题了,是不是意味着AI泡沫就不存在了?
如果有泡沫,那么会以什么形式出现,会从哪里出现?
我们可以从底层逻辑和互联网泡沫比较,来看这个问题
简单的说
互联网:基建端基本独立运营,基建和应用是解耦的,需求是脱节的,基建过度价格崩塌,泡沫破裂的很惨 。价值全产生在应用端公司,形成了生态错位
AI:应用端驱动基建,因为应用被基建严重限制规模,从而被迫投资基建端,算力一直紧缺
互联网的泡沫主要在基建端,大量的光纤建设之后都没人用(97%),但是AI泡沫里GPU基建却成了瓶颈,基建显然不是同一种泡沫
基建紧缺到什么程度?
CRWV的订单backlog从30B直接涨到55B,各个CSP的backlog(以RPO为算,一般来说会有5~15%的丢单率)也在快速上涨
从CSP,到芯片,到数据中心DC,到电力,到存储,所有人都在喊订单挤压的太多甚至几倍,很多产业链的环节2026年全部售罄,根本做不完。
硅谷公司里基本上只要是跟AI相关的组,都背负了很重的指标,被压榨累成狗,即便是以前文化很好的NVDA也变内卷了很多
这次的需求全部是从App应用端来的,从App -> 云 -> DC数据中心 -> 芯片一层层传导,而且大家都对泡沫很忌惮,有多少订单准备多少产能(除了少数冒险家CRWV/ORCL/META),和互联网泡沫最大的区别在于,基建目前并没有超出需求建设
风险也是有的,毕竟App应用端太多创业烧的是VC的钱,这正是泡沫形成的绝佳背景。但目前来看,垂直类应用端还是有很多毛利率和增长率都很不错的代表的(比如Harvey)
所以如果真的有泡沫,目前来看只有可能来自App应用端的需求减弱
一个反直觉的悖论,App端的泡沫在于AI/Agent发展迭代的不够快!做出的东西不够好,导致营收增速跟不上
AI/Agent发展不够快,在广大行业渗透不够又部分是因为算力不够
于是为了维持泡沫不破,算力投资和军备竞赛又会继续加强
然后App端会出现大量输家被淘汰,因为算力投入而破产,这可能就是泡沫破裂的形式
这和互联网时代基建公司大量破产形成了鲜明对比
最后决出的几家寡头,有一定营收,依然会大力投入算力基建,期待赢家通吃
这就导致了AI泡沫和互联网的泡沫破裂方式可能是不同的,下游的基建风险并不大,而泡沫更偏向App应用端
另一个简单的比较方式:看谁在举债,泡沫破裂就在哪里
互联网泡沫,举债的更多在基建端,价值捕获更多在App端
AI泡沫,价值捕获在App应用端,而举债的也更多在应用端(以及云)
但反过来说,如果OpenAI和Anthropic能继续维持三年3~9倍的营收增速,基建维持5年供不应求的超级周期,并不是天方夜谭的事情
---------------------
算力把时间借给了应用,终究要用增长归还;还不上的,就是泡沫。能还清的,就是点亮文明的下一座灯塔
点击图片查看原图
点击图片查看原图
点击图片查看原图
点击图片查看原图