mt logoMyToken
ETH Gas
EN

AI越便宜,芯片越贵

Favoritecollect
Shareshare

原文来源: 华尔街见闻

6 月 30 日,Anthropic 发布了 Claude Sonnet 5。

这是一款中端模型,Sonnect 系列里"最能干活"的。代理能力测试 SWE-bench Pro 上跑出 63.2 分——离旗舰 Opus 4.8 的 69.2 分只差 6 分。另一个维度上,研究生级推理测试 GPQA-AAA v2 上,Sonnet 5 反倒压了 Opus 4.8 一头。

定价更关键。优惠期内每百万输入 token 收 2 美元,输出 10 美元。Opus 4.8 对应的价格是 5 美元和 25 美元——Sonnet 5 用四到六成的价格,跑出了旗舰九成以上的能力。

这条新闻可以有两种读法。

第一种:AI 又变便宜了。成本下降利好所有人,Chatbot 战争继续,模型厂商卷生卷死。

第二种——也是市场正在定价的——模型越便宜,算力和存储反而越贵。

Claude Sonnet 5 发布当天,美国半导体指数涨近 4%。过去三年的 AI 叙事里有一条明线:推理效率会干掉芯片需求。但这个判断在每一个数据节点上都错了。

降价:三年降了一千倍

先看降价这条线。

2022 年,GPT-4 级别 API 调用成本约每千 token 0.03 美元。到 2025 年,同等性能级别模型的价格——按斯坦福 AI Index Report 的口径——降了约 280 倍。加上开源和效率提升的综合效应,业界公认的降幅是 1000 倍。

降了不只一种模型,是每一家都在降。

Anthropic 这次 Sonnet 5 对标 Opus 4.8 的能力密度,定价只有四到六成。Google 的 Gemini Omni Flash 视频生成每秒 0.10 美元,Nano Banana 2 Lite 图像模型 4 秒出图、每千张只要 0.034 美元——是前代的一半。DeepSeek-V4-Pro 把百万 token 输入打到了 0.035 美元的水平。

降价不止发生在定价表上。

6 月 24 日,The Information 报道 OpenAI 在内部找到了一项纯软件优化技术——某个运算环节的 GPU 需求被砍掉了一半不止,专用 GPU 池子从几千台骤降到几百台。同月,Meta 提出了 Vistara 方案:把退役服务器拆下来的 DDR4 内存通过自研 CXL 芯片重新接上,和 DDR5 按 3:1 搭配,推理服务器成本压降 25%。

到了 6 月 30 日,阶跃开源了推测解码技术 JetSpec——大模型推理速度可以提升近 10 倍。换算下来,同样的 token 输出量,需要的 GPU 数可以陡降一个数量级。

如果 AI 是一个传统的成本-需求函数,这些信号应该指向一件事:未来需要的芯片变少了。

华尔街是这么恐惧的。

1 月 DeepSeek 发布 R1 的那个周末,AI 基础设施股经历了近年最猛烈的抛售。AI 云公司 Nebius 股价暴跌 40%。故事线很简单:中国开源模型用 0.1 美元卖 token,美国公司花 2 美元,算力需求必然坍缩。

爆炸:总支出反涨 320%

但实际发生的事情完全相反。

Nebius 联合创始人 Roman Chernin 后来回忆:DeepSeek 引发恐慌的那个星期,"可能是我们销售最好的一周"。公司采购部门看到成本骤降后的第一反应不是砍预算,而是终于可以大规模跑推理了。

2024 年,全球企业的生成式 AI 总支出约 115 亿美元。2025 年,这个数字飙升到了 370 亿美元——一年涨了 320%。按 Menlo Ventures 的企业调研,中位企业在 2025 年运行着"数十个"AI 应用,而 2023 年这个数字是 1 到 2 个。

各个维度的数据都在同一条曲线上:

Uber 在 2026 年 4 月就已经烧完了全年的 AI 预算。AT&T 目前日处理 270 亿 token——18 个月前,这个数字是 8 亿。一家美国大型医保公司,月 token 消耗从 300 万一口气冲到了 1.5 亿以上。

拆开看,增长来自三个方向的叠加。

第一是应用扩散。每家企业的营销部用了 3 个 AI 工具,销售部 4 个,客服部 2 个,加上法务、HR、财务——从 2 个到几十个,这是数量级的跳跃。
第二是单应用深度。以客服 AI 为例:2023 年日交互量约 500 次,每次约 800 个 token,做完对话就结束。到 2025 年,日交互 15000 次,每次约 4500 个 token,每次交互还要再触发 3 到 5 次后续推理——情感分析、升级预测、质量评分——全部叠加在同一个入口上。
第三是模型本身的复杂度升级。从 7B 参数的单轮模型,升级到 70B 以上的多步推理代理,每一轮内部推理所消耗的 token 是线性交互的几十倍到上百倍。

换句话说,token 成本降到了千分之一,市场用掉的 token 数涨了数万倍。乘起来的净效应只有一个方向:支出爆炸。

Token 消耗量每两个月翻一倍——多条独立线索拼出了同一个数字。把这条指数曲线画到 2027 年,企业 AI 年支出破千亿美元是算术问题,不是预测问题。

传导:存储涨了六倍,芯片基建指向 7.6 万亿

降价刺激出的需求没有停留在软件层。

存储器价格的涨幅,是 AI 需求从模型层向硬件层传导最直接的信号。

2025 年三季度起,DRAM 和 NAND Flash 现货价格累计涨幅均超过 300%。DDR5 颗粒在单月内涨幅一度突破 90%。进入 2026 年,涨价不但没停,反而加速了。

一季度 DRAM 合约价涨幅从预期的 55%-60%被上修到 90%-95%;NAND 从 33%-38%上修到 55%-60%。二季度 TrendForce 的预测是 DRAM 再涨 58%-63%,NAND 再涨 70%-75%。

以消费级产品为锚:宏碁掠夺者 32G DDR5 6000 套条,2025 年 10 月底价格还在 1300 元,到 2026 年 1 月已经飙到 2700 元。三个月翻倍,放在消费品市场上极其罕见。

三星存储业务在 2025 年四季度录下单季营业利润历史新高——突破 20 万亿韩元、约合人民币 962 亿元。而这一年多的涨势最根本的推力并非来自手机或 PC 的消费级换代,而是 AI 数据中心对 HBM、企业级 SSD、高密度 DRAM 的巨量采购。

高盛 5 月的一份报告把这笔账算到了极致。

报告预测,2026 年到 2031 年全球 AI 基础设施累计资本支出约 7.6 万亿美元。2026 年单年 7650 亿美元,到 2031 年攀升至 1.6 万亿。其中,单颗基准 GPU(基于 NVIDIA VR200 Rubin)按 8.05 万美元计算,NVIDIA 占各期总算力支出的 75%。

高盛在报告里还追问了一个关键问题:如果 ASIC(专用芯片)大量替代 GPU,是否能削减总需求?

答案是分情况的。如果需求缺乏弹性——企业的 AI 算力需求是固定的——ASIC 替代可以直接降低总资本需求。但如果需求有弹性——算力越便宜就买得越多——芯片组合的改变主要重塑的是利润在不同供应商之间的分配,而不是总支出规模。

高盛的基准情景选的是后者。

美股价格也在往同一个方向走。闪迪自年初以来涨了 857%,Bernstein 在 6 月 30 日的报告中将目标价上调至 3000 美元。AMD 一天涨 7%创历史新高。做 GPU 的、做存储的、做封装的、做数据中心设备的——全部在新高附近。

Edgen.tech 在 6 月 11 日的综述文章里引用的这个数字最有冲击力:内存芯片价格在过去一年里涨了六倍。

"周期性回升"这个标签贴不上去。涨了六倍的东西,背后是整个经济体系的需求在重新定价 AI 的物理基础设施。

根源:Jevons 在 1865 年就已经回答过

威廉·斯坦利·杰文斯在 1865 年写了一本书叫《煤炭问题》。

他的核心观察是:瓦特改良蒸汽机后,单位煤耗大幅下降,英国的煤炭总消费量反而不降反升。因为效率提升意味着蒸汽动力在更多行业成本可接受了——纺织、铁路、采矿、航运——每一个新场景都创造出了原来不存在的煤炭需求。

160 年后,同样的公式在 AI 算力上重演了。

企业算过账。2022 年的 token 价格下,实时推理客服对话在经济上不可行。非紧急场景不值得跑 AI。个性化内容生成只能做细分群体级别,做不到用户级别。到了 2025 年,价格降了 1000 倍,这些"原来不存在的需求"全变成了刚需。

Nebius 的 Chernin 给了一句最直接的总结:"每一次我们让同样单位的智能变得更便宜,我们不是在减少消耗,而是在增加消耗——因为同样的预算可以解决更复杂的任务了。"

市场忽略了另一个结构性推力:毛利率的正反馈。

AI 推理的毛利率曲线在历史上找不到对应物。一家提供 API 的公司,起步阶段毛利率可能只有 10%——模型训练贵、推理贵。但软件优化(算子融合、量化、推测解码)每个月都在压推理成本,而定价调整总是慢半拍。于是毛利率从 10%爬到 90%的速度比任何传统行业都要短。

毛利率驱动利润,利润追加采购,采购摊薄成本——正反馈回路,没有天花板。

"你有 DRAM 就能卖 token,没有 DRAM 就无法卖 token。"这句话正在成为 AI 芯片需求的基本方程。

高盛报告的两个敏感性假设也在加深同一个判断。芯片经济寿命如果从 5 年缩到 3 年,替换周期加速,累计资本需求直接上台阶。每芯片内存比预期高 25%——主要改变的是芯片堆栈内部的支出分配,对 7.6 万亿总盘子的净影响有限,但方向是同一个:钱不会少花。

终局:谁握住了算力

Fable 5 出口管制解除——6 月 12 日禁、6 月 30 日解,前后三周——给了这个悖论一个意外的注脚。

管制的理由是"国家安全风险"。解除管制跟风险消失没关系——替代品出现了。Tulongfeng 等亚洲团队在管制期内推出了接近 Mythos 级的模型,封锁的威慑力迅速归零。解禁是现实使然,跟善意无关。

这段插曲恰好卡在 AI 降本悖论的主线上:模型是可替代的。从 GPT 到 Claude 到 DeepSeek 到开源模型,没有人能垄断 AI 的能力本身——有人设卡,就有人绕路。

硬件不是这套逻辑。

GPU 不行。DRAM 不行。晶圆厂的建设周期以年为单位。光刻机的产能上限是固定的。高纯度硅的供给弹性近乎零。这些都是物理定律,不是商业策略。软件优化可以压模型成本一千倍,但压不下一个晶圆厂的建设周期一天。

AI 模型降价的终点,如果这个悖论继续跑下去,不指向去算力化——指向算力定价权的再集中。 不管你用的是谁的模型,token 都得跑在某人的芯片上。模型厂商卷价格的每一分钱,最后都变成了数据中心、晶圆厂和存储产线账簿上的收入。降本越凶,这个转移越不可逆。

Disclaimer: This article is copyrighted by the original author and does not represent MyToken’s views and positions. If you have any questions regarding content or copyright, please contact us.(www.mytokencap.com)contact
More exciting content is available on
X(https://x.com/MyTokencap)
or join the community to learn more:MyToken-English Telegram Group
https://t.me/mytokenGroup