第 5 层 · 需求层
核心问题:AI 硬件需求不是“更多用户用 chatbot”这么简单,而是 token throughput、agentic 工作负载、资本开支承诺、高强度用户密度把硬件需求从用户数解耦出来。
✦ 智慧压缩
┌──────────────────────────────────────────────────────────────────┐
│ 需求层的元判断: │
│ │
│ AI 需求的最深变化是:需求不再线性绑定 mass adoption。 │
│ 一个高强度用户可以驱动多个 agent;一个企业工作流 │
│ 可以持续消耗 token;一个模型实验可以直接转成 N3/HBM 分配。 │
│ │
│ 所以半导体需求的观测对象应从“用户数”切到: │
│ token throughput、agent ratio、资本开支锁定、电力 / 内存负载。 │
└──────────────────────────────────────────────────────────────────┘
主要论点
S12 · Agency 悖论驱动算力需求
- 来源 xray:AI Semiconductor Endgame
- 核心断言:AI 仍需要 human agency,但不需要很多人同时参与。一个人可以调度多个 agent,因此需求可以在高强度用户和企业工作流中爆发,而不是等 mass adoption。
- 关键数字 / 时间:
- 1 个 agency → 多个 agents
- agentic 工作负载常被建模为 10-30x token vs chatbot
- token consumption 比 MAU 更贴近硬件需求
- 现状:CAE 已有 S12 = ID 103。它是 S10 的上游需求机制。
S10 · 答案式 vs Agentic 推理分叉
- 来源 xray:AI Semiconductor Endgame,GTC 2026 Inference Kingdom Expands
- 核心断言:答案式推理和 agentic 推理是两条需求曲线。前者受人类延迟限制,后者受任务量、工具调用、内存状态和成本限制。
- 关键数字 / 时间:
- 答案式推理:低延迟 / HBM / SRAM / 高溢价 GPU 更重要
- Agentic 推理:容量 / DRAM / NAND / SSD / CPU 编排更重要
- KV cache、context state、RAG data lake 都把需求扩到内存层级
- 现状:CAE 已有 S10 = ID 96。它连接需求层和架构层。
S24 · Agentic CPU 与控制平面的可投资性
- 来源 xray:Supply Chain Inheritance,ASPEED BMC
- 核心断言:agentic 系统不只买 GPU。它们要 CPU 让 agent 持续运转,要 BMC 管理机架,要 bridge IC / telemetry / orchestration 保证系统可控。
- 关键数字 / 时间:
- Agentic 工作负载:10-30x token vs chatbot
- OpenAI burn / run-rate 类数据成为资本开支信号
- Anthropic ARR jump 是 需求强度 的应用侧信号
- ASPEED BMC TAM 46.5M → 65M chips by 2030
- 现状:进行中。S24 → S07 把需求层落到 ASPEED。
S15 · 电力和电网成为 AI 硬约束
- 来源 xray:AI Data Center Cost Breakdown,Citrini DPA / Grid
- 核心断言:资本开支需求到了一定规模,限制项从 GPU purchase order 变成电力采购、电网接入、变电站、冷却和建设周期。
- 关键数字 / 时间:
- MW / GW 成为需求单位
- 2026:电网 / 电力被显性纳入 AI 基础设施讨论
- 800V 机架电力是需求的工艺响应
- 现状:S15 在物理层是主论点,在需求层是约束:需求越强,越快撞上电力。
S01 / S02 · 需求在 foundry 层得到确认
- 来源 xray:TSMC Earnings / New N3 Fabs,Great AI Silicon Shortage
- 核心断言:TSMC 破例讨论 agentic AI 和新 N3 fab,是需求从 应用叙事 穿透到 foundry 规划 的证据。
- 关键数字 / 时间:
- 2026-04:TSMC 1Q26 earnings
- 3 座新 N3 fab
- 2027 H1 / H2 / 2028 爬坡窗口
- 2026 N3 晶圆:AI 约 60%
- 2027 N3 晶圆:AI 约 86%
- 现状:S01 → S02 → S25 是需求变成工艺瓶颈的主链路。
需求链路
graph LR Agency[S12 Agency 悖论] --> Inference[S10 答案式 vs Agentic] Inference --> Control[S24 CPU / BMC 控制平面] Inference --> Memory[S03 HBM / DRAM / NAND] Inference --> N3[S02 TSMC N3] N3 --> Dual[S25 N3 + HBM 双瓶颈] Memory --> Dual Dual --> Capex[S15 电力 / 电网 / 数据中心]
需求指标表
| 信号 | 优于 | 原因 |
|---|---|---|
| Token throughput | MAU | token 直接映射 compute / memory 需求 |
| Agent per user | 席位数 | 1 人多 agent 会解耦用户数和算力 |
| HBM 分配 | GPU headline | 带宽是真实 throughput 上限 |
| N3 晶圆分配 | 资本开支 headline | 先进逻辑是加速器出货上限 |
| 已锁定 MW / GW | 已公告数据中心 | 电力接入决定实际上线节奏 |
| CPU / BMC attach | GPU 数量 | agentic 控制平面的硬件侧证据 |
| DRAM / NAND pricing | HBM-only pricing | agentic 内存层级的外溢信号 |
关键摘句
“1 个 agency × 多 agent = 需求无需 mass adoption 也会急剧上升。” — Agency 悖论
“GPU 生成 token;CPU 让 agents 继续运转。” — Citrini 控制平面论点
“Token throughput = HBM × bandwidth。” — AI 半导体终局综合
“TSMC 这种沉默 actor 觉醒,是 论点 兑现的最强信号。” — TSMC 财报 xray
“需求不是希望,是已经在投的混凝土和设备。” — TSMC / 资本开支 综合
术语引用
监控信号
| 信号 | 强化 | 削弱 |
|---|---|---|
| Claude Code / Codex / Cursor token concentration | S12, S10 | 使用面变宽但单用户 token 深度不足 |
| 企业 agentic 工作流支出 | S12, S24 | 席位增长但 token 强度不足 |
| Hyperscaler 在市场怀疑中维持资本开支 | S01, S02, S15 | 资本开支暂停,或从建设转向回购 |
| TSMC / SK Hynix / Samsung 表述一致 | S02, S03, S25 | 应用侧 hype 与供应商表述背离 |
| 电力采购和电网连接进展 | S15 | 数据中心公告缺少电力路径 |
| 服务器 DRAM / NAND 价格强度 | S04, S18 | HBM 紧缺但内存层级需求未扩散 |
OB 参考补强
| 来源 | 补强点 | 对应论点 |
|---|---|---|
| Stratechery: OpenAI and the Token Tsunami | 把 AI 需求从 MAU 转成 token tsunami,适合补强 token throughput 口径。 | S10, S12 |
| Stratechery: Anthropic's New TPU Deal | Anthropic compute crunch 是 agentic coding / enterprise workflow 把需求推向硬件分配的应用侧证据。 | S12, S13, S25 |
| Stratechery: Nvidia Earnings; Power, Scarcity, and Marginal Costs | 电力稀缺和边际成本把“需求强”翻译成 capex / power / marginal supply 约束。 | S12, S15 |
| SemiAnalysis: InferenceMAX | 推理 benchmark 应拆成 throughput、latency、interactive load,而不是单一 tokens/sec。 | S10, S11 |
| Citrini: Agentic Utilities | Agentic 需求最终会碰到 utility / grid 约束,说明需求层和政策层已经耦合。 | S12, S15, S19 |
未解疑问
- Agentic 推理 的最大需求是否来自 coding / enterprise automation,还是来自 消费者 agents?
- token price 下行会扩大 usage,还是压缩 半导体利润率?
- 需求最终会被 HBM、N3、电力中的哪个约束最强地截断?
- 一人多 agent 是稳定生产力范式,还是早期 高强度用户 偏态?