第 5 层 · 需求层

核心问题：AI 硬件需求不是“更多用户用 chatbot”这么简单，而是 token throughput、agentic 工作负载、资本开支承诺、高强度用户密度把硬件需求从用户数解耦出来。

✦ 智慧压缩

┌──────────────────────────────────────────────────────────────────┐
│  需求层的元判断：                                           │
│                                                                  │
│  AI 需求的最深变化是：需求不再线性绑定 mass adoption。             │
│  一个高强度用户可以驱动多个 agent；一个企业工作流                  │
│  可以持续消耗 token；一个模型实验可以直接转成 N3/HBM 分配。   │
│                                                                  │
│  所以半导体需求的观测对象应从“用户数”切到：                         │
│  token throughput、agent ratio、资本开支锁定、电力 / 内存负载。    │
└──────────────────────────────────────────────────────────────────┘

主要论点

S12 · Agency 悖论驱动算力需求

来源 xray：AI Semiconductor Endgame
核心断言：AI 仍需要 human agency，但不需要很多人同时参与。一个人可以调度多个 agent，因此需求可以在高强度用户和企业工作流中爆发，而不是等 mass adoption。
关键数字 / 时间：
1 个 agency → 多个 agents
agentic 工作负载常被建模为 10-30x token vs chatbot
token consumption 比 MAU 更贴近硬件需求
现状：CAE 已有 S12 = ID 103。它是 S10 的上游需求机制。

S10 · 答案式 vs Agentic 推理分叉

来源 xray：AI Semiconductor Endgame，GTC 2026 Inference Kingdom Expands
核心断言：答案式推理和 agentic 推理是两条需求曲线。前者受人类延迟限制，后者受任务量、工具调用、内存状态和成本限制。
关键数字 / 时间：
答案式推理：低延迟 / HBM / SRAM / 高溢价 GPU 更重要
Agentic 推理：容量 / DRAM / NAND / SSD / CPU 编排更重要
KV cache、context state、RAG data lake 都把需求扩到内存层级
现状：CAE 已有 S10 = ID 96。它连接需求层和架构层。

S24 · Agentic CPU 与控制平面的可投资性

来源 xray：Supply Chain Inheritance，ASPEED BMC
核心断言：agentic 系统不只买 GPU。它们要 CPU 让 agent 持续运转，要 BMC 管理机架，要 bridge IC / telemetry / orchestration 保证系统可控。
关键数字 / 时间：
Agentic 工作负载：10-30x token vs chatbot
OpenAI burn / run-rate 类数据成为资本开支信号
Anthropic ARR jump 是需求强度的应用侧信号
ASPEED BMC TAM 46.5M → 65M chips by 2030
现状：进行中。S24 → S07 把需求层落到 ASPEED。

S15 · 电力和电网成为 AI 硬约束

来源 xray：AI Data Center Cost Breakdown，Citrini DPA / Grid
核心断言：资本开支需求到了一定规模，限制项从 GPU purchase order 变成电力采购、电网接入、变电站、冷却和建设周期。
关键数字 / 时间：
MW / GW 成为需求单位
2026：电网 / 电力被显性纳入 AI 基础设施讨论
800V 机架电力是需求的工艺响应
现状：S15 在物理层是主论点，在需求层是约束：需求越强，越快撞上电力。

S01 / S02 · 需求在 foundry 层得到确认

来源 xray：TSMC Earnings / New N3 Fabs，Great AI Silicon Shortage
核心断言：TSMC 破例讨论 agentic AI 和新 N3 fab，是需求从应用叙事穿透到 foundry 规划的证据。
关键数字 / 时间：
2026-04：TSMC 1Q26 earnings
3 座新 N3 fab
2027 H1 / H2 / 2028 爬坡窗口
2026 N3 晶圆：AI 约 60%
2027 N3 晶圆：AI 约 86%
现状：S01 → S02 → S25 是需求变成工艺瓶颈的主链路。

需求链路

graph LR
  Agency[S12 Agency 悖论] --> Inference[S10 答案式 vs Agentic]
  Inference --> Control[S24 CPU / BMC 控制平面]
  Inference --> Memory[S03 HBM / DRAM / NAND]
  Inference --> N3[S02 TSMC N3]
  N3 --> Dual[S25 N3 + HBM 双瓶颈]
  Memory --> Dual
  Dual --> Capex[S15 电力 / 电网 / 数据中心]

需求指标表

信号	优于	原因
Token throughput	MAU	token 直接映射 compute / memory 需求
Agent per user	席位数	1 人多 agent 会解耦用户数和算力
HBM 分配	GPU headline	带宽是真实 throughput 上限
N3 晶圆分配	资本开支 headline	先进逻辑是加速器出货上限
已锁定 MW / GW	已公告数据中心	电力接入决定实际上线节奏
CPU / BMC attach	GPU 数量	agentic 控制平面的硬件侧证据
DRAM / NAND pricing	HBM-only pricing	agentic 内存层级的外溢信号

关键摘句

“1 个 agency × 多 agent = 需求无需 mass adoption 也会急剧上升。” — Agency 悖论

“GPU 生成 token；CPU 让 agents 继续运转。” — Citrini 控制平面论点

“Token throughput = HBM × bandwidth。” — AI 半导体终局综合

“TSMC 这种沉默 actor 觉醒，是论点兑现的最强信号。” — TSMC 财报 xray

“需求不是希望，是已经在投的混凝土和设备。” — TSMC / 资本开支综合

术语引用

监控信号

信号	强化	削弱
Claude Code / Codex / Cursor token concentration	S12, S10	使用面变宽但单用户 token 深度不足
Frontier model 价格从 all-you-can-eat 转向 usage-based / overage	S12, S10	用户不愿为高阶 token 付费，token maxing 失败
企业 agentic 工作流支出	S12, S24	席位增长但 token 强度不足
KV cache / memory per token 显著下降	S10, S12	效率收益只降低硬件需求，未诱发更多长上下文 / agentic 使用
Hyperscaler 在市场怀疑中维持资本开支	S01, S02, S15	资本开支暂停，或从建设转向回购
TSMC / SK Hynix / Samsung 表述一致	S02, S03, S25	应用侧 hype 与供应商表述背离
电力采购和电网连接进展	S15	数据中心公告缺少电力路径
服务器 DRAM / NAND 价格强度	S04, S18	HBM 紧缺但内存层级需求未扩散

OB 参考补强

来源	补强点	对应论点
Stratechery: OpenAI and the Token Tsunami	把 AI 需求从 MAU 转成 token tsunami，适合补强 token throughput 口径。	S10, S12
Stratechery: Anthropic's New TPU Deal	Anthropic compute crunch 是 agentic coding / enterprise workflow 把需求推向硬件分配的应用侧证据。	S12, S13, S25
Stratechery: Nvidia Earnings; Power, Scarcity, and Marginal Costs	电力稀缺和边际成本把“需求强”翻译成 capex / power / marginal supply 约束。	S12, S15
SemiAnalysis: InferenceMAX	推理 benchmark 应拆成 throughput、latency、interactive load，而不是单一 tokens/sec。	S10, S11
Citrini: Agentic Utilities	Agentic 需求最终会碰到 utility / grid 约束，说明需求层和政策层已经耦合。	S12, S15, S19
The Information / Readwise: Cerebras IPO Winners	OpenAI 的潜在 Cerebras 股权与未来 compute capacity 采购绑定，说明算力需求可以通过长期容量承诺进入硬件公司估值，而不只通过 GPU 订单体现。	S12, S21
Sohn Conference Foundation: Gavin Baker interview	`token maxing`、code generation killer app、usage-based pricing 和高强度用户从 10bp 扩到 5% 的假设，把需求从 MAU 直接推到 token throughput / N3 / HBM / 电力。	S10, S12, S15
Eugene Ng / X: Memory Jevons can flip + DeepSeek V4-Pro model card	需求层的关键张力：memory efficiency 可能降低单 token 成本并释放更多长上下文使用，也可能在内存价格太高时成为逃离 HBM 的替代路径。	S10, S12, S18

未解疑问

Agentic 推理的最大需求是否来自 coding / enterprise automation，还是来自消费者 agents？
token price 下行会扩大 usage，还是压缩半导体利润率?
需求最终会被 HBM、N3、电力中的哪个约束最强地截断？
一人多 agent 是稳定生产力范式，还是早期高强度用户偏态？
compute-capacity deal 是 AI accelerator 公司长期需求的稳态融资结构，还是 IPO 窗口期的估值叙事？
usage-based pricing 会把 frontier token 变成高毛利需求曲线，还是会先触发企业软件预算 / 劳动力成本的再分配压力？
memory efficiency 的第一性效应是降低单位成本后的需求扩张，还是降低 HBM / DRAM 增量需求？