semi.x.fish

第 3 层 · 架构层

核心问题:AI 工作负载正在把芯片竞争从“单颗 GPU 峰值算力”推向数据流、舰队规模专用化、机架级系统、答案式 / agentic 推理分叉。

✦ 智慧压缩

┌──────────────────────────────────────────────────────────────────┐
│  架构层的元判断:                                       │
│                                                                  │
│  AI 芯片架构的真正变量不是“谁的 FLOPS 更高”,而是工作负载形状。 │
│  训练、答案式推理、agentic 推理、edge/on-device 推理            │
│  对延迟、内存、网络、CPU 控制平面的要求不同。                   │
│                                                                  │
│  NVIDIA 的当前护城河是机架级系统;                             │
│  TPU 的反击是舰队规模专用化;                                  │
│  数据流的重启是 AI 工作负载让执行效率重新变成核心变量。           │
└──────────────────────────────────────────────────────────────────┘

主要论点

S10 · 答案式 vs Agentic 推理分叉

S11 · NVIDIA 低延迟溢价侵蚀

S09 · 数据流架构复兴

S13 · Google TPU 垂直整合

S14 · 舰队规模足够大时,专用化胜过通用化

S17 · Blackwell 机架级架构成为系统护城河

S21 · AI Cake 价值捕获栈

链路

起点终点关系含义
S12S10因果Agency 悖论解释 agentic 推理需求为什么会爆发。
S10S11因果Agentic 推理扩大会侵蚀低延迟溢价。
S10S24因果Agentic 推理需要 CPU / BMC / 控制平面。
S09S14类比数据流和 TPU 专用化都是面向工作负载的架构。
S13S14因果TPU 垂直整合只有在舰队规模下成立。
S14S11竞争舰队规模专用化是 NVIDIA 通用溢价的压力源。
S16S17赋能CPO / 光子互连支撑下一代机架级架构。
S17S11张力Blackwell 系统护城河对冲低延迟溢价侵蚀。
S21S17背景AI cake 框架解释 Blackwell 护城河在哪一层。

关键摘句

“如果让 AI 设计芯片,它大概率不会选数据流架构。” — Li Auto / Xie Yan xray

“数据流 的价值,恰恰在于它不是 GPU 的自然延伸。” — Li Auto xray

“AI 推理市场结构性分裂。” — 推理 endgame 论点

“护城河 不在单颗芯片,而在 机架级系统。” — Blackwell 综合

“Specialization wins only when the fleet is large enough.” — TPU 综合

术语引用

监控信号

信号利好削弱
TPU v7/v8 公开部署S13, S14TPU 需求仍封闭且规模偏小
NVIDIA Dynamo / 分离式推理采用S11NVIDIA 不解耦也能保持全栈利润率
Blackwell / Rubin 机架部署节奏S17电力 / 热管理 / networking 延迟部署
Groq / 数据流走出 nicheS09数据流仍只是 benchmark 故事,未进入生产栈
Agentic 工作负载 token 占比S10, S24Chatbot-style 答案式推理仍占主导
CPO / 光子互连机架集成S16, S17光互连路线图滑到 2027 以后

OB 参考补强

来源补强点对应论点
SemiAnalysis: Vera Rubin Extreme Co-DesignRubin / Vera / NVLink 6 / rack platform 把竞争单位从 GPU die 推到系统。S17
SemiAnalysis: Rubin CPX Specialized Accelerator推理专用化和 rack 架构升级,是答案式 / agentic 分叉的硬件响应。S10, S17
SemiAnalysis: Google TPUv7TPU 外部化和 Anthropic demand 让 Google 专用化变成供应链事件。S13, S14, S25
SemiAnalysis: AWS Trainium3AWS 自研芯片是 TPU 之外的 hyperscaler ASIC lane。S14, S25
Stratechery: Anthropic's New TPU DealAnthropic compute crunch 说明 TPU 是算力短缺下的战略联盟,不只是 benchmark。S13, S14

未解疑问