← Back to Videos
Y Combinator 2025.09.30

Anthropic 预训练负责人:Scaling Laws、算力与 AI 的未来

Y Combinator 合伙人 Ankit Gupta 与 Anthropic 预训练负责人 Nick Joseph 深度对话:从 Scaling Laws 的正反馈循环到万卡集群调试,从预训练与后训练的博弈到 AGI 的工程之路

Guest
Nick Joseph
Interviewer
Ankit Gupta
Duration
64:04
Channel
Y Combinator

Scaling Laws 不只是一条幂律曲线 — 它驱动了一个正反馈飞轮:训练模型 → 产品化 → 获得收入 → 购买更多算力 → 训练更好的模型。Nick Joseph 从 Anthropic 成立之初就领导预训练团队,他揭示了大规模训练背后的工程挑战:从 GPU 硬件故障到跨千卡集群的分布式调试,从数据质量的不确定性到预训练与后训练的协同设计。这是一场来自 AI 前沿的第一手深度对话。

11
Scaling Laws 覆盖量级
$5M
GPT-3 训练成本估算
6
影响 MFU 的关键参数
1000+
早期训练 GPU 数量

📑 章节索引

0:00 开场介绍 1:05 从 Vicarious 到 OpenAI 到 Anthropic 的职业历程 6:40 什么是预训练 — 下一个词预测与互联网数据 11:20 为什么下一个词预测胜出 — 自回归 vs BERT 16:05 Scaling Laws 与算力-模型-收入的正反馈循环 21:50 Anthropic 早期基础设施建设 27:35 效率优化技巧与大规模调试 33:10 团队中的通才 vs 专家 38:45 跨千卡 GPU 训练的挑战 44:15 GPU vs TPU:与不同芯片打交道 49:00 预训练 vs 后训练(RLHF 与推理模型) 54:25 数据质量与可用性的未来 59:10 预训练的未来方向 1:03:00 结尾寄语 — 工程能力与 AGI 后的世界

💡 核心观点

1

Scaling Laws 驱动正反馈飞轮

训练更大模型 → 产品化赚钱 → 购买更多算力 → 训练更好模型。Anthropic 过去 5 年一直在反复运转这个循环。Scaling Laws 给出了可预测的幂律关系,让你能量化投入产出比。

2

算力是核心变量,细节是次要的

令人惊讶的是,具体的架构细节、超参数选择对最终结果的影响远小于投入的算力总量。只要足够多的 compute 投入到任何合理的目标函数上,你都能得到一个相当不错的模型。

3

预训练最需要工程师而非研究员

预训练团队最缺的是能解决极难工程问题的人,而不是 ML 论文作者。模型架构本身很简单,真正的挑战是实现正确性、大规模并行化以及全栈调试能力 — 从 Python 代码到网络协议到硬件故障。

4

一个 Bug 可以浪费整代模型

大规模训练中最令人恐惧的事情是难以发现的隐蔽 Bug。模型训练数月,一个精度转换错误或层连接错误可能导致你永远无法发现模型其实可以更好。有些 Bug 甚至永远不会暴露。

5

预训练与后训练的协同设计

预训练和推理团队紧密协作,因为预训练的架构决策直接决定了推理的难度和效率。模型太大、通信太多、结构太复杂都会让推理团队陷入困境。两个团队本质上在"共同设计"模型。

6

互联网数据的规模没有人真正知道

互联网本质上是无限的 — 很多页面会无限生成内容。"有用的互联网"有多大、对 AI 训练的最佳数据质量指标是什么,这些问题都没有定论。PageRank 不等于 AI 训练的质量指标。