Y Combinator 合伙人 Ankit Gupta 与 Anthropic 预训练负责人 Nick Joseph 深度对话:从 Scaling Laws 的正反馈循环到万卡集群调试,从预训练与后训练的博弈到 AGI 的工程之路
Scaling Laws 不只是一条幂律曲线 — 它驱动了一个正反馈飞轮:训练模型 → 产品化 → 获得收入 → 购买更多算力 → 训练更好的模型。Nick Joseph 从 Anthropic 成立之初就领导预训练团队,他揭示了大规模训练背后的工程挑战:从 GPU 硬件故障到跨千卡集群的分布式调试,从数据质量的不确定性到预训练与后训练的协同设计。这是一场来自 AI 前沿的第一手深度对话。
训练更大模型 → 产品化赚钱 → 购买更多算力 → 训练更好模型。Anthropic 过去 5 年一直在反复运转这个循环。Scaling Laws 给出了可预测的幂律关系,让你能量化投入产出比。
令人惊讶的是,具体的架构细节、超参数选择对最终结果的影响远小于投入的算力总量。只要足够多的 compute 投入到任何合理的目标函数上,你都能得到一个相当不错的模型。
预训练团队最缺的是能解决极难工程问题的人,而不是 ML 论文作者。模型架构本身很简单,真正的挑战是实现正确性、大规模并行化以及全栈调试能力 — 从 Python 代码到网络协议到硬件故障。
大规模训练中最令人恐惧的事情是难以发现的隐蔽 Bug。模型训练数月,一个精度转换错误或层连接错误可能导致你永远无法发现模型其实可以更好。有些 Bug 甚至永远不会暴露。
预训练和推理团队紧密协作,因为预训练的架构决策直接决定了推理的难度和效率。模型太大、通信太多、结构太复杂都会让推理团队陷入困境。两个团队本质上在"共同设计"模型。
互联网本质上是无限的 — 很多页面会无限生成内容。"有用的互联网"有多大、对 AI 训练的最佳数据质量指标是什么,这些问题都没有定论。PageRank 不等于 AI 训练的质量指标。