← Back to Videos
YC Decoded 2025.01.23

Scaling Laws 如何决定 AI 的未来

YC Decoded 深度解析 AI 领域最重要的发现之一:Scaling Laws。从 GPT-2 到 GPT-3 的百倍飞跃,到 Chinchilla 对数据量的重新定义,再到 o1/o3 开启的 Test-Time Compute 新范式

Speaker
YC Decoded
Duration
10:12
Date
2025.01.23
Category
YC Decoded

Pre-training 的 Scaling 可能已经放缓,但 Test-Time Compute 开启了全新的扩展范式 —— 让模型在推理时「思考更久」,智能就能按需提升。Scaling Laws 并未终结,它只是换了一种形式。

📝 关于本期

这期 YC Decoded 用 10 分钟清晰地梳理了 Scaling Laws 的前世今生:从 2020 年 OpenAI 发表的奠基性论文,到 Gwern 将其带入主流视野,再到 Google DeepMind 的 Chinchilla 研究揭示「数据量同样重要」,最后聚焦于 o1/o3 推理模型带来的 Test-Time Compute 新范式。这是理解当下 AI 竞赛底层逻辑的必看内容。

📑 内容章节

00:00引言:大模型越来越大,Scaling 还能持续多久?
01:07从 GPT-2 到 GPT-3:Scaling Laws 的诞生
04:34Chinchilla 与数据瓶颈:不只是更大,还要更多数据
06:16Scaling 是否已触顶?行业争论与瓶颈
07:29Test-Time Compute:o1/o3 开启的新 Scaling 范式

💡 核心观点

1

Scaling Laws 的三大要素

训练 AI 模型如同一个配方:模型参数(Parameters)、训练数据(Data/Tokens)、计算算力(Compute/GPUs)。2020 年 OpenAI 的论文证明,同时增加这三者会带来平滑、一致的性能提升,遵循幂律(Power Law)分布。性能更多取决于规模而非算法。

2

Chinchilla 的关键发现

2022 年 Google DeepMind 训练了 400 多个不同大小的模型,发现 GPT-3 等前代模型实际上是「训练不足」的 —— 模型很大但数据不够。Chinchilla 用不到 GPT-3 一半的参数但四倍数据量,性能远超体积两三倍的模型。最优 Scaling 不只是模型更大,还需要足够的数据喂养。

3

Pre-training Scaling 正在放缓

多方迹象显示传统的 Pre-training Scaling 正遭遇瓶颈:最新一代模型虽然更大更贵,但能力提升开始趋于平缓;多家头部实验室传出训练失败和收益递减的消息;高质量训练数据也面临枯竭的风险。

4

Test-Time Compute:新范式登场

OpenAI 的 o1/o3 推理模型开辟了全新的 Scaling 方向 —— 不再追求训练时的模型更大,而是让模型在推理时「思考更久」。o3 在软件工程、数学、博士级科学问题上大幅突破前代极限。这种 Test-Time Compute Scaling 可能是通往 AGI 的新路径。