YC Decoded 2025.01.23

Scaling Laws 如何决定 AI 的未来

YC Decoded 深度解析 AI 领域最重要的发现之一：Scaling Laws。从 GPT-2 到 GPT-3 的百倍飞跃，到 Chinchilla 对数据量的重新定义，再到 o1/o3 开启的 Test-Time Compute 新范式

Speaker

YC Decoded

Duration

10:12

Date

2025.01.23

Scaling Laws 的三大要素

训练 AI 模型如同一个配方：模型参数（Parameters）、训练数据（Data/Tokens）、计算算力（Compute/GPUs）。2020 年 OpenAI 的论文证明，同时增加这三者会带来平滑、一致的性能提升，遵循幂律（Power Law）分布。性能更多取决于规模而非算法。

Chinchilla 的关键发现

2022 年 Google DeepMind 训练了 400 多个不同大小的模型，发现 GPT-3 等前代模型实际上是「训练不足」的 —— 模型很大但数据不够。Chinchilla 用不到 GPT-3 一半的参数但四倍数据量，性能远超体积两三倍的模型。最优 Scaling 不只是模型更大，还需要足够的数据喂养。

Pre-training Scaling 正在放缓

多方迹象显示传统的 Pre-training Scaling 正遭遇瓶颈：最新一代模型虽然更大更贵，但能力提升开始趋于平缓；多家头部实验室传出训练失败和收益递减的消息；高质量训练数据也面临枯竭的风险。

Test-Time Compute：新范式登场

OpenAI 的 o1/o3 推理模型开辟了全新的 Scaling 方向 —— 不再追求训练时的模型更大，而是让模型在推理时「思考更久」。o3 在软件工程、数学、博士级科学问题上大幅突破前代极限。这种 Test-Time Compute Scaling 可能是通往 AGI 的新路径。

Scaling Laws 如何决定 AI 的未来

📝 关于本期

📑 内容章节

💡 核心观点

Scaling Laws 的三大要素

Chinchilla 的关键发现

Pre-training Scaling 正在放缓

Test-Time Compute：新范式登场

Scaling Laws 如何决定 AI 的未来

📝 关于本期

📑 内容章节

💡 核心观点

Scaling Laws 的三大要素

Chinchilla 的关键发现

Pre-training Scaling 正在放缓

Test-Time Compute：新范式登场

登录后查看完整内容