YC Decoded 深度解析 AI 领域最重要的发现之一:Scaling Laws。从 GPT-2 到 GPT-3 的百倍飞跃,到 Chinchilla 对数据量的重新定义,再到 o1/o3 开启的 Test-Time Compute 新范式
Pre-training 的 Scaling 可能已经放缓,但 Test-Time Compute 开启了全新的扩展范式 —— 让模型在推理时「思考更久」,智能就能按需提升。Scaling Laws 并未终结,它只是换了一种形式。
这期 YC Decoded 用 10 分钟清晰地梳理了 Scaling Laws 的前世今生:从 2020 年 OpenAI 发表的奠基性论文,到 Gwern 将其带入主流视野,再到 Google DeepMind 的 Chinchilla 研究揭示「数据量同样重要」,最后聚焦于 o1/o3 推理模型带来的 Test-Time Compute 新范式。这是理解当下 AI 竞赛底层逻辑的必看内容。
训练 AI 模型如同一个配方:模型参数(Parameters)、训练数据(Data/Tokens)、计算算力(Compute/GPUs)。2020 年 OpenAI 的论文证明,同时增加这三者会带来平滑、一致的性能提升,遵循幂律(Power Law)分布。性能更多取决于规模而非算法。
2022 年 Google DeepMind 训练了 400 多个不同大小的模型,发现 GPT-3 等前代模型实际上是「训练不足」的 —— 模型很大但数据不够。Chinchilla 用不到 GPT-3 一半的参数但四倍数据量,性能远超体积两三倍的模型。最优 Scaling 不只是模型更大,还需要足够的数据喂养。
多方迹象显示传统的 Pre-training Scaling 正遭遇瓶颈:最新一代模型虽然更大更贵,但能力提升开始趋于平缓;多家头部实验室传出训练失败和收益递减的消息;高质量训练数据也面临枯竭的风险。
OpenAI 的 o1/o3 推理模型开辟了全新的 Scaling 方向 —— 不再追求训练时的模型更大,而是让模型在推理时「思考更久」。o3 在软件工程、数学、博士级科学问题上大幅突破前代极限。这种 Test-Time Compute Scaling 可能是通往 AGI 的新路径。