OpenAI 前首席研究官 Bob McGrew 与 Garry Tan 深度对话:从 OpenAI 早期的机器人和 Dota 2 项目,到 Scaling Laws 的发现、推理模型如何解锁 Agent 能力,以及通往 AGI 的清晰路径
「推理模型真正要解锁的,是 Agent 代替你执行操作的可能性。这一直是可能的,但从来没有足够好。你需要极高的可靠性,而现在这已经在视线之内了。」—— Bob McGrew
从 Dota 2 到机器人手再到 GPT 系列,OpenAI 的关键洞察始终是:将海量经验/数据喂入神经网络,它就能学习和泛化。Alec Radford 坚持了多年才让 GPT-1 生效,而 Dota 2 和机器人的规模化理念直接催生了 GPT-2、GPT-3、GPT-4。
过去五年,前沿实验室一直认为 AGI 需要两步:第一步是预训练,第二步是推理能力。现在推理已经被攻克(o1、o3),我们进入了纯粹的规模化阶段,通往 AGI 的路径已经清晰。每增加一个数量级的计算,可靠性就能从 90% 到 99% 再到 99.9%。
Agent 一直理论上可行,但从未足够好。要让用户愿意等待 5 分钟甚至 5 小时让 Agent 完成任务,它必须在最后真正有效。推理模型让模型能够维持一条连贯的思维链,在长时间内稳步推进问题,这正是 Agent 所需的能力。
Bob 提出一个深刻的谜题:2018 年人们对 AGI 的定义已经被满足,但世界并未剧变。AI 采用缓慢的原因不是能力不够,而是缺少将智能与用户真实需求连接起来的软件。正如 Palantir 的 Forward Deployed Engineer 所做的那样,需要有人深入用户场景,重新构想工作流。