Google DeepMind 的 John Jumper 在 YC 演讲中分享 AlphaFold 的诞生历程:从物理学博士辍学到诺贝尔化学奖,揭示 AI 如何将蛋白质结构预测从数年缩短到数分钟,以及研究创新如何比数据和算力更具价值
「AI for Science 的核心在于研究创新,而非数据或算力的堆砌。AlphaFold 2 仅用 1% 的数据就超越了前代系统,证明了思想的力量是数据的百倍。我们正在构建工具,让科学家做出他们自己无法独立完成的发现。」
AlphaFold 的成功依赖三个要素:数据、算力和研究。数据方面,仅有 20 万已知蛋白质结构且人人可得;算力方面,仅用 128 个 TPU v3 核心训练两周,远非 LLM 级别的规模。真正的差异在于研究创新 -- AlphaFold 2 在仅 1% 数据上的表现就超越了前代系统,证明思想的力量可以放大数据和算力百倍。
AlphaFold 2 相比 AlphaFold 1 提升了约 30 GDT 分数,但没有任何单一创新贡献超过 2-3 分。Equivariance(等变性)曾被学界认为是关键突破,但消融实验显示移除它仅损失 2-3 分。真正变革性的系统来自大量「中等规模的想法」的协同叠加。
在 CASP 盲测中获胜后,结构预测专家认可了 AlphaFold,但普通生物学家仍持怀疑态度。真正的转折点是当 DeepMind 发布了包含 2 亿蛋白质预测的公开数据库后,科学家们在其中找到了自己未发表的蛋白质结构,纷纷惊呼「DeepMind 怎么拿到我未发表的数据的?」-- 口碑而非论文,是建立信任的关键。
AlphaFold 设计用于预测单个蛋白质结构,但代码开源仅两天后,研究者就发现可以将两个蛋白质序列拼接输入来预测蛋白质相互作用 -- 这相当于蛋白质领域的「Prompt Engineering」。这种「涌现能力」不断催生新应用,从靶向药物递送到发现精卵结合的新机制。