YC 访问合伙人 Francois Cholard 深入讲解 Diffusion 扩散模型 —— 从基础原理到 Flow Matching,从图像生成到蛋白质折叠、机器人策略和天气预报,用代码演示为什么这是当今最强大的机器学习范式
「Flow Matching 用大约 10-15 行代码就实现了当今最强大的机器学习过程 —— 它与领域无关,可以应用于图像、蛋白质、天气、机器人策略等任何高维数据。」—— Francois Cholard
Diffusion 的核心思想极其简单:给数据加噪声,然后训练模型学会逆转这个过程。它特别擅长在高维空间中用少量数据学习复杂分布 —— 仅用 30 张图片就能在百万维空间中学到有效表示。这种能力使它远超传统方法。
Flow Matching 来自 Meta 的 Yaron Lipman,它将 Diffusion 简化到极致:不再走曲折的去噪路径,而是学习从噪声到数据的全局速度方向 —— 一条直线。训练循环仅需 5 行代码,与领域完全解耦,可用于图像、蛋白质、天气等任何数据。
除了自回归 LLM 和 AlphaGo 式的博弈之外,Diffusion 已成为几乎所有 AI 领域的最优方法:图像与视频生成(Midjourney、Sora、Flux)、蛋白质折叠(AlphaFold,诺贝尔奖)、机器人策略(Diffusion Policy)、天气预报(GenCast)、甚至代码生成(Diffusion LLM)。
如果把 LLM 和大脑放在一起「眯眼看」,差异巨大:LLM 一次只产生一个 token,永远不回头;而大脑大量使用递归、概念性思考和随机性。Diffusion 恰好提供了这两个关键特性 —— 利用随机性学习,以及一次生成整个概念块而非逐 token 输出。