Y Combinator 2024.03.28

如何构建像 OpenAI Sora 这样的生成式 AI 模型

YC 的 The Light Cone 播客深度解析 Sora 背后的技术原理，并展示多家 YC 初创公司如何仅用 50 万美元在批次期间训练出令人惊叹的基础模型 -- 从视频生成到天气预测、蛋白质设计

Speaker

Duration

34:05

Date

2024.03.28

Category

YC 访谈

👤 关于本期

这是 YC 的 The Light Cone 播客的一期节目，由 YC 合伙人 Jared Friedman、Harj Taggar、Diana Hu 和 Gary Tan 共同主持。他们深度分析了 OpenAI Sora 的技术架构，包括 Transformer 与 Diffusion Model 的融合以及 SpaceTime Patches 的创新，随后展示了多家 YC W24 批次公司如何在极有限的资源下训练出各自领域的基础模型，涵盖视频生成、唇形同步、文本转歌曲、硬件设计、天气预测、蛋白质工程等多个前沿方向。

📑 内容章节

00:00Sora 演示与效果分析：机器人遛狗与金门大桥

05:08Sora 技术揭秘：Transformer + Diffusion + SpaceTime Patches

08:58YC 公司如何用 50 万美元训练基础模型

10:07Infinity AI：深度伪造视频与 SyncLabs 实时唇形同步

13:41Sonado：21 岁大学生构建文本转歌曲模型

15:52Metalware 与 Guab：硬件 Copilot 与可解释基础模型

21:24合成数据、物理模拟与 AI 天气预报（Atmo）

27:00机器人、CAD 设计与 AI 的无限应用前景

💡 核心观点

Sora 是 Transformer 与 Diffusion Model 的融合

Sora 的核心突破在于将 Transformer（通常用于文本）与 Diffusion Model（用于图像生成）相结合，并加入了时间维度的一致性处理。OpenAI 引入了 SpaceTime Patches -- 一种将视频分割为空间 + 时间块的方式，类似于 LLM 中 token 的角色，使模型能在帧间保持长期视觉一致性。

训练基础模型不需要数十亿美元

YC W24 批次的多家公司证明，仅用 50 万美元的 YC 投资加上 Azure GPU 集群的免费额度，就可以在批次期间（约 3 个月）训练出高质量的基础模型。关键在于三大要素的巧妙组合：高质量数据 > 海量数据、垂直领域聚焦、计算资源优化。

AI 专业背景被高估了

Sonado 的创始人是 21 岁的应届毕业生，Playground 的 Suhail Doshi 把自己关在公寓里一个月读 AI 论文就自学成才。这个领域如此之新，只要花 6-9 个月认真阅读论文并与从业者交流，任何人都能站到技术前沿。别为自己找不能成功的理由。

物理模拟将是 AI 最深远的应用

Sora 不仅是视频生成工具，更是一个真实世界的物理模拟器。这项能力的延伸远超娱乐：天气预报（Atmo 用 AI 超越了耗资十亿美元的 NOAA 模型）、药物发现（蛋白质生成）、机器人控制、CAD 设计 -- 基础模型本质上是通用函数逼近器。