YC 的 The Light Cone 播客深度解析 Sora 背后的技术原理,并展示多家 YC 初创公司如何仅用 50 万美元在批次期间训练出令人惊叹的基础模型 -- 从视频生成到天气预测、蛋白质设计
「你不需要数十亿美元的资金和一个装满 GPU 的数据中心来训练基础模型。YC 当前批次的公司仅用 50 万美元就训练出了令人惊叹的模型 -- 关键在于高质量数据、巧妙的计算优化和专注的垂直领域。」
这是 YC 的 The Light Cone 播客的一期节目,由 YC 合伙人 Jared Friedman、Harj Taggar、Diana Hu 和 Gary Tan 共同主持。他们深度分析了 OpenAI Sora 的技术架构,包括 Transformer 与 Diffusion Model 的融合以及 SpaceTime Patches 的创新,随后展示了多家 YC W24 批次公司如何在极有限的资源下训练出各自领域的基础模型,涵盖视频生成、唇形同步、文本转歌曲、硬件设计、天气预测、蛋白质工程等多个前沿方向。
Sora 的核心突破在于将 Transformer(通常用于文本)与 Diffusion Model(用于图像生成)相结合,并加入了时间维度的一致性处理。OpenAI 引入了 SpaceTime Patches -- 一种将视频分割为空间 + 时间块的方式,类似于 LLM 中 token 的角色,使模型能在帧间保持长期视觉一致性。
YC W24 批次的多家公司证明,仅用 50 万美元的 YC 投资加上 Azure GPU 集群的免费额度,就可以在批次期间(约 3 个月)训练出高质量的基础模型。关键在于三大要素的巧妙组合:高质量数据 > 海量数据、垂直领域聚焦、计算资源优化。
Sonado 的创始人是 21 岁的应届毕业生,Playground 的 Suhail Doshi 把自己关在公寓里一个月读 AI 论文就自学成才。这个领域如此之新,只要花 6-9 个月认真阅读论文并与从业者交流,任何人都能站到技术前沿。别为自己找不能成功的理由。
Sora 不仅是视频生成工具,更是一个真实世界的物理模拟器。这项能力的延伸远超娱乐:天气预报(Atmo 用 AI 超越了耗资十亿美元的 NOAA 模型)、药物发现(蛋白质生成)、机器人控制、CAD 设计 -- 基础模型本质上是通用函数逼近器。