← Back to Videos
Y Combinator 2024.09.19

构建世界最佳图像扩散模型

Playground 创始人兼 CEO Suhail Doshi 做客 YC The Light Cone 播客,深度分享他们如何从零构建全新架构的图像生成模型,实现文本渲染、Prompt 理解和图形设计领域的全面领先

Speaker
YC
Duration
55:51
Date
2024.09.19
Category
YC 访谈

「要达到 SOTA,你必须对每一个细节都近乎偏执。有些人训练模型后得到了不错的文本生成,但字距不对 -- 你是那种会在意字距的人,还是根本注意不到的人?」—— Suhail Doshi

👤 嘉宾介绍

S
Suhail Doshi
Playground 创始人兼 CEO
曾创立数据分析公司 Mixpanel 并将其发展为年收入数亿美元的企业,后创办云端浏览器 Mighty,最终转型创建 Playground -- 当前图像生成领域的 SOTA 模型与产品
G
Garry Tan
Y Combinator CEO
YC 现任 CEO 兼总裁,本期节目中同时以 Playground 深度用户身份展示了他用模型制作的 T 恤和贴纸设计
J
Jared / Diana / Harj
YC The Light Cone 主持人
YC 合伙人团队,共同主持 The Light Cone 播客,曾投资数百家初创公司,总市值达数千亿美元

📑 内容章节

00:00开场:Playground 的图像生成能力展示
07:07文本生成的技术突破:从 45% 准确率到 SOTA
11:01模板与视觉优先:重新定义用户交互
16:00Prompt 理解与数据工程:训练数据的极致细节
23:58Playground V3 全新架构:抛弃 CLIP、VAE 和 UNet
30:05Prompt 遵循与美学的纠缠问题
34:01从 Mixpanel 到 Mighty 再到 Playground 的创业历程
48:30如何达到 SOTA:对每个细节的偏执追求

💡 核心观点

1

文本渲染是图像模型的核心突破口

Playground 将文本准确性作为第一优先级。几乎所有有商业价值的图形设计用例 -- Logo、海报、T 恤、贴纸 -- 都需要文本。当 Stable Diffusion 和 Midjourney 的文本渲染仍然模糊混乱时,Playground 选择在这个方向上实现跨越式突破,从而打开了从「AI 玩具」到「AI 设计工具」的转变。

2

视觉优先而非文本优先的产品哲学

与 ChatGPT 式的文本交互不同,Playground 选择了视觉优先的路线:用户从模板出发,而非从空白 Prompt 开始。这个设计理念来自对用户行为 18 个月的深入观察 -- 大多数人写不出好 Prompt,与其教用户如何写 Prompt,不如让产品团队替用户完成 Prompt 工程。

3

全新模型架构:从零开始的勇气

Playground V3 完全抛弃了 Stable Diffusion 的标准架构(CLIP + VAE + UNet),选择了一条高风险的全新技术路线。团队面对「安全方案」和「冒险方案」时,选择了后者 -- 因为他们认为用旧架构无论如何都无法实现理想的 Prompt 理解和文本精度,失败是确定的,不如赌一把不确定的。

4

顺风比逆风更重要

Suhail 从三次创业中总结出最重要的教训:选择有顺风(tailwind)的方向。Mixpanel 赶上了移动互联网浪潮,Mighty 却遭遇了 Apple Silicon 的逆风。Playground 则站在 AI 和大语言模型的双重顺风中 -- 等着就能变得更好、更快、更便宜。