Playground 创始人兼 CEO Suhail Doshi 做客 YC The Light Cone 播客,深度分享他们如何从零构建全新架构的图像生成模型,实现文本渲染、Prompt 理解和图形设计领域的全面领先
「要达到 SOTA,你必须对每一个细节都近乎偏执。有些人训练模型后得到了不错的文本生成,但字距不对 -- 你是那种会在意字距的人,还是根本注意不到的人?」—— Suhail Doshi
Playground 将文本准确性作为第一优先级。几乎所有有商业价值的图形设计用例 -- Logo、海报、T 恤、贴纸 -- 都需要文本。当 Stable Diffusion 和 Midjourney 的文本渲染仍然模糊混乱时,Playground 选择在这个方向上实现跨越式突破,从而打开了从「AI 玩具」到「AI 设计工具」的转变。
与 ChatGPT 式的文本交互不同,Playground 选择了视觉优先的路线:用户从模板出发,而非从空白 Prompt 开始。这个设计理念来自对用户行为 18 个月的深入观察 -- 大多数人写不出好 Prompt,与其教用户如何写 Prompt,不如让产品团队替用户完成 Prompt 工程。
Playground V3 完全抛弃了 Stable Diffusion 的标准架构(CLIP + VAE + UNet),选择了一条高风险的全新技术路线。团队面对「安全方案」和「冒险方案」时,选择了后者 -- 因为他们认为用旧架构无论如何都无法实现理想的 Prompt 理解和文本精度,失败是确定的,不如赌一把不确定的。
Suhail 从三次创业中总结出最重要的教训:选择有顺风(tailwind)的方向。Mixpanel 赶上了移动互联网浪潮,Mighty 却遭遇了 Apple Silicon 的逆风。Playground 则站在 AI 和大语言模型的双重顺风中 -- 等着就能变得更好、更快、更便宜。