YC 团队深入调研数十家顶尖 AI 创业公司,揭秘 Prompt Engineering 的最新实战方法:从 Meta Prompting 到 Eval 体系,从 Forward Deployed Engineer 模式到不同模型的个性化差异
顶尖 AI 创业公司的真正护城河不是 Prompt 本身,而是 Eval 体系 -- 没有 Eval,你永远不知道 Prompt 为什么要这样写,也无法持续改进它。
Meta Prompting 正在成为所有顶尖 AI 公司都在使用的核心技术。其本质是让一个 Prompt 动态生成更好的版本 -- Prompt Folding。用更强大的模型(如 Claude 3.7、GPT o3)做 Meta Prompting 生成精炼 Prompt,然后在更快更小的模型上运行,这是应对延迟需求(如语音 AI)的标准做法。
Parahelp 愿意开源整个 Prompt,因为他们认为 Prompt 不是核心资产 -- Eval 才是。没有 Eval,你不知道 Prompt 为什么这样写,也无法改进它。获取高质量 Eval 需要创始人亲临一线、与用户面对面 -- 这正是 Forward Deployed Engineer 的精髓:坐在 Nebraska 的区域销售经理旁边,理解他们的 reward function。
LLM 天然渴望帮助你,即使信息不足也会编造答案 -- 这就是幻觉的根源。解决方案是在输出格式中增加一个 debug info 字段,让 LLM 向开发者「投诉」:你给的信息模糊或不完整。这不仅减少幻觉,还自动生成了一个开发者待办清单,告诉你 Prompt 哪里需要改进。
Claude 更像一个友好、高度可控的助手;Llama 4 像一个未经打磨的开发者,需要更多引导但可以精准控制;o3 像严格的士兵,死板执行 Rubric 评分;Gemini 2.5 Pro 像高能动性员工,能灵活处理边缘情况。选择模型就像选择员工,不同任务需要不同个性。