YC Decoded 2024.12.06

Anthropic 的 Claude Computer Use 是颠覆性产品

YC Decoded 深度解析 Anthropic 推出的 Claude Computer Use：AI 如何像人类一样操作电脑，浏览网页、点击按钮、输入文字，Agent Loop 的工作原理，以及这项技术对开发者和整个行业的深远影响

Speaker

YC Decoded

Duration

7:54

Date

2024.12.06

Claude 从 3.0 版本起就具备图像分析能力。Anthropic 在此基础上训练模型识别屏幕截图中的精确像素位置，并学会何时点击、何时输入。令人惊讶的是，这只需要「并不算多的额外训练」就能取得很好的效果 -- 这是模型泛化能力的绝佳体现。

Claude Computer Use 的核心是 Agent Loop：分析提示词、选择工具、执行操作、截图检查进度、根据结果调整下一步。这种可重复的循环使 Claude 能够处理复杂的多步骤任务，而不再局限于单次问答。

此前开发者必须为 AI 构建定制环境和专用工具。Computer Use 颠覆了这一范式 -- 模型可以直接使用人类已有的任何软件工具。这极大降低了开发门槛，让 AI 的应用场景呈指数级扩展。

Computer Use 仍处于公测阶段：速度较慢、偶尔崩溃、有时会「分心」（如突然搜索黄石公园图片）。更关键的安全风险是 Prompt Injection -- 恶意网站可能诱导 Claude 执行非预期操作。Anthropic 通过虚拟机隔离和站点白名单来缓解风险。

📌 关于本期