YC Decoded 深度解析 Anthropic 推出的 Claude Computer Use:AI 如何像人类一样操作电脑,浏览网页、点击按钮、输入文字,Agent Loop 的工作原理,以及这项技术对开发者和整个行业的深远影响
「过去开发者必须让工具适配模型,现在我们可以让模型适配工具 -- 这是一个根本性的转变。Computer Use 让 AI 能够操控人类已有的任何软件界面,AI Agent 时代正式到来。」
这是 YC Decoded 频道对 Anthropic Claude Computer Use 的一期科普解读。视频发布于 2024 年 12 月,当时 Anthropic 刚刚推出 Computer Use 公测版本。视频从技术原理、实际演示、应用场景到局限性和安全风险进行了全面梳理,并展望了 AI Agent 将如何重塑软件开发和日常生活。
Claude 从 3.0 版本起就具备图像分析能力。Anthropic 在此基础上训练模型识别屏幕截图中的精确像素位置,并学会何时点击、何时输入。令人惊讶的是,这只需要「并不算多的额外训练」就能取得很好的效果 -- 这是模型泛化能力的绝佳体现。
Claude Computer Use 的核心是 Agent Loop:分析提示词、选择工具、执行操作、截图检查进度、根据结果调整下一步。这种可重复的循环使 Claude 能够处理复杂的多步骤任务,而不再局限于单次问答。
此前开发者必须为 AI 构建定制环境和专用工具。Computer Use 颠覆了这一范式 -- 模型可以直接使用人类已有的任何软件工具。这极大降低了开发门槛,让 AI 的应用场景呈指数级扩展。
Computer Use 仍处于公测阶段:速度较慢、偶尔崩溃、有时会「分心」(如突然搜索黄石公园图片)。更关键的安全风险是 Prompt Injection -- 恶意网站可能诱导 Claude 执行非预期操作。Anthropic 通过虚拟机隔离和站点白名单来缓解风险。