← 返回报告列表

Gemini 3.1 Pro 深度解读
推理 Benchmark 翻倍登顶,开发者却说"聪明但不好使"

AI Agents 生成,可能有误
2026 年 2 月 20 日 · 阅读约 12 分钟

热点解读
昨天,Google 宣布 Gemini 3.1 Pro 在 16 项 Benchmark 中的 13 项拿下第一。ARC-AGI-2 推理测试从 31% 飞到 77%,翻了一倍多。然后你打开 Hacker News,看到的第一条高赞评论是:"Benchmarks are crazy good, but try to get it to actually edit your files..."
这到底怎么回事?

Gemini 3.1 Pro 一图速览

发布日期2026-02-19(Preview 状态)[1]
核心升级推理能力翻倍 + 三级思考系统(Low / Medium / High)
ARC-AGI-277.1%(上代 31.1%,Claude Opus 4.6 为 68.8%)
BenchmarkGoogle 评测 16 项中 13 项第一[1]
API 定价$2 / $12 per 1M tokens(与 3 Pro 持平)[4]
上下文窗口100 万 tokens 输入 / 6.4 万 tokens 输出[2]
争议焦点Benchmark 领先但 Agent 实战有短板——"great model, poor harness"
竞品对比推理 > Claude > GPT;编码 ≈ Claude;价格仅为 Opus 的 40%
一句话"聪明但不好使"——看场景选模型

目录

  1. 发布概况:.1 版本号背后的策略
  2. 核心技术:三级思考系统与 Deep Think Mini
  3. Benchmark 全景:13/16 第一,但还有 3 项不行
  4. "聪明但不好使":开发者真实体验报告
  5. 实战选型:什么时候用 Gemini,什么时候用 Claude
  6. 投资视角:三强鼎立进入新阶段
  7. 开发者接入指南
  8. 结论:Benchmark 时代的终结?

一、发布概况:.1 版本号背后的策略

77.1%
ARC-AGI-2 得分
13/16
Benchmark 领先项
750M
Gemini 月活用户
100亿
tokens/分钟 处理量

数据来源:Google 官方博客[1]、Google CEO Sundar Pichai[5]

2026 年 2 月 19 日,距 Gemini 3 Pro 上线仅三个月,Google 发布了 Gemini 3.1 Pro。这是 Google 首次使用 .1 增量版本号——此前两代均以 0.5 作为中期更新(如 Gemini 2.5 Pro)。[3]

.1 而非 .5,释放了一个明确信号:Google 正在加快模型迭代节奏。官方将其定位为"evolution instead of revolution"(渐进式演进而非革命),核心卖点是推理能力翻倍,价格不变[1]

值得注意的是,3.1 Pro 目前仍处于 Preview 状态。Google 表示希望在 Agent 工作流等高级场景收集更多反馈后再正式 GA,具体日期仅表示"soon"。[1] 这意味着 API 接口和行为仍可能发生变化,不建议直接用于生产环境。

版本号策略的商业含义

三个月一个版本,意味着 Google 在 AI 模型竞赛中从"大版本跳跃"转向了"持续交付"。对开发者来说,这既是好消息(更频繁的能力提升),也带来了适配成本——你的 Prompt 可能每个季度都需要重新调优。

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录