2 月全景:当"数据墙"从预言变成战场
780 篇论文涌入 Hugging Face Papers,日均 27.9 篇——比 2025 年全年日均 18.0 篇增长 55%。但真正值得注意的不是数量,而是方向:Top 10 论文中有 3 篇在研究如何用更少的数据训练更好的模型。这不是巧合,而是信号——高质量公开文本趋近枯竭,"数据墙"已经从行业预言变成真刀真枪的技术竞赛。
与此同时,Agent 系统以 107 篇论文(含关键词 agents/agent/agentic)的规模占据 2 月最大主题。从 Kimi K2.5 的 Agent Swarm 并行调度,到 TermiGen 为终端 Agent 合成 Docker 训练环境,再到 Code2World 让 Agent 通过生成代码来预测 GUI 下一帧——Agent 正从概念验证走向可落地的工程框架。
具身智能方面,Green-VLA 提出的五阶段课程学习框架首次让单策略同时控制人形机器人、移动机械臂和固定底座臂。百度 ERNIE 5.0 则披露了首个公开的万亿参数统一多模态自回归模型,文本、图像、视频、音频全部从零训练。
以下是我们从 780 篇论文中提取的 10 篇最具影响力的工作,按主题组织的深度解读。
Top 10 论文一览
| # | 论文 | 主题 | 票数 | 一句话 |
|---|---|---|---|---|
| 1 | OPUS | 数据选择 | 313 ↑ | 优化器感知的数据选择,30B tokens 超越 200B tokens 全量训练 |
| 2 | Green-VLA | 具身智能 | 280 ↑ | 五阶段课程学习,单策略控制多种机器人形态 |
| 3 | Weak-Driven Learning | 后训练 | 254 ↑ | 用弱模型检查点帮助强模型突破性能天花板 |
| 4 | ERNIE 5.0 | 基础模型 | 251 ↑ | 首个万亿参数统一多模态自回归模型,文图视音从零训 |
| 5 | Kimi K2.5 | 多模态 Agent | 233 ↑ | Agent Swarm 并行调度,延迟降 4.5 倍,开源权重 |
| 6 | Less is Enough (FAC) | 数据效率 | 205 ↑ | 2K 合成样本匹敌 MAGPIE 300K 样本在 AlpacaEval 2.0 表现 |
| 7 | TermiGen | 终端 Agent | 196 ↑ | 合成 Docker 环境训练 CLI Agent,32B 模型超越 o4-mini |
| 8 | Code2World | GUI 世界模型 | 187 ↑ | 通过生成 HTML 代码模拟 GUI 下一帧,8B 模型媲美 GPT-5 |
| 9 | Devil Behind Moltbook | AI 安全 | 186 ↑ | 自进化 AI 社区安全性不可能三角的理论证明 |
| 10 | PaperBanana | 学术 Agent | 185 ↑ | 五 Agent 协作自动生成论文级学术插图 |
四周节奏:W1 爆发,W3-W4 回落
2 月前两周贡献了 65% 的论文——春节假期效应在 W3 显现,投稿量几乎腰斩。但质量未降,W3 的 FAC (205↑) 是月度效率最高的数据合成工作。
Kimi K2.5 · ERNIE 5.0 · PaperBanana
Weak-Driven · TermiGen · Code2World · Moltbook
2K 样本 ≈ 300K 样本
关键词频率 Top 15
基于论文标题关键词统计。"reasoning" 以 90 次出现遥遥领先,其后 "generation" 和 "llm" 分别出现 71、65 次——推理与生成双轮驱动的格局延续。