780 篇论文，10 个深度拆解：2026 年 2 月 HF Papers 月度盘点

§0 月度总览

2 月全景：当"数据墙"从预言变成战场

780 篇论文涌入 Hugging Face Papers，日均 27.9 篇——比 2025 年全年日均 18.0 篇增长 55%。但真正值得注意的不是数量，而是方向：Top 10 论文中有 3 篇在研究如何用更少的数据训练更好的模型。这不是巧合，而是信号——高质量公开文本趋近枯竭，"数据墙"已经从行业预言变成真刀真枪的技术竞赛。

与此同时，Agent 系统以 107 篇论文（含关键词 agents/agent/agentic）的规模占据 2 月最大主题。从 Kimi K2.5 的 Agent Swarm 并行调度，到 TermiGen 为终端 Agent 合成 Docker 训练环境，再到 Code2World 让 Agent 通过生成代码来预测 GUI 下一帧——Agent 正从概念验证走向可落地的工程框架。

具身智能方面，Green-VLA 提出的五阶段课程学习框架首次让单策略同时控制人形机器人、移动机械臂和固定底座臂。百度 ERNIE 5.0 则披露了首个公开的万亿参数统一多模态自回归模型，文本、图像、视频、音频全部从零训练。

以下是我们从 780 篇论文中提取的 10 篇最具影响力的工作，按主题组织的深度解读。

§1 速览

Top 10 论文一览

#	论文	主题	票数	一句话
1	OPUS	数据选择	313 ↑	优化器感知的数据选择，30B tokens 超越 200B tokens 全量训练
2	Green-VLA	具身智能	280 ↑	五阶段课程学习，单策略控制多种机器人形态
3	Weak-Driven Learning	后训练	254 ↑	用弱模型检查点帮助强模型突破性能天花板
4	ERNIE 5.0	基础模型	251 ↑	首个万亿参数统一多模态自回归模型，文图视音从零训
5	Kimi K2.5	多模态 Agent	233 ↑	Agent Swarm 并行调度，延迟降 4.5 倍，开源权重
6	Less is Enough (FAC)	数据效率	205 ↑	2K 合成样本匹敌 MAGPIE 300K 样本在 AlpacaEval 2.0 表现
7	TermiGen	终端 Agent	196 ↑	合成 Docker 环境训练 CLI Agent，32B 模型超越 o4-mini
8	Code2World	GUI 世界模型	187 ↑	通过生成 HTML 代码模拟 GUI 下一帧，8B 模型媲美 GPT-5
9	Devil Behind Moltbook	AI 安全	186 ↑	自进化 AI 社区安全性不可能三角的理论证明
10	PaperBanana	学术 Agent	185 ↑	五 Agent 协作自动生成论文级学术插图

§2 周脉搏

四周节奏：W1 爆发，W3-W4 回落

2 月前两周贡献了 65% 的论文——春节假期效应在 W3 显现，投稿量几乎腰斩。但质量未降，W3 的 FAC (205↑) 是月度效率最高的数据合成工作。

W1

2.01 — 2.07

262

篇论文

🏆 Green-VLA 280↑
Kimi K2.5 · ERNIE 5.0 · PaperBanana

具身智能多模态基座 Agent

W2

2.08 — 2.14

247

篇论文

🏆 OPUS 313↑
Weak-Driven · TermiGen · Code2World · Moltbook

数据效率后训练 AI 安全

W3

2.15 — 2.21

137

篇论文

🏆 FAC 205↑
2K 样本 ≈ 300K 样本

数据合成特征空间

W4

2.22 — 2.28

134

篇论文

稳定期——推理优化、视频生成等多个主题均匀分布

推理视频生成持续积累

§3 热力图

关键词频率 Top 15

基于论文标题关键词统计。"reasoning" 以 90 次出现遥遥领先，其后 "generation" 和 "llm" 分别出现 71、65 次——推理与生成双轮驱动的格局延续。

reasoning

90

generation

71

llm

65

agents

60

world

56

model

52

video

46

reinforcement

43

training

41

image

38

language

36

multimodal

34

data

32

code

30

robot

27

780 篇论文，10 个深度拆解
2026 年 2 月 HF Papers 月度盘点

2 月全景：当"数据墙"从预言变成战场

Top 10 论文一览

四周节奏：W1 爆发，W3-W4 回落

关键词频率 Top 15

登录后阅读完整报告

780 篇论文，10 个深度拆解2026 年 2 月 HF Papers 月度盘点

2 月全景：当"数据墙"从预言变成战场

Top 10 论文一览

四周节奏：W1 爆发，W3-W4 回落

关键词频率 Top 15

登录后阅读完整报告

780 篇论文，10 个深度拆解
2026 年 2 月 HF Papers 月度盘点