HF Daily 0304
论文日报 · HF Daily

HF Papers 日报 | 2026-03-04

统一编码器与通用模型评测双线并进,代码Agent进入跨仓库时代

2026.03.04
43 篇论文, 10 篇深度解读
Top 1: 126 votes
PaperScope Editorial

速览目录 · 全部 43 篇

# 论文 领域 Votes 一句话
1Utonia3D/点云126一个编码器统一五大点云域,跨域涌现提升机器人操作
2UniG2U-Bench多模态评测7730+模型评测发现统一模型普遍弱于基础VLM
3Meta FAIR 多模态多模态预训练61从头预训练揭示 RAE/数据协同/MoE 四大设计准则
4BeyondSWECoding Agent49500个跨仓库任务暴露代码Agent能力缺口
5Mix-GRMRL/奖励模型30广度+深度双CoT让奖励模型提升8.2%
6Qwen3-Coder-Next代码模型2880B/3B MoE代码Agent逼近十倍体量模型
7Kling-MotionControl视频生成24分治策略实现身体/面部/手部精细角色动画
8SteerEvalLLM 评测21三层级行为控制评测揭示细粒度可控性鸿沟
9PRISM推理/PRM18PRM引导推理让20B模型追平120B
10NE-Dreamer世界模型15下一嵌入预测替代像素重建增强记忆任务
11Kiwi-Edit视频编辑14指令+参考图双引导的通用视频编辑方法
12Code2Math数学推理13让代码Agent通过探索自动进化数学问题
13人类 vs LLM认知科学10人类和LLM在概率推断上的系统性分歧
14Surgical Post-Training后训练9精准后训练:修正错误同时保留知识
15InfoPOAgent9信息驱动策略优化让Agent主动澄清模糊需求
16BBQ-to-Image文生图8数值化边界框+颜色控制的精确文生图
17LLM 溢出能量理论8把LLM softmax分类器重新解读为能量模型
18NOVA视频编辑7稀疏控制+密集合成的无配对视频编辑
19Track4World3D追踪7前馈式世界坐标系稠密3D像素追踪
20AgentGuardAgent安全7教Agent在多步工具调用中学会拒绝
21CFG-Ctrl扩散模型6控制论视角的无分类器扩散引导
22Chain of World具身智能6潜在运动空间中做世界模型推理的VLA
23SciDER科研Agent4以数据为中心的端到端科研自动化Agent
24DREAM多模态3统一视觉理解与文生图的双向模型
25ParEVOHPC3Agentic进化合成不规则数据的并行代码
26算法核收敛理论3Transformer收敛到不变的算法核心
27QEDBENCH数学评测3量化大学级数学证明自动评测的对齐差距
28APRES学术Agent2论文修订与评估的自动化Agent系统
29AgentConductor多Agent2多Agent拓扑进化的竞赛级代码生成
30HateMirage安全1解码伪仇恨和隐性网络暴力的多维数据集
31DynaMoEMoE1动态Token级专家激活+层自适应容量
32视频Token缩减效率1局部+全局上下文优化的高效视频LLM
33GroupGPTAgent1Token高效且隐私保护的多用户聊天Agent
34Whisper-RIR-Mega语音1配对干净/混响语音的ASR鲁棒性基准
35SGDC医学影像1结构引导动态卷积的医学图像分割
36LLM社媒模拟社会计算1评测LLM模拟社交媒体用户评论的有效性
37安全扩散引导安全1条件激活传输的文生图安全引导
38鲁棒遗忘隐私1偏差下的鲁棒机器遗忘
39LFPO扩散模型1Masked扩散模型的无似然策略优化
40Words & Weights多轮交互1多轮交互中词语与权重的协同适应
41快速矩阵乘法算法0用翻转图框架发现小格式快速矩阵乘法
42射线路径采样通信0变换不变的生成式射线路径采样
43图黎曼粘合图学习0多域黎曼图粘合构建图基础模型

今天 43 篇论文,两条主线清晰:统一化与通用化——Utonia 用一个编码器覆盖遥感/LiDAR/室内/物体/视频五大点云域,126 票领跑;UniG2U-Bench 系统评测统一多模态模型的生成-理解耦合效果;Meta FAIR 从头预训练揭示多模态 MoE 的四大设计准则。代码 Agent 走出舒适区——BeyondSWE 把评测从单仓库修 Bug 扩展到跨仓库推理、依赖迁移和整库生成,最强模型成功率不到 45%;Qwen3-Coder-Next 用 80B 总参/3B 激活的 MoE 架构在 SWE-Bench 上逼近体量大一个数量级的模型。

Insight:当研究者同时追求「一个模型解决所有任务」和「一个 Agent 应对所有工程场景」,AI 的两个前沿——表征统一化Agent 通用化——正在从不同方向逼近同一个目标:通用人工智能的基础能力底座。

01 / 10

Utonia: 一个编码器统一所有点云域——从遥感到自动驾驶到机器人

126 upvotes 3D/点云 · HKU + Xiaomi
Utonia Overview
Utonia 特征可视化(PCA):城市级遥感、室外LiDAR、室内重建、物体扫描四域统一表征

点云数据来自遥感、自动驾驶 LiDAR、室内 RGB-D、CAD 模型等截然不同的传感器,尺度、密度、采样模式差异巨大,此前的自监督点云模型只能在单一域内训练。Utonia 迈出关键一步:用一个 Point Transformer 编码器,在五个域(遥感、室外LiDAR、室内 RGB-D、物体CAD、视频点云)上联合自监督预训练。

核心技术挑战在于域间极端的分布差异。Utonia 采用自适应颜色/法向量输入机制(adaptive C/N),当某些域缺少颜色或法向量信息时自动降级,避免模型被域特异性的捷径特征主导。预训练使用 masked autoencoding 范式,将离散 token 的前向过程建模为逐步 mask,逆过程预测被 mask 的 token。

5 域
遥感/LiDAR/室内/物体/视频联合预训练
+2.1 mIoU
ScanNet 语义分割提升
自适应
颜色/法向量可选输入

实验显示,联合训练不仅不降低各域性能,反而带来跨域涌现行为:在 ScanNet 语义分割上超越单域预训练 2.1 mIoU,在 nuScenes 检测上提升 1.8 NDS。更值得关注的是 Utonia 在下游的泛化能力——将 Utonia 特征接入视觉语言动作策略(VLA),机器人操作成功率提升 8.3%;接入视觉语言模型用于空间推理也有增益。

当五个截然不同的点云域共享同一个编码器时,涌现出了比单独训练更好的表征——3D 基础模型的路已经打通。
02 / 10

UniG2U-Bench: 统一多模态模型的生成能力真的能提升理解吗?

77 upvotes 多模态评测 · MSRA + SJTU + NTU
UniG2U-Bench Overview
UniG2U-Bench: 30+ 模型在 7 大评测维度上的性能雷达图

统一多模态模型(如 Janus、Show-o、BAGEL)宣称「理解+生成一体化」带来互利,但生成能力是否真的提升了理解这一核心问题一直缺乏系统验证。UniG2U-Bench(Generation-to-Understanding)是目前最全面的统一模型理解评测基准,覆盖 7 大评测维度、30 个子任务,涉及空间推理、视觉错觉、多轮推理等需要不同程度视觉变换的场景。

研究团队对 30+ 模型进行了大规模评测,严格配对统一模型与其基础 VLM,在匹配推理协议下隔离「生成-to-理解」(G2U)效果。三个核心发现:(1) 统一模型普遍不如其基础 VLM;(2) 只在空间智能、视觉错觉和多轮推理子任务上有提升;(3) 具有相似推理结构的任务和共享架构的模型表现出相关的行为模式

7 × 30
评测维度 × 子任务
30+
模型覆盖
3 个发现
统一模型普遍弱于基础VLM

这项工作为「统一 vs 分离」的架构辩论提供了迄今最系统的实证证据。结论并非全盘否定统一模型,而是指出当前的统一训练策略需要更多样的数据和新范式才能真正释放生成对理解的辅助潜力。

统一模型的生成能力并未普遍提升理解,只在空间推理等特定场景有效——「大一统」仍需更精细的训练策略。
03 / 10

Meta FAIR: 从头预训练揭示多模态基础模型的四大设计准则

61 upvotes 多模态预训练 · FAIR + NYU
Meta FAIR Multimodal
多模态预训练设计空间探索:RAE表征、数据协同、世界建模涌现、MoE缩放

视觉世界是推动基础模型超越语言的关键维度,但原生多模态模型的设计空间仍然不透明。来自 Meta FAIR + NYU(Yann LeCun 等参与指导)的团队通过严格控制变量的从头预训练实验,在不依赖语言预训练的前提下,系统性地隔离多模态预训练的核心因素。

研究采用 Transfusion 框架——语言用 next-token prediction,视觉用 diffusion。四个关键发现:(1) RAE 是最优统一视觉表征,同时擅长理解和生成;(2) 视觉和语言数据互补,联合训练产生跨模态协同;(3) 世界建模能力从通用训练中自然涌现;(4) MoE 架构高效且自然诱导模态专业化

4 大洞见
RAE/数据协同/世界建模/MoE
IsoFLOP
缩放法则分析
MoE 调和
视觉-语言缩放不对称性

通过 IsoFLOP 分析,团队揭示了关键的缩放不对称性:视觉比语言需要更多数据。MoE 恰好能调和这种不对称——为语言提供高模型容量,同时适应视觉的数据密集特性。这篇论文为多模态基础模型的设计提供了迄今最系统的实验指导。

语言是现实的影子,视觉才是光源——Meta FAIR 的实验证明 MoE 是统一多模态训练的关键拼图。
04 / 10

BeyondSWE: 代码Agent能否超越单仓库修Bug?500个真实跨域任务给出答案

49 upvotes Coding Agent · 人民大学 + AweAI
BeyondSWE Overview
BeyondSWE: 四大评测维度——跨仓库推理、领域专用修复、依赖迁移、整库生成

SWE-bench 已成为代码 Agent 的标准评测,但其任务本质上仍局限于单仓库内的函数级 Bug 修复。BeyondSWE 沿解决范围和知识范围两个轴扩展评测,包含 500 个真实实例,覆盖四个全新设置:CrossRepo(跨仓库推理)、DomainFix(领域专用修复)、DepMigrate(依赖迁移)、Doc2Repo(整库生成)。

500 实例
4 类真实工程任务
< 45%
前沿模型成功率上限
246 仓库
跨仓库评测覆盖

实验结果暴露了当前代码 Agent 的严重能力缺口:即使是前沿模型,成功率也低于 45%,且没有任何模型在所有任务类型上一致表现良好。团队还开发了 SearchSWE 框架集成深度搜索,但搜索增强效果并不一致,有时甚至降低性能。

当代码Agent走出单仓库Bug修复的舒适区,成功率骤降至 45% 以下——Agent通用化之路任重道远。
05 / 10

Mix-GRM: 广度+深度双通道思考链让生成式奖励模型提升 8.2%

30 upvotes RL/奖励模型 · 城市大学 + 腾讯混元
Mix-GRM Overview
Mix-GRM: 广度CoT(多维度覆盖)与深度CoT(逐步验证)的混合机制

生成式奖励模型(GRM)通过输出推理过程再给出评分,已被证明比直接打分更可靠。但现有方法盲目加长 CoT,忽略了不同推理机制的效果差异。Mix-GRM 将推理拆分为两种结构化通道:Breadth-CoT(广度思考,多维度原则覆盖,适合主观偏好类任务)和 Depth-CoT(深度思考,逐步逻辑验证,适合客观正确性任务)。

+8.2%
5 基准平均提升(新 SOTA)
B/D-CoT
广度+深度双通道混合
涌现极化
RLVR 自动匹配推理风格

训练采用 SFT + RLVR 两阶段。特别值得注意的是 RLVR 阶段出现的涌现极化现象:模型自发地将推理风格与任务需求匹配——面对主观任务自动切换到 B-CoT,面对客观任务自动切换到 D-CoT。在 5 个基准上平均超出领先开源奖励模型 8.2%

奖励模型不该盲目加长推理链——广度覆盖+深度验证的结构化混合才是正解,RLVR 还能让模型自动选择。

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录