统一编码器与通用模型评测双线并进，代码Agent进入跨仓库时代｜HF 日报 0304

速览目录 · 全部 43 篇

#	论文	领域	Votes	一句话
1	Utonia	3D/点云	126	一个编码器统一五大点云域，跨域涌现提升机器人操作
2	UniG2U-Bench	多模态评测	77	30+模型评测发现统一模型普遍弱于基础VLM
3	Meta FAIR 多模态	多模态预训练	61	从头预训练揭示 RAE/数据协同/MoE 四大设计准则
4	BeyondSWE	Coding Agent	49	500个跨仓库任务暴露代码Agent能力缺口
5	Mix-GRM	RL/奖励模型	30	广度+深度双CoT让奖励模型提升8.2%
6	Qwen3-Coder-Next	代码模型	28	80B/3B MoE代码Agent逼近十倍体量模型
7	Kling-MotionControl	视频生成	24	分治策略实现身体/面部/手部精细角色动画
8	SteerEval	LLM 评测	21	三层级行为控制评测揭示细粒度可控性鸿沟
9	PRISM	推理/PRM	18	PRM引导推理让20B模型追平120B
10	NE-Dreamer	世界模型	15	下一嵌入预测替代像素重建增强记忆任务
11	Kiwi-Edit	视频编辑	14	指令+参考图双引导的通用视频编辑方法
12	Code2Math	数学推理	13	让代码Agent通过探索自动进化数学问题
13	人类 vs LLM	认知科学	10	人类和LLM在概率推断上的系统性分歧
14	Surgical Post-Training	后训练	9	精准后训练：修正错误同时保留知识
15	InfoPO	Agent	9	信息驱动策略优化让Agent主动澄清模糊需求
16	BBQ-to-Image	文生图	8	数值化边界框+颜色控制的精确文生图
17	LLM 溢出能量	理论	8	把LLM softmax分类器重新解读为能量模型
18	NOVA	视频编辑	7	稀疏控制+密集合成的无配对视频编辑
19	Track4World	3D追踪	7	前馈式世界坐标系稠密3D像素追踪
20	AgentGuard	Agent安全	7	教Agent在多步工具调用中学会拒绝
21	CFG-Ctrl	扩散模型	6	控制论视角的无分类器扩散引导
22	Chain of World	具身智能	6	潜在运动空间中做世界模型推理的VLA
23	SciDER	科研Agent	4	以数据为中心的端到端科研自动化Agent
24	DREAM	多模态	3	统一视觉理解与文生图的双向模型
25	ParEVO	HPC	3	Agentic进化合成不规则数据的并行代码
26	算法核收敛	理论	3	Transformer收敛到不变的算法核心
27	QEDBENCH	数学评测	3	量化大学级数学证明自动评测的对齐差距
28	APRES	学术Agent	2	论文修订与评估的自动化Agent系统
29	AgentConductor	多Agent	2	多Agent拓扑进化的竞赛级代码生成
30	HateMirage	安全	1	解码伪仇恨和隐性网络暴力的多维数据集
31	DynaMoE	MoE	1	动态Token级专家激活+层自适应容量
32	视频Token缩减	效率	1	局部+全局上下文优化的高效视频LLM
33	GroupGPT	Agent	1	Token高效且隐私保护的多用户聊天Agent
34	Whisper-RIR-Mega	语音	1	配对干净/混响语音的ASR鲁棒性基准
35	SGDC	医学影像	1	结构引导动态卷积的医学图像分割
36	LLM社媒模拟	社会计算	1	评测LLM模拟社交媒体用户评论的有效性
37	安全扩散引导	安全	1	条件激活传输的文生图安全引导
38	鲁棒遗忘	隐私	1	偏差下的鲁棒机器遗忘
39	LFPO	扩散模型	1	Masked扩散模型的无似然策略优化
40	Words & Weights	多轮交互	1	多轮交互中词语与权重的协同适应
41	快速矩阵乘法	算法	0	用翻转图框架发现小格式快速矩阵乘法
42	射线路径采样	通信	0	变换不变的生成式射线路径采样
43	图黎曼粘合	图学习	0	多域黎曼图粘合构建图基础模型

今天 43 篇论文，两条主线清晰：统一化与通用化——Utonia 用一个编码器覆盖遥感/LiDAR/室内/物体/视频五大点云域，126 票领跑；UniG2U-Bench 系统评测统一多模态模型的生成-理解耦合效果；Meta FAIR 从头预训练揭示多模态 MoE 的四大设计准则。代码 Agent 走出舒适区——BeyondSWE 把评测从单仓库修 Bug 扩展到跨仓库推理、依赖迁移和整库生成，最强模型成功率不到 45%；Qwen3-Coder-Next 用 80B 总参/3B 激活的 MoE 架构在 SWE-Bench 上逼近体量大一个数量级的模型。

Insight：当研究者同时追求「一个模型解决所有任务」和「一个 Agent 应对所有工程场景」，AI 的两个前沿——表征统一化和Agent 通用化——正在从不同方向逼近同一个目标：通用人工智能的基础能力底座。

01 / 10

Utonia: 一个编码器统一所有点云域——从遥感到自动驾驶到机器人

126 upvotes 3D/点云 · HKU + Xiaomi

Utonia Overview — Utonia 特征可视化（PCA）：城市级遥感、室外LiDAR、室内重建、物体扫描四域统一表征

点云数据来自遥感、自动驾驶 LiDAR、室内 RGB-D、CAD 模型等截然不同的传感器，尺度、密度、采样模式差异巨大，此前的自监督点云模型只能在单一域内训练。Utonia 迈出关键一步：用一个 Point Transformer 编码器，在五个域（遥感、室外LiDAR、室内 RGB-D、物体CAD、视频点云）上联合自监督预训练。

核心技术挑战在于域间极端的分布差异。Utonia 采用自适应颜色/法向量输入机制（adaptive C/N），当某些域缺少颜色或法向量信息时自动降级，避免模型被域特异性的捷径特征主导。预训练使用 masked autoencoding 范式，将离散 token 的前向过程建模为逐步 mask，逆过程预测被 mask 的 token。

5 域

遥感/LiDAR/室内/物体/视频联合预训练

+2.1 mIoU

ScanNet 语义分割提升

自适应

颜色/法向量可选输入

实验显示，联合训练不仅不降低各域性能，反而带来跨域涌现行为：在 ScanNet 语义分割上超越单域预训练 2.1 mIoU，在 nuScenes 检测上提升 1.8 NDS。更值得关注的是 Utonia 在下游的泛化能力——将 Utonia 特征接入视觉语言动作策略（VLA），机器人操作成功率提升 8.3%；接入视觉语言模型用于空间推理也有增益。

当五个截然不同的点云域共享同一个编码器时，涌现出了比单独训练更好的表征——3D 基础模型的路已经打通。

HF: huggingface.co/papers/2603.03283 | PaperScope: paperscope.ai/hf/2603.03283

02 / 10

UniG2U-Bench: 统一多模态模型的生成能力真的能提升理解吗？

77 upvotes 多模态评测 · MSRA + SJTU + NTU

UniG2U-Bench Overview — UniG2U-Bench: 30+ 模型在 7 大评测维度上的性能雷达图

统一多模态模型（如 Janus、Show-o、BAGEL）宣称「理解+生成一体化」带来互利，但生成能力是否真的提升了理解这一核心问题一直缺乏系统验证。UniG2U-Bench（Generation-to-Understanding）是目前最全面的统一模型理解评测基准，覆盖 7 大评测维度、30 个子任务，涉及空间推理、视觉错觉、多轮推理等需要不同程度视觉变换的场景。

研究团队对 30+ 模型进行了大规模评测，严格配对统一模型与其基础 VLM，在匹配推理协议下隔离「生成-to-理解」（G2U）效果。三个核心发现：(1) 统一模型普遍不如其基础 VLM；(2) 只在空间智能、视觉错觉和多轮推理子任务上有提升；(3) 具有相似推理结构的任务和共享架构的模型表现出相关的行为模式。

7 × 30

评测维度 × 子任务

30+

模型覆盖

3 个发现

统一模型普遍弱于基础VLM

这项工作为「统一 vs 分离」的架构辩论提供了迄今最系统的实证证据。结论并非全盘否定统一模型，而是指出当前的统一训练策略需要更多样的数据和新范式才能真正释放生成对理解的辅助潜力。

统一模型的生成能力并未普遍提升理解，只在空间推理等特定场景有效——「大一统」仍需更精细的训练策略。

HF: huggingface.co/papers/2603.03241 | PaperScope: paperscope.ai/hf/2603.03241

03 / 10

Meta FAIR: 从头预训练揭示多模态基础模型的四大设计准则

61 upvotes 多模态预训练 · FAIR + NYU

Meta FAIR Multimodal — 多模态预训练设计空间探索：RAE表征、数据协同、世界建模涌现、MoE缩放

视觉世界是推动基础模型超越语言的关键维度，但原生多模态模型的设计空间仍然不透明。来自 Meta FAIR + NYU（Yann LeCun 等参与指导）的团队通过严格控制变量的从头预训练实验，在不依赖语言预训练的前提下，系统性地隔离多模态预训练的核心因素。

研究采用 Transfusion 框架——语言用 next-token prediction，视觉用 diffusion。四个关键发现：(1) RAE 是最优统一视觉表征，同时擅长理解和生成；(2) 视觉和语言数据互补，联合训练产生跨模态协同；(3) 世界建模能力从通用训练中自然涌现；(4) MoE 架构高效且自然诱导模态专业化。

4 大洞见

RAE/数据协同/世界建模/MoE

IsoFLOP

缩放法则分析

MoE 调和

视觉-语言缩放不对称性

通过 IsoFLOP 分析，团队揭示了关键的缩放不对称性：视觉比语言需要更多数据。MoE 恰好能调和这种不对称——为语言提供高模型容量，同时适应视觉的数据密集特性。这篇论文为多模态基础模型的设计提供了迄今最系统的实验指导。

语言是现实的影子，视觉才是光源——Meta FAIR 的实验证明 MoE 是统一多模态训练的关键拼图。

HF: huggingface.co/papers/2603.03276 | PaperScope: paperscope.ai/hf/2603.03276

04 / 10

BeyondSWE: 代码Agent能否超越单仓库修Bug？500个真实跨域任务给出答案

49 upvotes Coding Agent · 人民大学 + AweAI

BeyondSWE Overview — BeyondSWE: 四大评测维度——跨仓库推理、领域专用修复、依赖迁移、整库生成

SWE-bench 已成为代码 Agent 的标准评测，但其任务本质上仍局限于单仓库内的函数级 Bug 修复。BeyondSWE 沿解决范围和知识范围两个轴扩展评测，包含 500 个真实实例，覆盖四个全新设置：CrossRepo（跨仓库推理）、DomainFix（领域专用修复）、DepMigrate（依赖迁移）、Doc2Repo（整库生成）。

500 实例

4 类真实工程任务

< 45%

前沿模型成功率上限

246 仓库

跨仓库评测覆盖

实验结果暴露了当前代码 Agent 的严重能力缺口：即使是前沿模型，成功率也低于 45%，且没有任何模型在所有任务类型上一致表现良好。团队还开发了 SearchSWE 框架集成深度搜索，但搜索增强效果并不一致，有时甚至降低性能。

当代码Agent走出单仓库Bug修复的舒适区，成功率骤降至 45% 以下——Agent通用化之路任重道远。

HF: huggingface.co/papers/2603.03194 | PaperScope: paperscope.ai/hf/2603.03194

05 / 10

Mix-GRM: 广度+深度双通道思考链让生成式奖励模型提升 8.2%

30 upvotes RL/奖励模型 · 城市大学 + 腾讯混元

Mix-GRM Overview — Mix-GRM: 广度CoT(多维度覆盖)与深度CoT(逐步验证)的混合机制

生成式奖励模型（GRM）通过输出推理过程再给出评分，已被证明比直接打分更可靠。但现有方法盲目加长 CoT，忽略了不同推理机制的效果差异。Mix-GRM 将推理拆分为两种结构化通道：Breadth-CoT（广度思考，多维度原则覆盖，适合主观偏好类任务）和 Depth-CoT（深度思考，逐步逻辑验证，适合客观正确性任务）。

+8.2%

5 基准平均提升（新 SOTA）

B/D-CoT

广度+深度双通道混合

涌现极化

RLVR 自动匹配推理风格

训练采用 SFT + RLVR 两阶段。特别值得注意的是 RLVR 阶段出现的涌现极化现象：模型自发地将推理风格与任务需求匹配——面对主观任务自动切换到 B-CoT，面对客观任务自动切换到 D-CoT。在 5 个基准上平均超出领先开源奖励模型 8.2%。

奖励模型不该盲目加长推理链——广度覆盖+深度验证的结构化混合才是正解，RLVR 还能让模型自动选择。

HF: huggingface.co/papers/2603.01571 | PaperScope: paperscope.ai/hf/2603.01571

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录

或