网易首页 > 网易号 > 正文 申请入驻

通才机器人新突破:统一世界模型 UWM;南大、字节提出解耦扩散 transformers|今日热门论文

0
分享至

速览热门论文

1. 南大、字节提出解耦扩散 transformers

2. 复旦、阶跃星辰提出多模态 SVG 生成模型 OmniSVG

3. 快手:形式化推理的后训练扩展

4. 通才机器人新突破:统一世界模型 UWM

5. 上海 AI Lab:免训练、高分辨率文生图框架 HiFlow

6. 南加大:自适应课程强化微调 AdaRFT

1. 南大、字节提出解耦扩散 transformers

扩散 transformers 虽然需要较长的训练迭代时间和众多推理步骤,但已显示出卓越的生成质量。在每个去噪步骤中,扩散 transformers 对噪声输入进行编码,提取低频语义成分,然后用相同的模块对高频进行解码。这种方案造成了固有的优化困境:对低频语义进行编码就必须减少高频成分,这就造成了语义编码和高频解码之间的矛盾。

为了解决这一难题,来自南京大学和字节跳动的研究团队提出了一种“解耦扩散 transformers”(Decoupled Diffusion Transformer,DDT),它采用解耦设计,将用于语义提取的专用条件编码器与专用速度解码器结合在一起。

实验表明,随着模型大小的增加,更多的编码器可以提高性能。对于 ImageNet 256 × 256,他们的 DDT-XL/2 实现了 1.31 FID 的性能(与以前的扩散 transformers 相比,训练收敛速度提高了近 4 倍)。对于 ImageNet 512 × 512,DDTXL/2 实现了 1.28 的 SOTA FID。此外,这一解耦架构通过在相邻去噪步骤之间共享自约束,提高了推理速度。为了尽量减少性能下降,他们提出了一种新的统计动态编程方法来确定优化共享策略。

论文链接:https://arxiv.org/abs/2504.05741

2. 复旦、阶跃星辰提出多模态 SVG 生成模型 OmniSVG

可缩放矢量图形(SVG)是一种重要的图像格式,在图形设计中被广泛采用。生成高质量 SVG 的研究一直受到 AIGC 界设计人员和研究人员的关注。然而,现有的方法要么产生非结构化的输出,计算成本高昂,要么仅限于生成结构过于简化的单色图标。

为了生成高质量和复杂的 SVG,来自复旦大学和阶跃星辰的研究团队提出了 OmniSVG,这是一个利用预训练视觉语言模型(VLM)生成端到端多模态 SVG 的统一框架。通过将 SVG 命令和坐标参数化为离散 token,OmniSVG 将结构逻辑与底层几何解耦,从而在保持复杂 SVG 结构的表现力的同时实现高效训练。

为了进一步推动 SVG 合成的发展,他们提出了一个多模态数据集 MMSVG-2M,其包含 200 万个标注丰富的 SVG 资产,以及用于条件 SVG 生成任务的标准化评估协议。

实验表明,OmniSVG 的性能优于现有方法,并证明了其融入专业 SVG 设计工作流程的潜力。

论文链接:https://arxiv.org/abs/2504.06263

3. 快手:形式化推理的后训练扩展

通过大语言模型(LLM)实现的自动化定理证明(ATP),凸显了使用 Lean 4 代码进行形式化推理的潜力。然而,ATP 还没有因为 OpenAI o1/o3 和 Deepseek R1 展示的后训练扩展而发生显著变化。

在这项工作中,快手团队研究了 ATP 的整个后训练,旨在使其与自然语言推理模型的突破保持对齐。首先,他们用一个混合数据集继续训练当前的 ATP 模型,该数据集由大量 statement-proof 对和其他数据组成,旨在纳入模仿人类推理和假设完善的认知行为。接下来,他们利用 Lean 4 编译器返回的结果奖励探索强化学习。

通过持续训练和强化学习过程,他们成功改进了现有的形式化证明器,包括 DeepSeek-Prover-v1.5 和 Goedel-Prover,在 whole-proof 生成领域取得了 SOTA。例如,他们在 MiniF2F 上实现了 59.8% 的通过率(pass@32)。

论文链接:https://arxiv.org/abs/2504.06122

4. 通才机器人新突破:统一世界模型 UWM

模仿学习是制造通才机器人的一种有前途的方法。然而,由于依赖于高质量的专家示范,针对大型机器人基础模型的扩展模仿学习仍然具有挑战性。与此同时,描述各种环境和各种行为的大量视频数据容易获得,它们提供了有关真实世界动态和 agent 与环境交互的丰富信息。然而,由于缺乏大多数现代方法所需的动作注释,将这些数据直接用于模仿学习并不容易。

在这项工作中,来自华盛顿大学和丰田研究所的研究团队提出了“统一世界模型”(UWM),这是一个可以利用视频和动作数据进行策略学习的框架。具体来说,UWM 将动作扩散过程和视频扩散过程整合到一个统一的 transformer 架构中,其中每种模态都有独立的扩散时间步。

研究表明,只需控制每个扩散时间步,UWM 就能灵活地表示策略、正向动力学、逆向动力学和视频生成器。通过模拟和实际实验,他们证明了:(1)UWM 可以在大规模多任务机器人数据集上进行有效的动态和动作预测预训练,从而产生比模仿学习更普适和鲁棒的策略;(2)UWM 通过独立控制特定模态,自然地促进了无动作视频数据的学习。

论文链接:https://arxiv.org/abs/2504.02792

5. 上海 AI Lab:免训练、高分辨率文生图框架 HiFlow

文生图扩散(diffusion)/流(flow)模型因提供灵活视觉创作的能力,引起了广泛关注。然而,由于高分辨率内容的稀缺性和复杂性,高分辨率图像合成仍然面临挑战。

为此,上海 AI Lab 团队提出了一个免训练(training-free)、模型无关(model-agnostic)的框架——HiFlow,其可释放预训练流模型的分辨率潜力。具体来说,HiFlow 在高分辨率空间内建立了一个虚拟参考流,它能有效捕捉低分辨率流信息的特征,通过低频一致性的初始化对齐、结构保持的方向对齐和细节保真度的加速对齐 3 方面为高分辨率生成提供指导。

通过利用这种流对齐指导,HiFlow 提高了 T2I 模型高分辨率图像合成的质量,并展示了其个性化变体的多功能性。实验验证,HiFlow 在实现高分辨率图像质量方面优于目前 SOTA 方法。

论文链接:https://arxiv.org/abs/2504.06232

6. 南加大:自适应课程强化微调 AdaRFT

强化微调(RFT)在增强大语言模型(LLM)的数学推理能力方面显示出潜力,但通常在采样和计算方面效率低,需要大量训练。

在这项工作中,南加州大学团队提出了 AdaRFT(自适应课程强化微调),这是一种通过自适应课程学习提高 RFT 效率和最终准确性的方法,可根据奖励信号动态调整训练问题的难度,确保模型始终在具有挑战性但可解决的任务上进行训练。这种自适应采样策略能保持最佳难度范围,避免在太容易或太难的问题上浪费计算,从而加快学习速度。AdaRFT 只需要对标准 RFT 算法(如 PPO)进行轻量级扩展,而无需修改奖励函数或模型架构。

在竞赛级数学数据集(包括 AMC、AIME 和 IMO 类型的问题)上进行的实验证明,AdaRFT 提高了训练效率和推理性能。他们评估了 AdaRFT 的多种数据分布和模型大小,结果表明它减少了 2 倍的训练步骤,并提高了准确性,提供了一个更具可扩展性和更有效的 RFT 框架。

论文链接:https://arxiv.org/abs/2504.05520

整理:学术君

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方警戒舰目前正处于霍尔木兹海峡附近?国防部:假消息

中方警戒舰目前正处于霍尔木兹海峡附近?国防部:假消息

环球网资讯
2026-03-26 16:20:07
章泽天看展带火春日穿搭叫“针织衫+弯刀裤”,配色清新很少女!

章泽天看展带火春日穿搭叫“针织衫+弯刀裤”,配色清新很少女!

明星私服穿搭daily
2026-03-26 09:44:53
中东局势升级!印尼狂砸31亿,抢购中国退役导弹艇,西方不解

中东局势升级!印尼狂砸31亿,抢购中国退役导弹艇,西方不解

胖福的小木屋
2026-03-26 23:27:43
日本公布中国游客免税店2月份消费数据,真的是打脸了!

日本公布中国游客免税店2月份消费数据,真的是打脸了!

消失的电波
2026-03-26 15:20:44
忠告天下子女:再孝顺,也不要为年过75岁的老父老母,做这三件事

忠告天下子女:再孝顺,也不要为年过75岁的老父老母,做这三件事

风起见你
2026-03-27 00:22:57
俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

项鹏飞
2026-03-24 20:28:43
生死12分钟!广东一男子踢球时心脏骤停 一群医生冲上前接力心肺复苏救回一命

生死12分钟!广东一男子踢球时心脏骤停 一群医生冲上前接力心肺复苏救回一命

闪电新闻
2026-03-26 11:46:05
写小说判十年,把生殖器放女孩嘴巴里判两年九个月

写小说判十年,把生殖器放女孩嘴巴里判两年九个月

昊轩看世界
2026-03-24 19:56:42
日均接诊1.5万人次、手术500台,广东这家华南医疗航母火遍全省

日均接诊1.5万人次、手术500台,广东这家华南医疗航母火遍全省

健身狂人
2026-03-27 00:11:10
局势恶化!英外长急致电北京,六国发表联合声明,特朗普越做越绝

局势恶化!英外长急致电北京,六国发表联合声明,特朗普越做越绝

报君知史
2026-03-27 02:43:59
美国记者挖坑提问:万一台湾不想被统一怎么办?被中方精准反杀

美国记者挖坑提问:万一台湾不想被统一怎么办?被中方精准反杀

雪中风车
2026-02-23 19:34:34
比亚迪官宣:《007》邦德扮演者丹尼尔·克雷格出任腾势汽车代言人

比亚迪官宣:《007》邦德扮演者丹尼尔·克雷格出任腾势汽车代言人

IT之家
2026-03-26 20:55:38
太意外!米兰宝格丽之夜合影:刘亦菲两度被挤,下意识动作引热议

太意外!米兰宝格丽之夜合影:刘亦菲两度被挤,下意识动作引热议

时间巡查
2026-03-25 04:28:00
张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

谈史论天地
2026-03-26 07:45:53
伊朗伊斯兰革命卫队称击落一架美军F-18战机

伊朗伊斯兰革命卫队称击落一架美军F-18战机

环球网资讯
2026-03-26 06:37:05
罗技:“我一降价,你还不是像狗一样跑过来”

罗技:“我一降价,你还不是像狗一样跑过来”

电脑吧评测室
2026-03-26 22:05:58
信息量极大!黄仁勋最新论断:AGI已实现,OpenClaw是AI界iPhone,未来将有10亿程序员

信息量极大!黄仁勋最新论断:AGI已实现,OpenClaw是AI界iPhone,未来将有10亿程序员

AI科技大本营
2026-03-26 19:52:36
沙特实战封神!中国“天盾”21发21中,美方2亿美元系统差距在哪

沙特实战封神!中国“天盾”21发21中,美方2亿美元系统差距在哪

闻香阁
2026-03-27 04:16:43
柳景武已任山东省委副秘书长、省机关事务管理局局长

柳景武已任山东省委副秘书长、省机关事务管理局局长

黄河新闻网吕梁
2026-03-26 10:03:54
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
2026-03-27 06:20:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
房产
数码
亲子
旅游

400万人爱过的女孩,被黄谣网暴180天后

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

亲子要闻

试工育儿嫂被查出传染病,宝妈崩溃!家政服务“健康关”如何保障?

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

无障碍浏览 进入关怀版