网易首页 > 网易号 > 正文 申请入驻

MMLab@HKU 闪耀 CVPR 2025!与全球顶尖学者共话 AI 前沿

0
分享至

CVPR 2025 将于 6 月 11 日至 15 日在美国纳什维尔举行。MMLab @HKU 携24 篇高质量论文隆重亮相。”

01

CVPR 2025 纳什维尔开幕在即:

MMLab 携前沿成果深度参与

作为计算机视觉领域最具影响力的国际会议之一,CVPR(IEEE Conference on Computer Vision and Pattern Recognition)每年都汇聚了全球顶尖高校、研究机构与产业界的最新突破与前沿成果。CVPR 2025 将于6 月 11 日至 15 日在美国纳什维尔举行。MMLab@HKU 携24 篇高质量论文隆重亮相,涵盖图像生成、视频理解、具身智能、三维重建、多模态融合等多个研究热点。欢迎大家前来与论文作者面对面交流!

相关网站:https://mmlab.hk/event/cvpr2025

02

三大国际竞赛:以赛促研,智造未来

在 CVPR 2025,MMLab是三项国际竞赛的发起与主办方,涵盖开放世界自动驾驶以及机器人交互智能等多个热门方向。通过精心设计的任务设置与评测机制,团队为全球研究者搭建了一个聚焦真实场景挑战技术落地能力的竞技舞台。我们希望以此激发更多创新灵感,共同拓展视觉智能的未来边界。

  • Autonomous Grand Challenge 2025

  • End-to-End Autonomous Driving through V2X Cooperation

  • RoboTwin Dual-Arm Collaboration Challenge

03

六场深度活动:解锁 AI 落地的技术密码

除了国际竞赛,MMLab 在 CVPR 2025 也主办了六项前沿 Workshop、Tutorial 活动,全面覆盖自动驾驶、多模态、世界模型、协同感知、数据赋能等热点议题。

  • Embodied Intelligence for Autonomous Systems on the Horizon

  • Workshop on Autonomous Driving

  • Distillation of Foundation Models for Autonomous Driving

  • Multi-Agent Embodied Intelligent Systems Meet Generative-AI Era: Opportunities, Challenges and Futures

  • Robotics 101: An Odyssey from A Vision Perspective

  • The 1st Workshop on Benchmarking World Models

04

技术风向标:多项AI前沿研究盘点

在生成式智能与多模态感知飞速发展的当下,这一系列研究成果展示了在跨模态理解、场景生成、人机交互和机器人智能等领域的一些进步。比如,文本驱动的视频合成、图像安全性评估、高精度的三维高斯建模和机器人操作策略学习这些技术,都在提升模型的通用性、效率以及在现实世界中的适应能力。不管你关心的是更安全可信的生成系统、更聪明的机器人大脑,还是更高质量的视觉生成模型,这些项目都代表了技术创新的前沿,欢迎关注!

  • TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization[Oral]

    • 统一物理人景交互合成,通过任务分词实现

    • arXiv: https://arxiv.org/abs/2503.19901

    • Github: https://github.com/liangpan99/TokenHSI

  • Parallelized Autoregressive Visual Generation[Highlight]

    • PAR,根据视觉token间依赖关系所设计的并行自回归生成模型

    • arXiv: https://arxiv.org/abs/2412.15119

    • Github: https://yuqingwang1029.github.io/PAR-project/

  • RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins[Highlight]

    • 机器人双臂评测基准集与数据合成器

    • arXiv: https://arxiv.org/abs/2504.13059

    • Github: https://github.com/TianxingChen/RoboTwin

  • HMAR: Efficient Hierarchical Masked AutoRegressive Image Generation

    • HMAR,通过多尺度自回归与掩码重建结合的高效高质量图像生成模型

    • arXiv: https://arxiv.org/html/2506.04421v1

    • Project Page: https://research.nvidia.com/labs/dir/hmar/

  • MBQ: Modality-Balanced Quantization for Large Vision-Language Models

    • MBQ,均衡视觉和语言之间敏感性差异的视觉-语言模型量化方法

    • arXiv: https://arxiv.org/abs/2412.19509

    • Github: https://github.com/thu-nics/MBQ

  • MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation

    • MIDI-3D,拓展3D物体生成模型到可组合的3D场景生成。

    • Arxiv: https://arxiv.org/abs/2412.03558

    • Github: https://github.com/VAST-AI-Research/MIDI-3D

  • T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation

    • T2ISafety,一个评估文生图模型安全性的基准

    • Arxiv: https://arxiv.org/abs/2501.12612

    • Github: https://github.com/adwardlee/t2i_safety

  • T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation

    • T2V-CompBench,评估文生视频模型的组合生成能力

    • arXiv: https://arxiv.org/abs/2407.14505

    • Github: https://t2v-compbench-2025.github.io/

  • CompGS: Unleashing 2D Compositionality for Compositional Text-to-3D via Dynamically Optimizing 3D Gaussians

    • 通过 3D Gaussian Splatting 实现高效的组合文本到三维内容生成

    • arXiv: https://arxiv.org/abs/2410.20723

    • Github: https://chongjiange.github.io/compgs.html

  • DRiVE: Diffusion-based Rigging Empowers Generation of Versatile and Expressive Characters

    • 扩散模型驱动,生成多变3D角色并自动绑定

    • arXiv: https://arxiv.org/abs/2411.17423

    • Github: https://github.com/yisuanwang/DRiVE

  • DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation

    • 自适应灵巧手操作的交互感知扩散策略

    • arXiv: https://arxiv.org/abs/2411.18562

    • Github: https://dexdiffuser.github.io/

  • Distilling Monocular Foundation Model for Fine-grained Depth Completion

    • 知识蒸馏得到单目基础模型用于将稀疏深度稠密化

    • arXiv: https://arxiv.org/abs/2503.16970

    • Github: https://github.com/Sharpiless/DMD3C

  • Flashgs: Efficient 3d gaussian splatting for large-scale and high-resolution rendering

    • 高效 3D Gaussian Splatting,实现大规模高分辨率渲染

    • arXiv: https://arxiv.org/abs/2408.07967

    • Github: https://github.com/InternLandMark/FlashGS

  • Forensics-Bench: A Comprehensive Forgery Detection Benchmark Suite for Large Vision Language Models

    • 针对大型视觉语言模型伪造检测能力的全新综合评测基准

    • arXiv: https://arxiv.org/pdf/2503.15024

    • Github: https://github.com/Forensics-Bench/Forensics-Bench

    • project page: https://forensics-bench.github.io/

    • dataset:https://huggingface.co/datasets/Forensics-bench/Forensics-bench

  • G3Flow: Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation

    • 生成式机器人3D操作增强表征

    • arXiv: https://arxiv.org/abs/2411.18369

    • Github: https://github.com/TianxingChen/G3Flow

  • GraphMimic: Graph-to-Graphs Generative Modeling from Videos for Policy Learning

    • 通过视频预训练,根据当前图结构预测生成未来图结构

  • Horizon-GS: Unified 3D Gaussian Splatting for Large-Scale Aerial-to-Ground Scenes

    • 统一空地视角3D Gaussian Splatting,重建渲染大场景

    • arXiv: https://arxiv.org/abs/2412.01745

    • Github: https://github.com/OpenRobotLab/HorizonGS

  • Janus: Decoupling visual encoding for unified multimodal understanding and generation

    • 解耦视觉编码以实现统一的多模态理解和生成

    • arXiv: https://arxiv.org/abs/2410.13848

    • Github: https://github.com/deepseek-ai/Janus

  • JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data

    • 用CARLA的仿真数据帮助减少自动驾驶感知中实际数据标注的需求

    • arXiv: https://arxiv.org/abs/2503.08422

    • Github: https://github.com/Runjian-Chen/JiSAM

  • MangaNinja: Line Art Colorization with Precise Reference Following

    • 精准可控的线稿上色

    • arXiv: https://arxiv.org/abs/2501.08332

    • Github: https://github.com/ali-vilab/MangaNinjia

  • NADER: Neural Architecture Design via Multi-Agent Collaboration

    • 多智能体协作的神经网络架构设计

    • arXiv: https://arxiv.org/abs/2412.19206

  • OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

    • 首个面向开放式图文交错生成任务的综合评测基准

    • arXiv: https://arxiv.org/abs/2411.18499

    • Github: https://opening-benchmark.github.io/

  • RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete

    • 面向机器人操控的 MLLM 大模型

    • arXiv: https://arxiv.org/abs/2502.21257

    • Github: https://github.com/FlagOpen/RoboBrain

  • ScaMo: Exploring the Scaling Law in Autoregressive Motion Generation Model

    • 探索自回归运动生成模型的缩放定律

    • arXiv: https://arxiv.org/abs/2412.14559

    • Github: https://github.com/shunlinlu/ScaMo_code

  • EdgeTAM: On-Device Track Anything Model

    • 压缩视频分割基模型SAM2,保持模型效果同时实现端侧部署

    • arXiv: https://arxiv.org/abs/2501.07256

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
他曾红过谭咏麟,一场车祸毁所有,被老婆扔养老院23年

他曾红过谭咏麟,一场车祸毁所有,被老婆扔养老院23年

天马幸福的人生
2026-05-27 10:33:45
美国女司机正等红灯,被一条狗连开数枪击伤:主人把上膛猎枪放车上,狗因好奇意外触发

美国女司机正等红灯,被一条狗连开数枪击伤:主人把上膛猎枪放车上,狗因好奇意外触发

红星新闻
2026-05-26 13:58:13
别人对你说“咱俩加个微信”,千万别说 “您扫我还是我扫您?” 高情商的人这样做

别人对你说“咱俩加个微信”,千万别说 “您扫我还是我扫您?” 高情商的人这样做

德鲁克博雅管理
2026-04-23 17:02:27
朱德之子朱琦:27岁终身残疾,30岁还未婚,贺龙做媒娶一生挚爱

朱德之子朱琦:27岁终身残疾,30岁还未婚,贺龙做媒娶一生挚爱

体识
2026-05-27 09:11:15
欧盟副主席:我不管中国怎么想,你不肯卖稀土,就是敲诈勒索欧盟

欧盟副主席:我不管中国怎么想,你不肯卖稀土,就是敲诈勒索欧盟

蜉蝣说
2026-05-26 17:43:40
刘洋结婚8年未孕,上太空前给丈夫留下两条“遗言”

刘洋结婚8年未孕,上太空前给丈夫留下两条“遗言”

Thurman在昆明
2026-05-27 06:01:47
知名歌唱家贪财好色嫁大30岁二婚男,如今活成这样

知名歌唱家贪财好色嫁大30岁二婚男,如今活成这样

风月得自难寻
2026-05-12 06:25:42
原来,有10万存款就可以不上班了?

原来,有10万存款就可以不上班了?

放牛娃的遐想
2026-05-27 10:04:42
他当选安徽一县县长!

他当选安徽一县县长!

凤凰网安徽
2026-05-26 16:50:26
官方通报“维也纳酒店牙刷刷马桶”“全季酒店用客人牙刷洗杯子后放回”:约谈涉事酒店负责人,责令立即整改,将根据调查核实情况严肃处理

官方通报“维也纳酒店牙刷刷马桶”“全季酒店用客人牙刷洗杯子后放回”:约谈涉事酒店负责人,责令立即整改,将根据调查核实情况严肃处理

大风新闻
2026-05-26 11:12:07
赤裸裸的羞辱,美国军队大举开进加拉加斯,委内瑞拉毫无反抗

赤裸裸的羞辱,美国军队大举开进加拉加斯,委内瑞拉毫无反抗

潇湘烟雨水
2026-05-27 10:18:01
NBA含金量最高的5个总冠军,10年湖人垫底 榜首没争议

NBA含金量最高的5个总冠军,10年湖人垫底 榜首没争议

钱说体育
2026-05-25 13:17:47
800万年薪!杨鸣弃辽宁投北京,铁腕能镇住更衣室吗?

800万年薪!杨鸣弃辽宁投北京,铁腕能镇住更衣室吗?

观星娱记
2026-05-26 12:39:24
人民日报建议:人生下半场,比存钱更重要的,是存肌肉

人民日报建议:人生下半场,比存钱更重要的,是存肌肉

洞见
2026-05-25 09:25:00
新冠后遗症的长期侵袭,无数人在不知不觉中深陷困境

新冠后遗症的长期侵袭,无数人在不知不觉中深陷困境

律法刑道
2026-04-01 10:15:47
最多3000万!这就是湖人能给詹姆斯的全部,他或被迫选择留队

最多3000万!这就是湖人能给詹姆斯的全部,他或被迫选择留队

奕辰说球
2026-05-27 09:58:07
俄罗斯向全球发出警告,一大批高科技武器,正往中国周边快速推进

俄罗斯向全球发出警告,一大批高科技武器,正往中国周边快速推进

轩逸阿II
2026-05-27 01:19:51
美国专家坦言:中国在中越战争中得到的东西,瞒过了全世界

美国专家坦言:中国在中越战争中得到的东西,瞒过了全世界

阿晭评论哥
2026-05-25 10:56:54
湖人7换1、勇士3换1、火箭7换1!美媒爆7大改变NBA格局的交易方案

湖人7换1、勇士3换1、火箭7换1!美媒爆7大改变NBA格局的交易方案

毒舌NBA
2026-05-26 20:12:08
梅西亲手让出队长袖标,大马丁狂奔为新人拿奖牌,这才叫真领袖!

梅西亲手让出队长袖标,大马丁狂奔为新人拿奖牌,这才叫真领袖!

星Xin辰大海
2026-05-26 18:55:56
2026-05-27 11:16:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7306文章数 20754关注度
往期回顾 全部

科技要闻

美光股价大涨超19% 市值破万亿美元

头条要闻

媒体:鲁比奥访印 美印之间"蜜里藏刀"三大痛点很微妙

头条要闻

媒体:鲁比奥访印 美印之间"蜜里藏刀"三大痛点很微妙

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

小S晒归宁宴旧照,大S穿吊带裙扎丸子头

财经要闻

ST岩石退市背后:A股“炒壳”时代终结

汽车要闻

试驾新红旗HQ9 2.0T混动+双电机四驱

态度原创

教育
本地
旅游
数码
公开课

教育要闻

寻找优秀实习生|北京大学出版社经管图书事业部岗位开放中

本地新闻

用剪纸的方式,打开江苏扬州

旅游要闻

相约青绿初夏 邂逅宁国落羽杉湿地好风光

数码要闻

服役20年正式落幕!NVIDIA官宣控制面板全面停更

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版