北京时间10月14日(周二)晚8点,将门-TechBeat人工智能社区参与的直播活动一起聊聊“平衡多模态学习”将在视频号准时直播。
本活动由中国人民大学高瓴人工智能学院GeWu-Lab组织策划,邀请到了中国科学院计算技术研究所博士生华聪、 国防科技大学研究 生王方地、 东南大学博士生马骁宇、 北京航空航天大学本科生倪浩天、 北京邮电大学本科生黄成祥。 让我们通过他们的视角一起聊聊“平衡多模态学习”。
点击下方“预约”,锁定直播
直播介绍
主题:一起聊聊“平衡多模态学习”
时间:2025年10月14日(周二)晚 8:00-9:30
简介:随着多模态学习的快速发展,研究者们越来越意识到,不同模态的数据(比如视觉、语言、音频等)在表达能力、数据分布和信息粒度上存在显著差异。如果在融合过程中缺乏合理的调控机制,就容易出现“强模态更强、弱模态被忽视”的情况——有的模态被过度依赖,而有的模态则被边缘化甚至抑制。这种模态学习上的不平衡,不仅会限制模型整体性能的提升,还可能影响它在真实复杂场景中的泛化与鲁棒性。因此,如何让不同模态“各展所长、协同共进”,实现多模态学习的平衡与高效利用,已经成为近年来备受关注的研究话题。
本次 Workshop 邀请了多位在国际顶级会议(ICML、NeurIPS、CVPR 等)上发表论文的优秀讲者,他们将带来在“平衡多模态学习”方面的最新进展。他们的工作涵盖了从 Boosting 框架下的模态对齐、基于 Shapley 值的多视图协作增强、通过 Data Remixing 改善模态平衡性与充分性,到 Transformer 中跨模态协作动态的重建、以及单模态自适应调控机制等多个前沿方向。
除了报告分享外,本次 Workshop 还将同步推出一篇系统梳理平衡多模态学习近年进展的专题 Blog。该 Blog 将从问题定义、方法演化和未来挑战等方面,对近年来平衡多模态学习相关工作的代表性成果进行总结与分析,帮助研究者快速了解该领域的发展全貌与前沿动向。同时,我们也设立了讨论群组,提供一个持续交流、思想碰撞与合作探索的平台。期待更多同学加入,共同推动多模态学习的平衡与进步!
Blog链接:
https://gewu-lab.github.io/blog/balanced-multimodal-learning
讨论群组链接:
https://github.com/GeWu-Lab/awesome-balanced-multimodal-learning
Panel议题:
1.如果给定“无限数据”和“无限算力”,多模态学习是否仍然会受限于平衡问题?
2. 是否应该“刻意制造不平衡”? 在某些任务中,模态之间的效用并不均衡,例如医疗诊断中主要依赖影像决策,是否应该主动“弱化”某些模态,而不是一味追求全模态融合?
3. 解决模态失衡问题与实现更优质的多模态学习之间存在着怎样的关联?
4. 多模态大模型里面有不平衡吗?有的话会有什么影响,又该如何解决?
![]()
讲者介绍
![]()
华聪
中国科学院计算技术研究所博士生
中国科学院计算技术研究所博士生,师从黄庆明教授和许倩倩研究员。主要研究方向为多模态学习、大模型微调等。目前在国际会议ICML发表一作论文2篇,获得CVPR国际竞赛冠军2项。担任ICML/NeurIPS/ICLR/TCSVT/TNNLS等会议和期刊审稿人。
![]()
王方地
国防科技大学计算机院研究生
国防科技大学计算机院刘新旺团队研究生,师从祝恩教授和刘新旺教授。主要研究方向为多视图学习。目前在累计在国际会议和期刊上发表论文5篇,其中以第一作者在NeurIPS和ACM MM各发表论文1篇。担任NeurIPS/ACM MM/AAAI等会议和期刊审稿人。
![]()
马骁宇
东南大学博士生
东南大学计算机科学与技术专业博士生,导师为PALM实验室的陈浩副教授。于2025年获得东南大学软件工程学士学位,现研究方向为可解释的多模态学习。
![]()
倪浩天
北京航空航天大学本科生
北京航空航天大学本科生,人大高瓴GeWu Lab实习生。主要研究方向为多模态学习与生成模型。
![]()
黄成祥
北京邮电大学本科生
北京邮电大学本科生,主要研究方向为多模态学习,联邦学习等。目前为人大高瓴GeWu Lab实习生。
组织者
![]()
卫雅珂
中国人民大学博士生
中国人民大学高瓴人工智能学院博士生,导师为胡迪副教授。在博士期间的主要研究聚焦于多模态学习机制。目前在计算机领域顶级会议和期刊上发表学术论文共13篇,其中独立第一作者5篇。独立一作论文包括国际顶级期刊T-PAMI论文和多篇国际顶级会议如NeurIPS(入选Oral)、ICML、CVPR、ECCV论文等。博士就读期间曾获博士生国家奖学金、2024年百度奖学金等。
![]()
胡迪
中国人民大学高瓴人工智能学院副教授、博导
现任中国人民大学高瓴人工智能学院副教授,博导。主要研究方向为机器多模态感知、交互与学习,以主要作者在TPAMI/ICML/CVPR/CoRL等人工智能顶级期刊及会议发表论文60余篇,代表性工作如视音指代分割与问答;平衡多模态学习理论,机制与方法;面向物体操纵的视听触多模态交互等。作为副主编出版本科教材一部。曾入选 CVPR Doctoral Consortium;荣获2020中国人工智能学会优博奖;荣获2022年度吴文俊人工智能优秀青年奖;入选第七届中国科协青托计划、微软铸星学者、智源学者等。所指导学生获百度奖学金(全球10人)。担任ICLR、AAAI、IJCAI Senior PC等,主办/协办多场国际顶级会议的多模态学习讲习班(Tutorial)。
-The End-
本周上新!
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
michellechang@thejiangmen.com
或添加工作人员微信(michelle333_)投稿,沟通投稿详情
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com

点击右上角,把文章分享到朋友圈
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.