网易首页 > 网易号 > 正文 申请入驻

将多教师冲突转化为动态约束,破解多模态大模型推理对齐难题

0
分享至



在多模态大模型(MLLM)快速发展的浪潮中,融合多模型 “集体智慧” 已成为提升模型性能的关键路径,并催生了多教师知识蒸馏这一主流范式。然而,不同来源的教师模型在架构与优化上的差异,其在相似推理过程中呈现出不稳定甚至偏移的认知轨迹,即 “概念漂移”(Concept Drift)。这种多源推理分布的动态演变会将偏差与错误认知隐性传递给目标模型,进而引发逻辑冲突与生成幻觉等潜在风险。

悉尼科技大学(UTS)研究团队提出了一种全新的自主偏好优化框架 —— APO (Autonomous Preference Optimization)。该框架突破了传统蒸馏对单一强教师模型的依赖,通过多流教师模型的协同机制,巧妙地将模型间的 “漂移” 转化为动态负约束,并将 “共识” 视为正向偏好引导,系统性地解决了多模态大模型在多师蒸馏中的概念对齐难题。该工作已被 ICML 2026 正式接收。



  • 论文标题: Turning Drift into Constraint: Robust Reasoning Alignment in Non-Stationary Multi-Stream Environments
  • 作者信息:Xiaoyu Yang, En Yu, Wei Duan, Jie Lu
  • 作者单位:悉尼科技大学(UTS)澳大利亚人工智能研究院(AAII)
  • 论文链接:https://arxiv.org/abs/2510.04142
  • 项目主页:https://xiaoyuyoung.github.io/APO/
  • 仓库链接:https://github.com/XiaoyuYoung/APO
  • 数据集链接:https://huggingface.co/datasets/MiaoMiaoYang/CXR-MAX

01 引言

目前的蒸馏策略大多假设教师模型提供的是单一稳定、一致的监督信号。然而,研究团队通过对 7 个主流 MLLM 在医疗诊断任务中的表现分析发现,这些模型在推理过程中展现出显著的非平稳性,其推理分布会随步骤深入而产生剧烈波动。具体而言,虽然 Qwen-VL-Max 等模型倾向于高精度且简洁的推理,而 GPT-5 则偏好高召回率的详尽阐述,这种互补性的发散意味着真实的推理流形潜藏在多流共识之中,而非单一强教师监督;然而,若学生模型只是简单地模仿这些漂移的教师流,并不能自动综合其优点,反而会因内化了各个模型的偏见而导致幻觉与语义不一致,这证明了在非平稳环境下,单纯的模仿已无法实现稳健的概念对齐。

为此,作者正式定义了非平稳多流概念对齐问题,并提出APO框架。这是一种将多流教师偏见内化为动态负约束、并将共识视为正向偏好引导,共同驱动学生模型收紧特征空间,实现稳健推理。



图 1:APO 整体框架。该框架通过两阶段协议将教师模型间的漂移冲突转化为动态负约束,并结合共识合成与偏好优化,在分布演变中精炼出稳健的推理共识流形。

02 方法

研究团队面向多教师蒸馏问题,首先将概念漂移理论扩展到多源 MLLM 非平稳多流概念对齐上,将多源 MLLM 蒸馏定义为非平稳条件下的约束满足问题;其次,作者设计了两阶段协议,自主提取多源 MLLM 的共识作为正向引导,并将教师模型间相互冲突的漂移轨迹重构为动态负约束,通过多负样本偏好优化驱动,实现稳健的概念对齐。

多流推理漂移







则认为发生了多流推理漂移。







监督引导的共识合成

在多流推理漂移框架下,研究团队首先让 MLLM 进行监督引导的共识合成。在这个阶段,学生模型广泛吸收所有教师模型的异构知识。通过将自身投射到多源模型能力的并集空间中,学生模型建立起了一个包容集体智慧的基础能力基座。

在此基础上,研究团队进一步利用大模型的推理能力,设计了上下文共识提取机制,将各个教师模型生成的、混合着有效信号与漂移错误的原始推理轨迹进行汇总,作为目标模型的参考上下文。此时,学生模型作为判别器,自主过滤掉那些缺乏跨模型支持的矛盾信息,并放大模型间的逻辑交集,最终提炼出一条高度逻辑自洽的共识轨迹。

约束感知的偏好优化

在提炼出逻辑自洽的共识轨迹后,APO 设计了约束感知优化进行概念对齐。这一阶段的核心逻辑在于,目标模型不仅需要学习 “生成什么”(即共识轨迹),更需要明确 “避开什么”(即教师模型中固有的推理漂移)。通过最大化共识与漂移之间的边际,模型得以针对幻觉和偏差进一步压缩其决策边界。





这种优化目标强制模型满足两个动态条件:一方面,相对于参考模型提升共识轨迹的生成概率;另一方面,显式压制推理空间中的漂移模式。这一过程有效地将教师模型间的冲突从干扰噪声转化为强力的监督信号,在无需外部推理轨迹标注的情况下,自主勾勒出大模型鲁棒的推理流形。

03 数据集构建

为了评估真实环境中非平稳环境的推理对齐效果,研究团队选择了高风险、高动态的医疗领域,胸片诊断任务。研究团队推出了 CXR-MAX (Multi-source Alignment for X-rays) ,这是一个专为促进高风险领域多教师蒸馏研究而设计的大规模基准。CXR-MAX 扩展了著名的 MIMIC-CXR 数据集,汇集了来自 7 个不同主流 MLLM 的推理轨迹,其中包括:GPT-5, Gemini-2.5, Sonnet-4, Grok-4, Qwen-VL-MAX, GLM-4.5V 以及 Moonshot。该数据集提供了 170,982 个推理实例,涵盖了 14 种胸部疾病,为临床胸片任务的多教师蒸馏研究建立了大规模的实验基座。

04 实验验证



表 1: 各个教师模型和学生模型在胸片疾病诊断任务上的的分类准确率(%)。红色代表最优,蓝色代表次优。

为了验证 APO 的有效性,研究团队构建了胸部疾病分类、诊断报告生成、思维链一致性以及泛化性实验。表 1 的结果表明,APO 训练出的 7B 模型在所有疾病诊断任务中实现了 0.78 的最高平均准确率,一举超越了包括 GPT-5 在内的所有教师模型。这一结果有力证明了,APO 赋予了紧凑型模型合成共识流形的能力,使其能够有效整合多位教师的差异化优势,真正实现站在巨人的肩膀上。

特别是在实变(Con.)和水肿(Ede.)疾病预测中,教师模型间有极大的分歧,各模型间准确率落差甚至超过 70%,教师模型表现波动巨大。而在实变(Con.)、肺炎(Pna.)和水肿(Ede.)疾病预测上,7 个教师模型中达到 60% 以上准确率的教师模型仅有 5 个。相比之下,APO 训练的学生模型在几乎所有类别中都稳居前二,展现出极强的稳定性。APO 通过将这些剧烈发散的推理轨迹转化为负约束,成功阻止了偏见和错误知识的渗透,确保了推理过程的严谨与可靠。

05 结语

APO 的提出标志着多教师蒸馏学习从 “静态学习” 向 “动态约束” 迈出了关键一步。 该框架将教师模型间漂移形式化为动态负约束,将概念对齐内化为约束满足问题,促进多模态大模型推理对齐的进一步发展,为高风险、高动态的复杂领域的模型自主演化提供了一种全新的解决方案。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
数学140分以上,浙江590人断层式领先!网友:打假!

数学140分以上,浙江590人断层式领先!网友:打假!

史海流年号
2026-07-01 08:31:47
世人都误解了:俄国人从来不善战,他们更擅长的是承受恐怖伤亡

世人都误解了:俄国人从来不善战,他们更擅长的是承受恐怖伤亡

李健政观察
2026-06-30 16:47:04
人口大迁徙或成定局?未来超过一半的人口,或将会流入到这些地方

人口大迁徙或成定局?未来超过一半的人口,或将会流入到这些地方

墨兰史书
2026-07-03 04:20:04
三花智控、领益智造、卧龙电驱、金发科技谁是人形机器人反转老大

三花智控、领益智造、卧龙电驱、金发科技谁是人形机器人反转老大

长风价值掘金
2026-07-03 15:50:42
嘉峪关方特景区一NPC与游客互动时被掰断手臂!本人发声:游客失联,已自付1万多元医药费,公司、中介和景区均未给出明确答复

嘉峪关方特景区一NPC与游客互动时被掰断手臂!本人发声:游客失联,已自付1万多元医药费,公司、中介和景区均未给出明确答复

爱看头条
2026-07-03 13:55:39
就在昨天晚上!程帅澎落选男篮12人大名单,来听听广大网友怎么说

就在昨天晚上!程帅澎落选男篮12人大名单,来听听广大网友怎么说

宝哥精彩赛事
2026-07-03 11:55:18
在省厅工作五年始终是临时工,收拾行李时,厅长:带着这份任命书

在省厅工作五年始终是临时工,收拾行李时,厅长:带着这份任命书

晓悦流年
2026-06-26 14:49:48
一家6口5本美国护照,却还在国内“捞金”,年营收上百亿

一家6口5本美国护照,却还在国内“捞金”,年营收上百亿

混沌录
2026-06-19 16:14:07
麻烦大了!24小时韩红再遭重挫,惊动机构,被圈内人暗示名誉难保

麻烦大了!24小时韩红再遭重挫,惊动机构,被圈内人暗示名誉难保

曹莽看世界
2026-07-01 13:53:11
一旦日本对中国动手,我国结束中日战斗需要几天?答案让日本绝望

一旦日本对中国动手,我国结束中日战斗需要几天?答案让日本绝望

素颜为谁倾城人
2026-06-28 22:56:29
优必选,玩得太花了

优必选,玩得太花了

风声声
2026-07-02 21:49:23
男性165-188cm标准体重表公布,自查一下,你可能都在范围之内

男性165-188cm标准体重表公布,自查一下,你可能都在范围之内

华庭讲美食
2026-07-03 17:04:48
699分寒门女生上清华医学院,遭全网劝退:别上清华、别学医!工科更适合!上清华真是“被坑”吗?为什么学医被唱衰,分数线还是这么高

699分寒门女生上清华医学院,遭全网劝退:别上清华、别学医!工科更适合!上清华真是“被坑”吗?为什么学医被唱衰,分数线还是这么高

梅斯医学
2026-07-03 14:56:37
生姜被点名了!发现:高血压病人吃生姜,不必等多久,或有5变化

生姜被点名了!发现:高血压病人吃生姜,不必等多久,或有5变化

荆医生科普
2026-07-03 16:28:54
YSL男士透明皮鞋售价12500遭吐槽 网友称脚臭可视化了 门店:已有顾客预定

YSL男士透明皮鞋售价12500遭吐槽 网友称脚臭可视化了 门店:已有顾客预定

快科技
2026-07-02 16:33:48
对越反击前夕高层意见不一,叶剑英等为何反对,谁促邓小平出兵?

对越反击前夕高层意见不一,叶剑英等为何反对,谁促邓小平出兵?

人生录
2026-07-03 16:40:02
C罗:巴西对我意义特别,那里的人们多年来一直支持着我

C罗:巴西对我意义特别,那里的人们多年来一直支持着我

懂球帝
2026-07-03 11:10:17
巴格达的倒戈:扎伊迪的“雷霆三日”如何撕裂伊朗的什叶派走廊

巴格达的倒戈:扎伊迪的“雷霆三日”如何撕裂伊朗的什叶派走廊

民间胡扯老哥
2026-07-03 05:29:12
欧盟正式废除原有关税豁免政策

欧盟正式废除原有关税豁免政策

新浪财经
2026-07-02 17:52:37
广东宏远离队第一人?曝26岁射手走人,有球队给更大的合同

广东宏远离队第一人?曝26岁射手走人,有球队给更大的合同

国篮会自强
2026-07-03 16:28:41
2026-07-03 18:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13426文章数 142686关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

中国船员在被韩海警扣押期间死亡 船友曾6次提醒救人

头条要闻

中国船员在被韩海警扣押期间死亡 船友曾6次提醒救人

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

AI“鬼故事”不断,市场开始重估?

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

健康
本地
房产
亲子
公开课

听说少吃点能抗衰老?专家讲解!

本地新闻

国内足球之旅?这座小城给你高分答案

房产要闻

好惨!房地产专业,正在海南消失!

亲子要闻

✨闪闪小葵花 成长正当时✨ 育儿知识现场问答,一起探讨长高小妙招~

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版