4 月 14 日下午,由智源社区、DeepTech 联合举办的 ICLR 2026 预讲会在北京智源大厦圆满举行。作为机器学习领域最具影响力的国际顶会之一,ICLR 录用论文往往代表着该领域最前沿的研究方向和技术突破。
ICLR 2026 共收到有效投稿超 1.9 万篇,整体录取率约 28%,汇聚了全球大模型、多模态、强化学习、时序智能等前沿方向的最新研究成果。本次线下预讲会聚焦顶会核心精华,为现场科研工作者搭建了高效的学术交流与成果分享平台。
会议伊始,清华大学智能产业研究院(AIR)助理教授赵昊作为开场嘉宾,简要介绍了议程安排,并围绕 ICLR 顶会论文的选题、撰写与投稿实战,分享了其在学术探索中的心得。随后,三十余位论文作者围绕 AI Agent、大语言模型、强化学习及多模态等热门领域对入选成果进行了系统分享。
![]()
图 | 开场环节
在过去的 2025 年,我们见证了大模型在通用任务上的能力飙升,但也目睹了其在真实场景中的频繁“翻车”——幻觉问题让医疗诊断不敢用、长上下文能力不足导致多轮对话崩盘、工具调用效率低下拖累 Agent 实用性、细粒度识别能力缺失限制专业应用。本次预讲会展示的研究成果,恰恰聚焦于这些“最后一公里”的痛点。
从奖励最大化到分布匹配:强化学习正在变得更“聪明”
在强化学习与 AI Agent 能力提升方面,从与会者的演讲中,我们可以看到一个清晰的趋势:研究焦点正从传统的奖励最大化转向奖励分布的精准匹配与数据效率的极致提升。多篇论文不约而同地关注如何通过自我博弈激发多智能体推理能力,以及如何通过基于熵的自适应搜索优化智能体与外部工具的多轮交互。这标志着强化学习在 Agent 领域的应用正在变得更深、更轻、更符合逻辑推演。
来自中国人民大学高瓴人工智能学院的博士生董冠霆介绍了其最新科研工作智能体强化学习算法——ARPO。他表示,传统强化学习主要适用于文本推理任务,而真实场景中智能体需在推理过程中与外部工具环境交互,这需要推理与工具使用行动高度耦合,现有方法难以应对。
![]()
图 | 董冠霆分享
他的工作 ARPO 发现,模型在工具调用后会出现“熵增”现象,反映其对环境反馈的不确定性。为此,ARPO 引入基于熵的自适应树搜索,在高熵位置自动分支探索,并通过路径复用降低计算成本。董冠霆解释,树搜索让两条路径可以共享前几轮的工具调用结果,因此成本远低于 GRPO 那种从头解码 N 条完整路径的方式。实验表明,ARPO 在深度搜索任务,长程推理任务中性能稳定优于 GRPO 等方法,且工具调用量仅为其一半。
关于落地应用,董冠霆表示,快手深度搜索智能体的初步框架也基于 ARPO 构建,还有其他大厂也在尝试落地应用。未来,他将聚焦动态环境下的智能体训练与熵平衡优化,推动智能体强化学习算法向更真实、高效的方向发展。
类似的思路也体现在多智能体推理领域。多篇论文探索通过自我博弈(Self-Play)机制,让多个 Agent 在战略性交互中涌现出更强的推理能力,这与 AlphaGo 的成功路径不谋而合。此外,基于流的强化学习、速度参数化的序列建模等新方法,也在尝试从不同角度提升样本效率和训练稳定性。
从粗粒度识别到细粒度推理:多模态感知迈向“专家级”
在多模态感知方面,研究者不再满足于让模型识别“花”或“飞机”这类粗粒度结果,而是通过思维链监督微调,让模型像专家一样逐步分析颜色、形状等细粒度特征。同时,自动驾驶、触觉感知等物理世界交互任务也成为热点,世界模型被用于放大数据缩放定律,解决长尾场景的数据匮乏问题。
在细粒度多模态大模型领域,北京大学王选计算机研究所的博士生何胡凌霄分享了团队的最新研究成果——Fine-R1。他表示,通用大模型难以识别细粒度类别,主要在于细粒度数据的标注需要专家知识,成本极高,导致训练数据稀缺,模型更倾向于输出“花”这类粗粒度结果。
为此,团队将思维链引入细粒度识别任务,构建了“视觉分析—候选子类别—对比分析—预测结果”的结构化推理流程,让模型像专家一样逐步分析颜色、形状等特征。同时,团队提出了三元组增强策略优化(TAPO),通过引入正负样本对,提升模型对类内差异的鲁棒性和对类间差异的辨识性。
![]()
图 | 何胡凌霄分享
在效率方面,团队每类仅用 4 张训练图像,就超越了 CLIP、SigLIP 等判别式模型。何胡凌霄表示,这得益于思维链带来的知识泛化能力,以及强化学习相比监督微调的数据效率优势。他透露,目前团队正致力于提速和轻量化,争取部署到手机等边缘设备,实现实时识别。
应用场景方面,何胡凌霄举例,华为的“小艺看世界”功能可识别花、文物等的细粒度类别并进行后续问答。未来,团队将继续优化推理速度与模型大小,推动技术落地。
模型能力优化:让 AI 更可信、更“走心”
模型能力的优化也是一个重点方向:因为现阶段的 AI 应用还存在着幻觉问题导致生成内容不可信、长期记忆能力薄弱影响多轮对话连贯性等问题。
在提升模型忠实度与可信度方面,天津理工大学周雨熙团队博士生龙泳潮分享了其与北京大学洪申达课题组、腾讯天衍实验室合作的最新研究。面对医疗场景中模型出现的偏离参考文本、生成不可控内容等幻觉问题,团队提出了一种名为“Copy-Paste”(复制-粘贴)的新型生成范式,迈向 LLM“零幻觉”生成。
![]()
图 | 龙泳潮分享
这种方法的核心逻辑极简却高效:通过两阶段的高复制偏好训练,促使模型在生成答案时直接嵌入上下文关键片段,推动其从“自由创作”向“精准锚定”的模式转变。龙泳潮解释,这种“复制粘贴”式的策略不仅在准确性上更具说服力,更展现出极高的数据效率。团队仅用 365 对高质量数据进行 DPO 训练,其效果便超越了基于 18,000 条数据训练的最强基准模型。
尽管该方法在处理含有事实错误的原始上下文时,仍面临“错读错引”及纠错能力受限的挑战,但团队引入的“双向锚点”技术,为用户提供了快速回溯验证的路径。龙泳潮表示,后续研究将聚焦于 Copy-Paste 范式在文本推理和多模态上的研究,并进一步探索该范式在医疗诊疗指南等高可信度场景中的工程化落地潜力。
而在提升对话智能体长期记忆的联想与检索效率方面,来自中国科学技术大学的博士生许德容展示了名为“MemGAS”的创新框架。针对现有记忆系统因粒度单一导致的信息检索不全或噪声过大等问题,该研究打破了传统的单粒度存储模式。
![]()
图 | 许德容分享
受人脑记忆机制启发,MemGAS 通过构建多粒度记忆单元并引入高斯混合模型(GMM),实现了新旧记忆的高效关联与动态筛选。许德容强调,MemGAS 的核心优势在于其“多粒度联想”能力:能够根据任务需求,自适应地选择最合适的记忆分片,从而在长程对话中提供更具连贯性和个性化的响应。
尽管在处理情绪化或非事实性的碎片化信息时,多粒度提取的意图对齐仍具挑战,且系统复杂性对实时性提出了更高要求,但团队已在后续研究中探索记忆的“遗忘与更新”机制。许德容表示,下一步工作将致力于解决记忆持续累积带来的冗余问题,在保证更低 Token 消耗的同时,构建更接近人类思维的动态记忆闭环。
此外,入选者们也在扩散模型的用户意图理解、分子表征的动态建模、以及多模态推理中的时间感知等前沿探索,都在试图突破当前模型的能力边界。
机器学习与数据应用:从动态评测到算法理解
在机器学习与数据应用层面,可解释性、动态评测基准和异常检测等方向受到关注。特别是医疗领域,零数据泄露、可动态更新的临床评测基准的提出,标志着 AI 评估正从静态刷榜迈向动态实战考核。
来自香港中文大学(深圳)的博士生王熙栋介绍了其联合蚂蚁集团等机构发布的医疗多模态评测基准——LiveClin。他表示,现有医疗大模型评估存在两大硬伤:一是静态题库容易被数据污染,模型靠“背答案”刷榜;二是评测任务脱离真实临床流程,无法考察模型在患者病情动态变化中的推理能力。
![]()
图 | 王熙栋分享
为此,LiveClin 构建了零数据泄露、可动态更新的评测体系。团队联合 239 位医生参与标注审核,其中近 40% 为三甲医院主任或副主任医师,总投入超过 1,772 人工时。基准每半年从最新医学文献中抓取真实病例,确保模型必须靠真本事推理。同时,每个病例覆盖从初诊到治疗方案的全临床路径,采用多阶梯式渐进提问,考查模型的长程推理能力。
在对 26 款顶尖模型的测评中,结果令人惊讶:即便是 GPT-5、o3,完全通关率也仅约 35%,与人类主任医师仍有显著差距。王熙栋分析,后期崩盘的主要是开源模型,症结在于长上下文能力不足。目前团队正推进按月更新的私榜机制,进一步防止刷榜。他期待 LiveClin 能成为医疗 AI 测评的新标准,推动行业从静态刷榜迈向动态临床考核。
在数据处理与异常检测领域,吉林大学的博士生叶航廷分享了在挖掘大语言模型处理复杂结构化数据潜力方面的最新进展。面对直接处理表格数据时常见的隐私泄露风险与数值计算瓶颈,他提出了一种名为“LLM-DAS”的新型框架。
![]()
图 | 叶航廷分享
该框架实现了从“数据处理者”到“算法分析师”的思路转变:利用大模型的逻辑推理优势深度剖析现有检测器算法的弱点,自动生成数据无关、可复用的代码,用于合成专门针对该检测器“盲区”的异常样本以提升性能,从而有效规避了原始数据的直接暴露。
叶航廷坦言,尽管目前在逻辑对齐的量化评估及可解释性上仍存在挑战,且难以在所有数据集上实现完美提升,但团队下一步将重点探索大模型对算法的深度理解机制,致力提升其在金融、医疗等复杂稀疏数据场景下的稳健性。
随着预讲会议程的结束,部分与会同学已整装待发,准备前往巴西参加 ICLR 2026 全球主会。如今,AI 正在从“能用”迈向“好用”,从“泛化”走向“专精”,从“刷榜”转向“实战”。这些趋势不仅代表着学术界的探索方向,也预示着 AI 技术在真实世界中的落地路径正在变得更加清晰。
主办方介绍:
DeepTech 是一家专注新兴科技的创新赋能机构,致力于推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
智源社区目前汇聚全球 20 万人工智能开拓者,是兼具专业性和开放性的国际学术交流和技术创新协作平台。社区围绕人工智能发展的基础问题和关键难题,建立紧密协作的学术共同体,加速新线索发现、假设提出、提案产生,致力于推动人工智能及其交叉领域的前沿研究、创新与可持续发展。
运营/排版:何晨龙
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.