随着大型语言模型(LLMs)的发展,应用端对其推理效率和性能的要求不断提高,研究人员持续探索更有效的推理方法。因此Deep Think with Confidence(DeepConf)方法应运而生,它克服现有方法的不足,通过利用模型内部置信度信号,在推理过程中或生成后动态过滤低质量推理轨迹,实现推理效率和性能的双重提升。
本次访谈,Z Potentials 特邀Meta FAIR研究科学家、加州理工学院博士Jiawei Zhao于北京时间9月9日9:00am直播talk,深度解析其团队颠覆性工作DeepConf,揭开了 LLMs 推理中 “置信度信号驱动低质轨迹动态过滤” 的核心逻辑。Yichao FU和Jiawei Zhao为DeepConf的共同贡献者。
![]()
图片来源:
https://jiaweizzhao.github.io/deepconf/
![]()
Jiawei Zhao是Meta FAIR(Meta的基础AI研究部门)研究科学家。拥有加州理工学院(Caltech)的博士学位。研究成果主要集中在机器学习领域,特别是针对大型语言模型(LLM)和深度学习的优化方法。
内存优化方面,GaLore(ICML 2024 oral)是Jiawei Zhao在博士期间提出的优化方法,利用梯度的低秩结构显著节省内存和计算资源。Mini-Sequence Transformers是针对长序列训练的中间内存优化方法,相关成果发表于NeurIPS 2024。
推理效率提升方面,Act Only When It Pays 通过selective rollouts引入强化学习方式的高效推理策略,有助于提高模型推理效率;HeadInfer 通过head-wise offloading实现内存高效的LLM推理,进而提升推理效率。
此外还有有关模型微调策略的工作S²FT,发表于NeurIPS 2024。
理论研究方面,Jiawei Zhao有多篇关于低秩梯度/权重结构、张量分解、Quantized GaLore等的论文,覆盖了从理论到实践的广泛方向,为上述内存优化、推理效率提升等方法提供了理论支持。
![]()
Yichao Fu是加州大学圣地亚哥分校(UCSD)计算机科学与工程系的博士生,所属Hao AI实验室。聚焦大型语言模型(LLM)推理优化与系统优化,涵盖高效推理机制、系统架构设计、分布式推理等领域,取得了多项研究成果。曾参与开发 “Efficient LLM Scheduling by Learning to Rank”,成果发表于 NeurIPS 2024,聚焦LLM调度效率优化。参与研究 “Break the Sequential Dependency of LLM Inference Using Lookahead Decoding”,发表于ICML 2024,旨在打破LLM推理的顺序依赖限制。
为解决大型语言模型(LLMs)在推理任务中采用自一致性多数投票时存在的准确率收益递减和计算开销过高问题,二位作为共同贡献者提出DeepConf。该方法无需额外模型训练或超参数调优,可无缝集成现有服务框架,核心是利用模型内部置信度信号(如组置信度、底部10%组置信度、尾部置信度)在生成中或生成后动态过滤低质量推理轨迹。分为离线和在线两种模式。
![]()
图片来源:
https://jiaweizzhao.github.io/deepconf/
在包括AIME2025在内的多个推理基准测试中,DeepConf均表现优异:离线模式下,DeepConf@512在GPT-OSS-120B模型上实现99.9%准确率,远超传统多数vote的97.0%;在线模式下,相比全并行推理最多减少84.7%生成Token,同时实现准确率的提升,有效平衡推理性能与效率。
![]()
预约下方链接!分享会末尾设置QA环节,扫二维码进群获得提问机会
我们正在招募新一期的实习生
我们正在寻找有创造力的00后创业
关于Z Potentials
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.