香港中文大学STORM实现小模型优化建模突破|轨迹|数学|推理|运筹学|storm

香港中文大学STORM实现小模型优化建模突破

2025-11-10 20:39:16　来源: 科技行者

北京举报

分享至

这项由香港中文大学（深圳）的唐正阳、叶子涵等研究团队领导的研究，联合上海财经大学、南方科技大学以及阿里巴巴Qwen团队，发表于2025年1月的预印本论文中。有兴趣深入了解的读者可以通过论文编号arXiv:2510.04204v1查询完整论文。这项研究解决了一个困扰人工智能领域的重要问题：如何让小型AI模型在复杂的优化建模任务上达到大型模型的表现水平。

优化建模就像为企业制定最佳决策方案。比如一家物流公司需要决定在哪里建仓库、派多少卡车送货，才能以最低成本满足所有客户需求。传统上，这需要资深专家花费大量时间分析问题、建立数学模型，然后编写复杂的程序来求解。随着AI技术的发展，研究者们希望让AI自动完成这个过程，但面临一个棘手的现实：要获得好效果，通常需要使用参数量达到数千亿的超大型模型，这不仅成本高昂，普通研究机构和公司也难以负担。

研究团队发现了一个关键问题。现有的训练方法就像强迫一个天生善于思考的学生死记硬背标准答案，结果反而削弱了他的思考能力。大型推理模型天生具备多步骤思考和自我修正的能力，但传统的训练方法却试图让它们像早期简单模型那样，看到问题直接给出答案，完全忽略了它们的推理优势。

为了解决这个矛盾，研究团队开发了名为CALM（轻量化修正适应）的训练框架。这个方法的核心思想是保护和增强模型的原生推理能力，而不是破坏它。CALM采用了"推理者-干预者"协作模式，就像一个有经验的老师在旁边观察学生解题，当发现学生走错方向时，及时给出简短的提示，引导学生回到正确轨道。

在CALM框架中，推理模型像一个正在学习的学生，按照自己的思维方式解决优化问题。同时，一个专家级的干预模型充当老师的角色，实时监控推理过程。当发现推理出现偏差时，干预者会注入精准的提示信息。关键在于这些干预非常轻量化，只修改不到2.6%的生成内容，但却能产生高质量的训练数据。

研究团队通过深入分析发现，大型推理模型在优化建模中主要存在两类错误。第一类是"代码利用不信任"，即模型倾向于用自然语言手工计算，而不是相信和使用强大的求解器工具。这就像一个学生明明有计算器，却坚持心算复杂的数学题。第二类是"运筹学专业知识缺乏"，即对优化建模的专业概念和约束条件理解不够深入。

针对这些问题，CALM设计了相应的干预策略。对于代码利用不信任问题，当模型试图手工求解时，干预者会提示"等等，我可以使用求解库让计算器找到最优解"。对于专业知识缺乏问题，比如模型忽略了整数约束，干预者会提示"汽车数量的小数值是不现实的，这提示我遗漏了整数约束"。

CALM的工作流程分为三个阶段。首先是问题诊断阶段，系统分析模型在不同难度问题上的错误模式。研究发现，在简单问题上，代码利用不信任是主要瓶颈；在复杂问题上，专业知识缺乏成为主要障碍。接着是轻量化提示阶段，通过迭代提示循环逐步修正错误轨迹。最后是高质量轨迹筛选阶段，只保留既正确又被干预者认为完美的推理过程作为训练数据。

基于CALM框架，研究团队开发了两阶段训练流程。第一阶段是监督微调，让模型在高质量轨迹上学习正确的推理习惯，这个阶段主要起到行为校准的作用。第二阶段是强化学习，让模型通过与求解器环境的交互，自主掌握优化建模技能。最终得到的模型被命名为STORM（智能思考优化推理模型）。

研究结果令人瞩目。仅有40亿参数的STORM模型在五个主流优化建模基准测试上取得了68.9%的平均准确率，这个成绩与拥有6710亿参数的大型模型相当。这意味着STORM用不到大型模型1%的参数量，就达到了相同的性能水平。这种巨大的参数效率提升为优化建模的普及应用开辟了新的可能性。

更深入的分析揭示了STORM成功的机制。通过对比实验发现，使用CALM训练的模型在强化学习阶段表现出更陡峭稳定的学习曲线，能够在相同计算预算内达到更高的性能上限。行为分析显示，STORM逐渐增加代码块的使用频率，同时减少冗长的自然语言计算，形成了计算驱动的推理模式。这种转变反映了从新手到专家的能力进化过程。

研究团队还观察到了有趣的"两阶段治愈过程"。监督微调阶段主要减少运筹学专业知识缺乏的错误，而强化学习阶段更有效地解决代码利用不信任问题。这两个阶段相互补充，协同提升模型的整体能力。

这项研究的意义远超技术层面。它证明了通过精心设计的训练方法，小型模型可以在特定领域达到大型模型的性能。这不仅大幅降低了优化建模AI应用的门槛，也为其他专业领域的AI模型训练提供了新思路。更重要的是，CALM框架强调保护和增强模型原生能力，而非强行改造，这种理念可能会影响未来AI训练方法的发展方向。

对于实际应用而言，这项成果意味着更多企业和研究机构将能够负担得起高质量的优化建模AI助手。从供应链优化到资源分配，从生产调度到投资组合管理，STORM及类似技术有望大幅提升各行业的决策效率和质量。同时，由于模型规模的大幅缩减，部署和维护成本也将显著降低，为优化建模技术的广泛普及铺平了道路。

Q&A

Q1：CALM框架是什么？它如何提升小模型性能？

A：CALM是一种轻量化修正适应训练框架，采用"推理者-干预者"协作模式。当AI模型在解决优化问题时出现错误，专家系统会给出精准提示，引导模型回到正确轨道。这种方法只修改不到2.6%的内容，却能生成高质量训练数据，最终让40亿参数的小模型达到6710亿参数大模型的性能水平。

Q2：STORM模型在优化建模方面有什么突破？

A：STORM是基于CALM框架训练的优化推理模型，在五个主流基准测试上平均准确率达到68.9%，与大型模型性能相当但参数量仅为其1%。它能够自动将自然语言描述的优化问题转换为数学模型和可执行代码，大幅降低了专业优化建模的技术门槛。

Q3：这项研究对实际应用有什么价值？

A：这项研究显著降低了AI优化建模的应用成本，让更多企业和机构能够负担高质量的优化决策助手。在供应链管理、资源分配、生产调度等领域，STORM技术可以帮助自动制定最优方案，提升决策效率和质量，同时因为模型规模小，部署维护成本也大幅降低。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.