上交大智能计算研究院论文：不只算对答案，大模型如何真正学会运筹建模丨ICLR 2026|实验|推理|新论文

分享至

在大语言模型逐步从通用推理工具走向专业领域应用的过程中，运筹优化（OR）成为一个极具吸引力、同时也极具挑战性的方向。

一方面，运筹优化问题天然具备清晰的数学结构和可验证的求解结果，看似非常适合由模型自动完成建模与求解；另一方面，真实运筹建模高度依赖变量定义、约束设计与目标函数之间的整体一致性，其推理过程往往呈现出强步骤依赖和强耦合特征，远非算出一个正确答案所能覆盖。

正是在这一张力之下，当前运筹建模大模型研究逐渐暴露出一个核心困境：模型在求解器层面得到正确结果，并不意味着其完成了正确的建模。在现有主流训练范式中，无论是仅依据最终求解结果进行奖励，还是对中间步骤进行局部、逐步的过程监督，都难以准确刻画运筹建模这种长链条推理任务的真实质量。

这种监督信号与任务本质之间的错位，使得建模错误可能被掩盖，甚至被反复强化，逐渐成为大模型走向工业级运筹优化应用的关键瓶颈。在这样的研究背景下，来自上海交通大学智能计算研究院葛冬冬、林江浩研究团队提出了《StepORLM: A Self-Evolving Framework with Generative Process Supervision for Operations Research Language Models》。

这项研究并未仅从模型规模或数据量入手，而是从训练范式本身出发，系统性反思了结果奖励与传统过程监督在运筹建模任务中的根本局限，并提出了一种由策略模型与生成式过程奖励模型（GenPRM）协同进化的自进化训练框架。通过将最终求解结果与对完整推理过程的回顾式、全局评估相结合，StepORLM 试图引导模型真正学习如何构建一致、可靠的运筹优化模型，而不仅仅是生成一个可行解。

论文地址：https://arxiv.org/abs/2509.22558

小模型，赢在方法

在实验评估方面，这项研究在 6 个具有代表性的运筹优化基准数据集上对所提出的方法进行了系统测试，这些数据集涵盖了从相对简单的线性规划问题到高复杂度、贴近真实应用场景的工业级混合整数规划问题，具体包括 NL4Opt、MAMO（EasyLP 与 ComplexLP）、NLP4LP、ComplexOR、IndustryOR 以及 ReSocratic。

所有实验统一采用 Pass@1 accuracy 作为评价指标，即模型仅生成一次完整的解题轨迹，并通过外部 OR 求解器进行验证，只有当生成的代码能够成功执行、建模过程正确且最终结果被求解器判定为可行且最优时，才被视为一次成功。这一评价标准对模型提出了较高要求，不仅考察最终数值结果的正确性，也严格约束了建模逻辑和实现层面的可靠性。

再看实验结果，在与不同类别方法的对比实验中，StepORLM 展现出显著优势。首先，与零样本通用大语言模型相比，仅有 8B 参数规模的 StepORLM 在平均准确率上明显超过了 DeepSeek-V3（671B）和 Qwen2.5-72B 等超大模型，并全面优于 GPT-4o 的零样本表现，尤其在 ComplexOR 和 IndustryOR 等高难度场景中优势更加突出。

这一结果表明，在运筹优化建模任务中，模型参数规模本身已不再是决定性因素，训练范式与监督信号设计才是性能提升的关键。

其次，与现有专门针对 OR 任务进行微调的模型相比，StepORLM 在所有基准数据集上均取得了更优结果，且在 NLP4LP、ComplexOR 和 ReSocratic 等高度依赖多步骤推理正确性的任务中提升尤为明显，这进一步说明其性能增益并非来源于更多或更大规模的数据，而主要得益于训练过程中引入了更高质量、更符合任务本质的监督信号。

进一步地，与多种 agentic method 推理方法（如 CoT、Chain-of-Experts、OptiMUS 和 CAFA）相比，StepORLM 仅通过单次生成就能取得更稳定的表现和更少的建模错误。其根本原因在于，agent 方法主要在推理阶段尝试对已生成的结果进行修正，而 StepORLM 则通过在训练阶段引入过程级监督，从根源上减少了错误推理路径被模型学习和强化的可能性。

此外，研究还评估了将共同进化得到的生成式过程奖励模型引入推理阶段、作为验证器的效果。实验结果显示，当 StepORLM 与 GenPRM 结合使用时，其平均 Pass@1 准确率可进一步提升至 85.6%，并在最具挑战性的 ComplexOR 和 IndustryOR 数据集上分别取得了约 9.9% 和 9.5% 的显著增益。

更为重要的是，GenPRM 并不只对 StepORLM 有效，当其与其他运筹优化模型（如 ORLM）结合使用时，同样能够带来接近 10% 的性能提升，这表明 GenPRM 学到的是模型无关的运筹推理判据，而非仅针对某一特定模型的启发式规则。

最后，通过一系列消融实验，研究验证了各个关键组件在整体框架中的必要性：移除 warm-up 阶段的监督微调会导致性能大幅下降，取消自进化训练会使模型性能迅速停滞，冻结 GenPRM 不再进化或用普通 DPO 替代加权 DPO 均会削弱学习效果。

同时，训练过程分析结果也表明，模型性能的提升是随着自进化迭代逐步累积的，而并非通过一次监督微调即可达到最终水平。

从偶然正确，到系统可靠

这项研究针对大语言模型在运筹优化建模任务中存在的可靠性问题展开，研究团队指出，现有方法主要存在两类根本性缺陷。

第一类是结果导向奖励的信用分配问题（Credit Assignment Problem），即仅依据外部求解器是否成功对模型进行奖励。在这种情况下，只要模型最终得到一个可行且正确的解，即便中间推理过程存在明显错误，也会被强化。

这在运筹场景中尤为危险，例如漏掉某个较松的约束、变量定义不严谨等错误，可能在特定实例里不影响最优值，却会让模型误以为“这类建模也行”，从而把不稳定甚至错误的建模逻辑固化下来。

第二类缺陷来自传统判别式过程监督的短视性（Myopic Supervision），这类方法通常对推理过程中的每一步进行独立评估，难以理解步骤之间的依赖关系，也无法判断某些早期决策在整体建模语境下是否合理。

然而，运筹优化建模本质上是一种步骤之间高度依赖、强耦合的长链条推理任务，局部、割裂的监督信号难以准确反映整体推理质量。

针对上述问题，研究人员提出了 StepORLM 的整体训练框架，这个框架采用“两阶段训练 + 自进化闭环”的设计思路。在第一阶段的 warm-up 过程中，研究团队旨在构建一个高质量的初始策略模型，使其具备基本的运筹优化建模能力，能够输出结构化、多步骤的推理过程，并避免在建模和代码生成阶段出现大量随意性错误。

为此，研究人员利用教师模型（GPT-4o）自动生成运筹优化问题，并通过改写、单位转换和参数缩放等方式增强问题多样性。随后，教师模型为每个问题生成完整的推理轨迹，覆盖问题分析、变量定义、目标函数构建、约束设计、数学模型表述以及求解代码实现等关键步骤。

所有生成轨迹均需经过严格验证，包括代码执行以及外部 OR 求解器对可行性、最优性和执行正确性的检查。若验证失败，系统会自动将反馈返回给教师模型进行修正，直至通过验证或达到重试上限。最终，这个阶段构建了由问题及其对应的完整且正确推理轨迹组成的数据集，用于对策略模型进行监督微调。

在此基础上，这项研究进入第二阶段，即策略模型与生成式过程奖励模型（GenPRM）协同进化的自进化训练阶段，这也是研究团队提出的核心创新。雷峰网

在这个阶段，系统同时维护两个模型：策略模型负责生成完整的 OR 解题轨迹，而 GenPRM 则从全局视角对整条推理过程进行回顾式评估，判断各个步骤在整体建模逻辑中的合理性。与传统过程奖励模型不同，GenPRM 并非对单个步骤进行简单打分，而是具备推理与综合判断能力，能够捕捉步骤之间的依赖关系。

在每一轮训练迭代中，策略模型针对同一问题生成多条候选解题轨迹，并引入双源反馈机制进行评估。一方面，研究人员通过外部求解器为每条轨迹提供最终结果的正确性反馈；另一方面，GenPRM 对整条推理过程进行评价，衡量不同轨迹在过程层面的质量。

在此基础上，不同轨迹被两两比较以构造偏好对，其中求解器验证成功的轨迹优于失败的轨迹，而在结果相同的情况下，则由过程质量更高的轨迹胜出。研究团队进一步引入加权的 Direct Preference Optimization 方法，对不同偏好对赋予不同权重，从而区分严重建模错误与细微推理改进，并据此更新策略模型。

与此同时，GenPRM 也利用经求解器验证的高质量推理轨迹进行持续监督微调，使其评估标准逐步变得更加准确和严格。

随着训练迭代的推进，策略模型生成的轨迹质量不断提升，反过来为 GenPRM 提供更高质量的训练样本，而不断进化的 GenPRM 又能够为策略模型提供更精确的过程反馈，从而在二者之间形成稳定的正反馈闭环，推动整个系统在自进化过程中持续提升运筹优化建模能力。

一种可迁移的训练范式

在实验结果的基础上，这项研究在方法论和应用层面均具有重要意义。首先，从方法论角度来看，研究团队明确指出并通过实证验证了一个关键认识：在运筹优化这类具有强步骤依赖特征的任务中，奖励模型本身若缺乏推理能力，将难以为策略模型提供有效监督。雷峰网

传统方法往往假设最终结果正确即可反映推理质量，或认为通过对中间步骤进行逐步、局部打分便能弥补结果奖励的不足，而这项研究表明，这两种监督方式在运筹建模场景下均存在系统性偏差。

由于运筹建模中各步骤之间高度耦合，局部正确并不等价于全局一致，只有具备整体理解能力的过程监督，才能有效缓解归因错误和短视问题。

其次，在运筹优化与大语言模型结合的研究领域中，这项研究显著提升了模型在建模正确性、约束完整性以及实际应用可靠性等方面的表现。研究团队通过引入过程级监督与自进化训练机制，使模型不仅能够生成形式正确的规划表达式，还能够构建逻辑一致、可被求解器稳定执行的完整运筹优化模型，从而推动大语言模型从“会写线性规划”向“会进行运筹建模”转变。

进一步而言，这项研究提出的训练范式对其他复杂推理任务同样具有启发意义。其强调的整体化、回顾式过程监督思想，可推广至数学证明、代码生成、科学建模以及其他长链条决策任务，为解决强依赖推理场景中监督信号失真的问题提供了一种具有普适性的思路。

构建 StepORLM 的人

这篇论文的第一作者为周宸宇，他目前是上海交通大学智能计算研究院博士生，导师为叶荫宇教授和葛冬冬教授，研究方向聚焦于大语言模型与运筹优化、复杂推理任务及其训练方法。

他的研究兴趣还涵盖强化学习与区块链等方向，曾获得 ACM-ICPC 亚洲区域赛金牌，并在 ICLR、WWW、CSCW 等国际会议上发表多篇学术论文。

除学术研究外，周宸宇具有较为丰富的产业与工程实践背景，曾在杉数科技、腾讯、美团等公司从事与人工智能和优化相关的研究或技术工作，并在量化投资与金融科技领域积累了实践经验。

参考链接：https://0xzhouchenyu.github.io

论文的通讯录作者为林江浩，2025 年博士毕业于上海交通大学计算机科学与技术专业，现任上海交通大学安泰经济与管理学院助理教授，研究方向包括大语言模型和 AI 智能体，以及此类技术在推荐系统、运筹优化、智能商务等交叉领域的应用。

学术方面，他已累计发表国际学术论文 40 余篇，研究成果发表于 ICLR、NeurIPS、KDD、WWW、TOIS 等国际顶级会议与期刊，获得两项最佳论文奖，其中 1 篇论文入选 ESI 全球 Top 1% 高被引论文，在相关研究领域具有较高的学术影响力。

参考链接：https://linjianghao.com

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.