网易首页 > 网易号 > 正文 申请入驻

上交大智能计算研究院论文:不只算对答案,大模型如何真正学会运筹建模丨ICLR 2026

0
分享至

在大语言模型逐步从通用推理工具走向专业领域应用的过程中,运筹优化(OR)成为一个极具吸引力、同时也极具挑战性的方向。

一方面,运筹优化问题天然具备清晰的数学结构和可验证的求解结果,看似非常适合由模型自动完成建模与求解;另一方面,真实运筹建模高度依赖变量定义、约束设计与目标函数之间的整体一致性,其推理过程往往呈现出强步骤依赖和强耦合特征,远非算出一个正确答案所能覆盖。

正是在这一张力之下,当前运筹建模大模型研究逐渐暴露出一个核心困境:模型在求解器层面得到正确结果,并不意味着其完成了正确的建模。在现有主流训练范式中,无论是仅依据最终求解结果进行奖励,还是对中间步骤进行局部、逐步的过程监督,都难以准确刻画运筹建模这种长链条推理任务的真实质量。

这种监督信号与任务本质之间的错位,使得建模错误可能被掩盖,甚至被反复强化,逐渐成为大模型走向工业级运筹优化应用的关键瓶颈。在这样的研究背景下,来自上海交通大学智能计算研究院葛冬冬、林江浩研究团队提出了《StepORLM: A Self-Evolving Framework with Generative Process Supervision for Operations Research Language Models》。

这项研究并未仅从模型规模或数据量入手,而是从训练范式本身出发,系统性反思了结果奖励与传统过程监督在运筹建模任务中的根本局限,并提出了一种由策略模型与生成式过程奖励模型(GenPRM)协同进化的自进化训练框架。通过将最终求解结果与对完整推理过程的回顾式、全局评估相结合,StepORLM 试图引导模型真正学习如何构建一致、可靠的运筹优化模型,而不仅仅是生成一个可行解。


论文地址:https://arxiv.org/abs/2509.22558

小模型,赢在方法

在实验评估方面,这项研究在 6 个具有代表性的运筹优化基准数据集上对所提出的方法进行了系统测试,这些数据集涵盖了从相对简单的线性规划问题到高复杂度、贴近真实应用场景的工业级混合整数规划问题,具体包括 NL4Opt、MAMO(EasyLP 与 ComplexLP)、NLP4LP、ComplexOR、IndustryOR 以及 ReSocratic。

所有实验统一采用 Pass@1 accuracy 作为评价指标,即模型仅生成一次完整的解题轨迹,并通过外部 OR 求解器进行验证,只有当生成的代码能够成功执行、建模过程正确且最终结果被求解器判定为可行且最优时,才被视为一次成功。这一评价标准对模型提出了较高要求,不仅考察最终数值结果的正确性,也严格约束了建模逻辑和实现层面的可靠性。

再看实验结果,在与不同类别方法的对比实验中,StepORLM 展现出显著优势。首先,与零样本通用大语言模型相比,仅有 8B 参数规模的 StepORLM 在平均准确率上明显超过了 DeepSeek-V3(671B)和 Qwen2.5-72B 等超大模型,并全面优于 GPT-4o 的零样本表现,尤其在 ComplexOR 和 IndustryOR 等高难度场景中优势更加突出。

这一结果表明,在运筹优化建模任务中,模型参数规模本身已不再是决定性因素,训练范式与监督信号设计才是性能提升的关键。

其次,与现有专门针对 OR 任务进行微调的模型相比,StepORLM 在所有基准数据集上均取得了更优结果,且在 NLP4LP、ComplexOR 和 ReSocratic 等高度依赖多步骤推理正确性的任务中提升尤为明显,这进一步说明其性能增益并非来源于更多或更大规模的数据,而主要得益于训练过程中引入了更高质量、更符合任务本质的监督信号。

进一步地,与多种 agentic method 推理方法(如 CoT、Chain-of-Experts、OptiMUS 和 CAFA)相比,StepORLM 仅通过单次生成就能取得更稳定的表现和更少的建模错误。其根本原因在于,agent 方法主要在推理阶段尝试对已生成的结果进行修正,而 StepORLM 则通过在训练阶段引入过程级监督,从根源上减少了错误推理路径被模型学习和强化的可能性。


此外,研究还评估了将共同进化得到的生成式过程奖励模型引入推理阶段、作为验证器的效果。实验结果显示,当 StepORLM 与 GenPRM 结合使用时,其平均 Pass@1 准确率可进一步提升至 85.6%,并在最具挑战性的 ComplexOR 和 IndustryOR 数据集上分别取得了约 9.9% 和 9.5% 的显著增益。

更为重要的是,GenPRM 并不只对 StepORLM 有效,当其与其他运筹优化模型(如 ORLM)结合使用时,同样能够带来接近 10% 的性能提升,这表明 GenPRM 学到的是模型无关的运筹推理判据,而非仅针对某一特定模型的启发式规则。


最后,通过一系列消融实验,研究验证了各个关键组件在整体框架中的必要性:移除 warm-up 阶段的监督微调会导致性能大幅下降,取消自进化训练会使模型性能迅速停滞,冻结 GenPRM 不再进化或用普通 DPO 替代加权 DPO 均会削弱学习效果。


同时,训练过程分析结果也表明,模型性能的提升是随着自进化迭代逐步累积的,而并非通过一次监督微调即可达到最终水平。


从偶然正确,到系统可靠

这项研究针对大语言模型在运筹优化建模任务中存在的可靠性问题展开,研究团队指出,现有方法主要存在两类根本性缺陷。

第一类是结果导向奖励的信用分配问题(Credit Assignment Problem),即仅依据外部求解器是否成功对模型进行奖励。在这种情况下,只要模型最终得到一个可行且正确的解,即便中间推理过程存在明显错误,也会被强化。

这在运筹场景中尤为危险,例如漏掉某个较松的约束、变量定义不严谨等错误,可能在特定实例里不影响最优值,却会让模型误以为“这类建模也行”,从而把不稳定甚至错误的建模逻辑固化下来。

第二类缺陷来自传统判别式过程监督的短视性(Myopic Supervision),这类方法通常对推理过程中的每一步进行独立评估,难以理解步骤之间的依赖关系,也无法判断某些早期决策在整体建模语境下是否合理。

然而,运筹优化建模本质上是一种步骤之间高度依赖、强耦合的长链条推理任务,局部、割裂的监督信号难以准确反映整体推理质量。

针对上述问题,研究人员提出了 StepORLM 的整体训练框架,这个框架采用“两阶段训练 + 自进化闭环”的设计思路。在第一阶段的 warm-up 过程中,研究团队旨在构建一个高质量的初始策略模型,使其具备基本的运筹优化建模能力,能够输出结构化、多步骤的推理过程,并避免在建模和代码生成阶段出现大量随意性错误。

为此,研究人员利用教师模型(GPT-4o)自动生成运筹优化问题,并通过改写、单位转换和参数缩放等方式增强问题多样性。随后,教师模型为每个问题生成完整的推理轨迹,覆盖问题分析、变量定义、目标函数构建、约束设计、数学模型表述以及求解代码实现等关键步骤。

所有生成轨迹均需经过严格验证,包括代码执行以及外部 OR 求解器对可行性、最优性和执行正确性的检查。若验证失败,系统会自动将反馈返回给教师模型进行修正,直至通过验证或达到重试上限。最终,这个阶段构建了由问题及其对应的完整且正确推理轨迹组成的数据集,用于对策略模型进行监督微调。


在此基础上,这项研究进入第二阶段,即策略模型与生成式过程奖励模型(GenPRM)协同进化的自进化训练阶段,这也是研究团队提出的核心创新。雷峰网

在这个阶段,系统同时维护两个模型:策略模型负责生成完整的 OR 解题轨迹,而 GenPRM 则从全局视角对整条推理过程进行回顾式评估,判断各个步骤在整体建模逻辑中的合理性。与传统过程奖励模型不同,GenPRM 并非对单个步骤进行简单打分,而是具备推理与综合判断能力,能够捕捉步骤之间的依赖关系。

在每一轮训练迭代中,策略模型针对同一问题生成多条候选解题轨迹,并引入双源反馈机制进行评估。一方面,研究人员通过外部求解器为每条轨迹提供最终结果的正确性反馈;另一方面,GenPRM 对整条推理过程进行评价,衡量不同轨迹在过程层面的质量。

在此基础上,不同轨迹被两两比较以构造偏好对,其中求解器验证成功的轨迹优于失败的轨迹,而在结果相同的情况下,则由过程质量更高的轨迹胜出。研究团队进一步引入加权的 Direct Preference Optimization 方法,对不同偏好对赋予不同权重,从而区分严重建模错误与细微推理改进,并据此更新策略模型。


与此同时,GenPRM 也利用经求解器验证的高质量推理轨迹进行持续监督微调,使其评估标准逐步变得更加准确和严格。

随着训练迭代的推进,策略模型生成的轨迹质量不断提升,反过来为 GenPRM 提供更高质量的训练样本,而不断进化的 GenPRM 又能够为策略模型提供更精确的过程反馈,从而在二者之间形成稳定的正反馈闭环,推动整个系统在自进化过程中持续提升运筹优化建模能力。


一种可迁移的训练范式

在实验结果的基础上,这项研究在方法论和应用层面均具有重要意义。首先,从方法论角度来看,研究团队明确指出并通过实证验证了一个关键认识:在运筹优化这类具有强步骤依赖特征的任务中,奖励模型本身若缺乏推理能力,将难以为策略模型提供有效监督。雷峰网

传统方法往往假设最终结果正确即可反映推理质量,或认为通过对中间步骤进行逐步、局部打分便能弥补结果奖励的不足,而这项研究表明,这两种监督方式在运筹建模场景下均存在系统性偏差。

由于运筹建模中各步骤之间高度耦合,局部正确并不等价于全局一致,只有具备整体理解能力的过程监督,才能有效缓解归因错误和短视问题。

其次,在运筹优化与大语言模型结合的研究领域中,这项研究显著提升了模型在建模正确性、约束完整性以及实际应用可靠性等方面的表现。研究团队通过引入过程级监督与自进化训练机制,使模型不仅能够生成形式正确的规划表达式,还能够构建逻辑一致、可被求解器稳定执行的完整运筹优化模型,从而推动大语言模型从“会写线性规划”向“会进行运筹建模”转变。

进一步而言,这项研究提出的训练范式对其他复杂推理任务同样具有启发意义。其强调的整体化、回顾式过程监督思想,可推广至数学证明、代码生成、科学建模以及其他长链条决策任务,为解决强依赖推理场景中监督信号失真的问题提供了一种具有普适性的思路。

构建 StepORLM 的人

这篇论文的第一作者为周宸宇,他目前是上海交通大学智能计算研究院博士生,导师为叶荫宇教授和葛冬冬教授,研究方向聚焦于大语言模型与运筹优化、复杂推理任务及其训练方法。

他的研究兴趣还涵盖强化学习与区块链等方向,曾获得 ACM-ICPC 亚洲区域赛金牌,并在 ICLR、WWW、CSCW 等国际会议上发表多篇学术论文。

除学术研究外,周宸宇具有较为丰富的产业与工程实践背景,曾在杉数科技、腾讯、美团等公司从事与人工智能和优化相关的研究或技术工作,并在量化投资与金融科技领域积累了实践经验。


参考链接:https://0xzhouchenyu.github.io

论文的通讯录作者为林江浩,2025 年博士毕业于上海交通大学计算机科学与技术专业,现任上海交通大学安泰经济与管理学院助理教授,研究方向包括大语言模型和 AI 智能体,以及此类技术在推荐系统、运筹优化、智能商务等交叉领域的应用。

学术方面,他已累计发表国际学术论文 40 余篇,研究成果发表于 ICLR、NeurIPS、KDD、WWW、TOIS 等国际顶级会议与期刊,获得两项最佳论文奖,其中 1 篇论文入选 ESI 全球 Top 1% 高被引论文,在相关研究领域具有较高的学术影响力。


参考链接:https://linjianghao.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
萝莉岛吃人真相

萝莉岛吃人真相

哲空空
2026-02-03 16:42:15
成都个别领导的风险,比刘虎的要大得多

成都个别领导的风险,比刘虎的要大得多

不主流讲话
2026-02-03 15:18:01
刘虎、巫英蛟被抓一案,知名律师几点思考

刘虎、巫英蛟被抓一案,知名律师几点思考

记录刘杰
2026-02-03 13:45:03
乌军战俘成功说服看守自己的俄军投降!共同返回乌克兰

乌军战俘成功说服看守自己的俄军投降!共同返回乌克兰

项鹏飞
2026-02-03 18:14:02
挪威王储妃与爱泼斯坦暧昧邮件曝光,“灰姑娘”童话破灭

挪威王储妃与爱泼斯坦暧昧邮件曝光,“灰姑娘”童话破灭

新民周刊
2026-02-03 20:25:47
萝莉岛大雷出现!比想象中炸裂,牵扯多国总统,难怪爱泼斯坦必死

萝莉岛大雷出现!比想象中炸裂,牵扯多国总统,难怪爱泼斯坦必死

北纬的咖啡豆
2026-02-02 22:46:22
演员马如龙49岁儿子在家中去世:做完健检回家倒地,送医抢救不治

演员马如龙49岁儿子在家中去世:做完健检回家倒地,送医抢救不治

半岛晨报
2026-02-03 21:00:03
特斯拉把电池制造的“圣杯”搞定了

特斯拉把电池制造的“圣杯”搞定了

观察者网
2026-02-03 08:07:05
彻底重建!灰熊完成4换7交易,杰克逊比莫兰特先一步离队

彻底重建!灰熊完成4换7交易,杰克逊比莫兰特先一步离队

移动挡拆
2026-02-04 05:32:11
警方通报夫妻网购娃娃菜食用中毒事件:2人涉嫌敲诈勒索罪已被采取刑事强制措施

警方通报夫妻网购娃娃菜食用中毒事件:2人涉嫌敲诈勒索罪已被采取刑事强制措施

界面新闻
2026-02-03 22:38:45
噩耗传来!曝武汉失联16岁男学生身亡,细节痛心,母亲发声引争议

噩耗传来!曝武汉失联16岁男学生身亡,细节痛心,母亲发声引争议

大鱼简科
2026-02-03 14:16:54
现在这情况,普通人崩溃早晚的事。

现在这情况,普通人崩溃早晚的事。

爱吃糖的猫cat
2026-02-03 18:31:35
交易已达成,公牛、森林狼、活塞达成涉及杰登·艾维的三方交易

交易已达成,公牛、森林狼、活塞达成涉及杰登·艾维的三方交易

好火子
2026-02-04 04:12:27
这跟不穿有啥区别?格莱美红毯女星穿衣大胆,连美国网友都无语了

这跟不穿有啥区别?格莱美红毯女星穿衣大胆,连美国网友都无语了

洲洲影视娱评
2026-02-02 17:11:05
夫妻网购娃娃菜中毒大反转!是丈夫投毒,对妻子灭口,商家被坑惨

夫妻网购娃娃菜中毒大反转!是丈夫投毒,对妻子灭口,商家被坑惨

离离言几许
2026-02-03 15:12:39
阿森纳1-0切尔西,赛后评分:阿森纳6号排第一

阿森纳1-0切尔西,赛后评分:阿森纳6号排第一

侧身凌空斩
2026-02-04 05:55:50
2死3失联!这座桥为何在众目睽睽之下突然垮塌?

2死3失联!这座桥为何在众目睽睽之下突然垮塌?

民言民语
2026-02-03 08:45:05
中国香港“保姆车”冠军变了:日系MPV让位,国产车冲到了第一

中国香港“保姆车”冠军变了:日系MPV让位,国产车冲到了第一

柳先说
2026-02-03 17:12:14
俄罗斯出口石油搞双标,卖给印度35,卖给中国80,这到底是忘恩负义,还是有别的隐情?

俄罗斯出口石油搞双标,卖给印度35,卖给中国80,这到底是忘恩负义,还是有别的隐情?

史海孤雁
2026-02-02 17:06:22
“爱泼斯坦案”诡异录像曝光 女孩穿水手服跪地

“爱泼斯坦案”诡异录像曝光 女孩穿水手服跪地

看看新闻Knews
2026-02-03 20:15:03
2026-02-04 06:27:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
68479文章数 656065关注度
往期回顾 全部

科技要闻

1.25万亿美元!xAI员工赢麻了

头条要闻

挪威王储妃给爱泼斯坦发暧昧邮件:你让我兴奋

头条要闻

挪威王储妃给爱泼斯坦发暧昧邮件:你让我兴奋

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

大S逝世一周年 S家没通知大S子女惹争议

财经要闻

中央一号文件:扎实推进乡村全面振兴

汽车要闻

上汽决定不再等那个“正确答案”了

态度原创

数码
手机
旅游
游戏
艺术

数码要闻

机械师推出新款24寸显示器:1080P 144Hz IPS屏仅449元

手机要闻

三星Galaxy Buds4/Pro渲染图曝光,预计2月25日与S26系列一同发布

旅游要闻

避开网红坑!嘉峪关真正的宝藏在这

NS成任天堂最畅销游戏主机 / TGA 2026 颁奖典礼定档

艺术要闻

一篇文章看懂“传统吉祥图案”的寓意

无障碍浏览 进入关怀版