网易首页 > 网易号 > 正文 申请入驻

香港中文大学STORM实现小模型优化建模突破

0
分享至


这项由香港中文大学(深圳)的唐正阳、叶子涵等研究团队领导的研究,联合上海财经大学、南方科技大学以及阿里巴巴Qwen团队,发表于2025年1月的预印本论文中。有兴趣深入了解的读者可以通过论文编号arXiv:2510.04204v1查询完整论文。这项研究解决了一个困扰人工智能领域的重要问题:如何让小型AI模型在复杂的优化建模任务上达到大型模型的表现水平。

优化建模就像为企业制定最佳决策方案。比如一家物流公司需要决定在哪里建仓库、派多少卡车送货,才能以最低成本满足所有客户需求。传统上,这需要资深专家花费大量时间分析问题、建立数学模型,然后编写复杂的程序来求解。随着AI技术的发展,研究者们希望让AI自动完成这个过程,但面临一个棘手的现实:要获得好效果,通常需要使用参数量达到数千亿的超大型模型,这不仅成本高昂,普通研究机构和公司也难以负担。

研究团队发现了一个关键问题。现有的训练方法就像强迫一个天生善于思考的学生死记硬背标准答案,结果反而削弱了他的思考能力。大型推理模型天生具备多步骤思考和自我修正的能力,但传统的训练方法却试图让它们像早期简单模型那样,看到问题直接给出答案,完全忽略了它们的推理优势。

为了解决这个矛盾,研究团队开发了名为CALM(轻量化修正适应)的训练框架。这个方法的核心思想是保护和增强模型的原生推理能力,而不是破坏它。CALM采用了"推理者-干预者"协作模式,就像一个有经验的老师在旁边观察学生解题,当发现学生走错方向时,及时给出简短的提示,引导学生回到正确轨道。

在CALM框架中,推理模型像一个正在学习的学生,按照自己的思维方式解决优化问题。同时,一个专家级的干预模型充当老师的角色,实时监控推理过程。当发现推理出现偏差时,干预者会注入精准的提示信息。关键在于这些干预非常轻量化,只修改不到2.6%的生成内容,但却能产生高质量的训练数据。

研究团队通过深入分析发现,大型推理模型在优化建模中主要存在两类错误。第一类是"代码利用不信任",即模型倾向于用自然语言手工计算,而不是相信和使用强大的求解器工具。这就像一个学生明明有计算器,却坚持心算复杂的数学题。第二类是"运筹学专业知识缺乏",即对优化建模的专业概念和约束条件理解不够深入。

针对这些问题,CALM设计了相应的干预策略。对于代码利用不信任问题,当模型试图手工求解时,干预者会提示"等等,我可以使用求解库让计算器找到最优解"。对于专业知识缺乏问题,比如模型忽略了整数约束,干预者会提示"汽车数量的小数值是不现实的,这提示我遗漏了整数约束"。

CALM的工作流程分为三个阶段。首先是问题诊断阶段,系统分析模型在不同难度问题上的错误模式。研究发现,在简单问题上,代码利用不信任是主要瓶颈;在复杂问题上,专业知识缺乏成为主要障碍。接着是轻量化提示阶段,通过迭代提示循环逐步修正错误轨迹。最后是高质量轨迹筛选阶段,只保留既正确又被干预者认为完美的推理过程作为训练数据。

基于CALM框架,研究团队开发了两阶段训练流程。第一阶段是监督微调,让模型在高质量轨迹上学习正确的推理习惯,这个阶段主要起到行为校准的作用。第二阶段是强化学习,让模型通过与求解器环境的交互,自主掌握优化建模技能。最终得到的模型被命名为STORM(智能思考优化推理模型)。

研究结果令人瞩目。仅有40亿参数的STORM模型在五个主流优化建模基准测试上取得了68.9%的平均准确率,这个成绩与拥有6710亿参数的大型模型相当。这意味着STORM用不到大型模型1%的参数量,就达到了相同的性能水平。这种巨大的参数效率提升为优化建模的普及应用开辟了新的可能性。

更深入的分析揭示了STORM成功的机制。通过对比实验发现,使用CALM训练的模型在强化学习阶段表现出更陡峭稳定的学习曲线,能够在相同计算预算内达到更高的性能上限。行为分析显示,STORM逐渐增加代码块的使用频率,同时减少冗长的自然语言计算,形成了计算驱动的推理模式。这种转变反映了从新手到专家的能力进化过程。

研究团队还观察到了有趣的"两阶段治愈过程"。监督微调阶段主要减少运筹学专业知识缺乏的错误,而强化学习阶段更有效地解决代码利用不信任问题。这两个阶段相互补充,协同提升模型的整体能力。

这项研究的意义远超技术层面。它证明了通过精心设计的训练方法,小型模型可以在特定领域达到大型模型的性能。这不仅大幅降低了优化建模AI应用的门槛,也为其他专业领域的AI模型训练提供了新思路。更重要的是,CALM框架强调保护和增强模型原生能力,而非强行改造,这种理念可能会影响未来AI训练方法的发展方向。

对于实际应用而言,这项成果意味着更多企业和研究机构将能够负担得起高质量的优化建模AI助手。从供应链优化到资源分配,从生产调度到投资组合管理,STORM及类似技术有望大幅提升各行业的决策效率和质量。同时,由于模型规模的大幅缩减,部署和维护成本也将显著降低,为优化建模技术的广泛普及铺平了道路。

Q&A

Q1:CALM框架是什么?它如何提升小模型性能?

A:CALM是一种轻量化修正适应训练框架,采用"推理者-干预者"协作模式。当AI模型在解决优化问题时出现错误,专家系统会给出精准提示,引导模型回到正确轨道。这种方法只修改不到2.6%的内容,却能生成高质量训练数据,最终让40亿参数的小模型达到6710亿参数大模型的性能水平。

Q2:STORM模型在优化建模方面有什么突破?

A:STORM是基于CALM框架训练的优化推理模型,在五个主流基准测试上平均准确率达到68.9%,与大型模型性能相当但参数量仅为其1%。它能够自动将自然语言描述的优化问题转换为数学模型和可执行代码,大幅降低了专业优化建模的技术门槛。

Q3:这项研究对实际应用有什么价值?

A:这项研究显著降低了AI优化建模的应用成本,让更多企业和机构能够负担高质量的优化决策助手。在供应链管理、资源分配、生产调度等领域,STORM技术可以帮助自动制定最优方案,提升决策效率和质量,同时因为模型规模小,部署维护成本也大幅降低。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

来科点谱
2026-01-23 11:08:02
为什么鸟窝大多开口朝上,遇上大雨怎么办?看看鸟儿多聪明

为什么鸟窝大多开口朝上,遇上大雨怎么办?看看鸟儿多聪明

半解智士
2026-01-19 20:34:56
神奇的“魔力鸟”!神奇的欧冠之夜!

神奇的“魔力鸟”!神奇的欧冠之夜!

五星体育
2026-01-29 14:21:29
1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

南权先生
2026-01-20 15:49:53
北京连下六道指令,陕西硬抗整整四年,最高指示:让749局来

北京连下六道指令,陕西硬抗整整四年,最高指示:让749局来

小哥很OK
2025-12-12 14:33:01
华裔政治家族,却遭特朗普清洗!特朗普如何扳倒“赵家人”?

华裔政治家族,却遭特朗普清洗!特朗普如何扳倒“赵家人”?

观察者海风
2026-01-20 15:14:58
内幕来了!中国雷达被正名,美媒:美军向委内瑞拉投下电磁脉冲弹

内幕来了!中国雷达被正名,美媒:美军向委内瑞拉投下电磁脉冲弹

安珈使者啊
2026-01-26 16:20:59
越查越有,释永信落网全家老底被扒,原来他才只是冰山一角!

越查越有,释永信落网全家老底被扒,原来他才只是冰山一角!

阿纂看事
2025-08-08 18:10:48
挪威惊爆内幕:若是特朗普吞并格陵兰,普京恐将闪电抢占斯瓦尔巴

挪威惊爆内幕:若是特朗普吞并格陵兰,普京恐将闪电抢占斯瓦尔巴

南宗历史
2026-01-29 14:21:52
郑州李文丽失联6天有结果:1月25日下午3点打捞出遗体,曾留封信

郑州李文丽失联6天有结果:1月25日下午3点打捞出遗体,曾留封信

观察鉴娱
2026-01-28 09:44:40
起风了!加拿大对华改口,禁止与中国签协定,65万吨芸苔子白买?

起风了!加拿大对华改口,禁止与中国签协定,65万吨芸苔子白买?

史智文道
2026-01-29 14:15:52
5连胜广东5消息!徐杰有望复出,大牌又在偷懒,奎因罕见批评球队

5连胜广东5消息!徐杰有望复出,大牌又在偷懒,奎因罕见批评球队

后仰大风车
2026-01-29 08:05:08
近期“热播剧”排个名:玉茗茶骨第2、太平年第8,第一杀疯了!

近期“热播剧”排个名:玉茗茶骨第2、太平年第8,第一杀疯了!

小椰的奶奶
2026-01-28 17:34:34
97年香港回归,大喊让英军“下岗”的指挥官,现在职位是啥级别?

97年香港回归,大喊让英军“下岗”的指挥官,现在职位是啥级别?

南书房
2026-01-28 18:50:03
被央视怒批、洋相百出、腹中空空,这几位“绝望的文盲”凭啥能火

被央视怒批、洋相百出、腹中空空,这几位“绝望的文盲”凭啥能火

娱说瑜悦
2025-12-13 12:24:22
小伙救人胸外按压600次按断女子六根肋骨,当事人丈夫:没这力度,她可能成植物人,恩情永远还不完

小伙救人胸外按压600次按断女子六根肋骨,当事人丈夫:没这力度,她可能成植物人,恩情永远还不完

大风新闻
2026-01-28 10:31:12
魔兽时光服P2阶段大爆料!首把风剑已掉落,年兽15分钟无限刷

魔兽时光服P2阶段大爆料!首把风剑已掉落,年兽15分钟无限刷

记录生活日常阿蜴
2026-01-29 13:09:53
击沉皇马,他的魔力还在继续

击沉皇马,他的魔力还在继续

西哇体育
2026-01-29 14:17:26
中超积分榜:申花津门虎-10分垫底,长春亚泰中甲-4分垫底

中超积分榜:申花津门虎-10分垫底,长春亚泰中甲-4分垫底

烧体坛
2026-01-29 13:38:46
李世民霸占杨妃后,当晚逼她做一件事,门外的史官记录得面红耳赤

李世民霸占杨妃后,当晚逼她做一件事,门外的史官记录得面红耳赤

铭记历史呀
2026-01-27 15:16:33
2026-01-29 15:52:51
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7046文章数 548关注度
往期回顾 全部

科技要闻

周亚辉的AI新赌局:国内太卷 出海另起炉灶

头条要闻

外媒:特朗普执政一年后 对华不友好国家正"转向"中国

头条要闻

外媒:特朗普执政一年后 对华不友好国家正"转向"中国

体育要闻

詹姆斯哭了!骑士视频致敬41岁超巨

娱乐要闻

张译不再隐瞒!公开回应退圈息影真相

财经要闻

金价狂飙,历史首次!

汽车要闻

车长超5米还带后轮转向 比亚迪海豹08/海狮08将亮相

态度原创

健康
教育
旅游
时尚
数码

耳石症分类型,症状大不同

教育要闻

“国家课程落地吴江行动丛书”发布!聚焦课改前沿,共探育人新路!

旅游要闻

华山景区:徒步登山线路暂时关闭

冬天大衣怎么穿才更好看?选好颜色、找对单品,高级简约又大气

数码要闻

这种电热水袋国家早已禁售:别再用了

无障碍浏览 进入关怀版