网易首页 > 网易号 > 正文 申请入驻

香港中文大学STORM实现小模型优化建模突破

0
分享至


这项由香港中文大学(深圳)的唐正阳、叶子涵等研究团队领导的研究,联合上海财经大学、南方科技大学以及阿里巴巴Qwen团队,发表于2025年1月的预印本论文中。有兴趣深入了解的读者可以通过论文编号arXiv:2510.04204v1查询完整论文。这项研究解决了一个困扰人工智能领域的重要问题:如何让小型AI模型在复杂的优化建模任务上达到大型模型的表现水平。

优化建模就像为企业制定最佳决策方案。比如一家物流公司需要决定在哪里建仓库、派多少卡车送货,才能以最低成本满足所有客户需求。传统上,这需要资深专家花费大量时间分析问题、建立数学模型,然后编写复杂的程序来求解。随着AI技术的发展,研究者们希望让AI自动完成这个过程,但面临一个棘手的现实:要获得好效果,通常需要使用参数量达到数千亿的超大型模型,这不仅成本高昂,普通研究机构和公司也难以负担。

研究团队发现了一个关键问题。现有的训练方法就像强迫一个天生善于思考的学生死记硬背标准答案,结果反而削弱了他的思考能力。大型推理模型天生具备多步骤思考和自我修正的能力,但传统的训练方法却试图让它们像早期简单模型那样,看到问题直接给出答案,完全忽略了它们的推理优势。

为了解决这个矛盾,研究团队开发了名为CALM(轻量化修正适应)的训练框架。这个方法的核心思想是保护和增强模型的原生推理能力,而不是破坏它。CALM采用了"推理者-干预者"协作模式,就像一个有经验的老师在旁边观察学生解题,当发现学生走错方向时,及时给出简短的提示,引导学生回到正确轨道。

在CALM框架中,推理模型像一个正在学习的学生,按照自己的思维方式解决优化问题。同时,一个专家级的干预模型充当老师的角色,实时监控推理过程。当发现推理出现偏差时,干预者会注入精准的提示信息。关键在于这些干预非常轻量化,只修改不到2.6%的生成内容,但却能产生高质量的训练数据。

研究团队通过深入分析发现,大型推理模型在优化建模中主要存在两类错误。第一类是"代码利用不信任",即模型倾向于用自然语言手工计算,而不是相信和使用强大的求解器工具。这就像一个学生明明有计算器,却坚持心算复杂的数学题。第二类是"运筹学专业知识缺乏",即对优化建模的专业概念和约束条件理解不够深入。

针对这些问题,CALM设计了相应的干预策略。对于代码利用不信任问题,当模型试图手工求解时,干预者会提示"等等,我可以使用求解库让计算器找到最优解"。对于专业知识缺乏问题,比如模型忽略了整数约束,干预者会提示"汽车数量的小数值是不现实的,这提示我遗漏了整数约束"。

CALM的工作流程分为三个阶段。首先是问题诊断阶段,系统分析模型在不同难度问题上的错误模式。研究发现,在简单问题上,代码利用不信任是主要瓶颈;在复杂问题上,专业知识缺乏成为主要障碍。接着是轻量化提示阶段,通过迭代提示循环逐步修正错误轨迹。最后是高质量轨迹筛选阶段,只保留既正确又被干预者认为完美的推理过程作为训练数据。

基于CALM框架,研究团队开发了两阶段训练流程。第一阶段是监督微调,让模型在高质量轨迹上学习正确的推理习惯,这个阶段主要起到行为校准的作用。第二阶段是强化学习,让模型通过与求解器环境的交互,自主掌握优化建模技能。最终得到的模型被命名为STORM(智能思考优化推理模型)。

研究结果令人瞩目。仅有40亿参数的STORM模型在五个主流优化建模基准测试上取得了68.9%的平均准确率,这个成绩与拥有6710亿参数的大型模型相当。这意味着STORM用不到大型模型1%的参数量,就达到了相同的性能水平。这种巨大的参数效率提升为优化建模的普及应用开辟了新的可能性。

更深入的分析揭示了STORM成功的机制。通过对比实验发现,使用CALM训练的模型在强化学习阶段表现出更陡峭稳定的学习曲线,能够在相同计算预算内达到更高的性能上限。行为分析显示,STORM逐渐增加代码块的使用频率,同时减少冗长的自然语言计算,形成了计算驱动的推理模式。这种转变反映了从新手到专家的能力进化过程。

研究团队还观察到了有趣的"两阶段治愈过程"。监督微调阶段主要减少运筹学专业知识缺乏的错误,而强化学习阶段更有效地解决代码利用不信任问题。这两个阶段相互补充,协同提升模型的整体能力。

这项研究的意义远超技术层面。它证明了通过精心设计的训练方法,小型模型可以在特定领域达到大型模型的性能。这不仅大幅降低了优化建模AI应用的门槛,也为其他专业领域的AI模型训练提供了新思路。更重要的是,CALM框架强调保护和增强模型原生能力,而非强行改造,这种理念可能会影响未来AI训练方法的发展方向。

对于实际应用而言,这项成果意味着更多企业和研究机构将能够负担得起高质量的优化建模AI助手。从供应链优化到资源分配,从生产调度到投资组合管理,STORM及类似技术有望大幅提升各行业的决策效率和质量。同时,由于模型规模的大幅缩减,部署和维护成本也将显著降低,为优化建模技术的广泛普及铺平了道路。

Q&A

Q1:CALM框架是什么?它如何提升小模型性能?

A:CALM是一种轻量化修正适应训练框架,采用"推理者-干预者"协作模式。当AI模型在解决优化问题时出现错误,专家系统会给出精准提示,引导模型回到正确轨道。这种方法只修改不到2.6%的内容,却能生成高质量训练数据,最终让40亿参数的小模型达到6710亿参数大模型的性能水平。

Q2:STORM模型在优化建模方面有什么突破?

A:STORM是基于CALM框架训练的优化推理模型,在五个主流基准测试上平均准确率达到68.9%,与大型模型性能相当但参数量仅为其1%。它能够自动将自然语言描述的优化问题转换为数学模型和可执行代码,大幅降低了专业优化建模的技术门槛。

Q3:这项研究对实际应用有什么价值?

A:这项研究显著降低了AI优化建模的应用成本,让更多企业和机构能够负担高质量的优化决策助手。在供应链管理、资源分配、生产调度等领域,STORM技术可以帮助自动制定最优方案,提升决策效率和质量,同时因为模型规模小,部署维护成本也大幅降低。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰去世后,死对头杜子建爆料节目互怼真相,哭着说彼此是知己

张雪峰去世后,死对头杜子建爆料节目互怼真相,哭着说彼此是知己

育学笔谈
2026-03-26 08:53:29
一瓶3块,爆卖2亿!喝一口能把人送走的广东神饮,让老表们疯抢了

一瓶3块,爆卖2亿!喝一口能把人送走的广东神饮,让老表们疯抢了

毒sir财经
2026-03-16 21:37:01
腿部是心梗的提示器?提醒:若腿部出现这4种表现,尽快就医

腿部是心梗的提示器?提醒:若腿部出现这4种表现,尽快就医

路医生健康科普
2026-03-16 22:10:03
香港同框名场面:林志玲脸肿如发面馒头,56岁陈松伶干瘪却赢麻

香港同框名场面:林志玲脸肿如发面馒头,56岁陈松伶干瘪却赢麻

冷紫葉
2026-03-26 16:33:29
多名大学校长炮轰机器人跳舞是哗众取宠

多名大学校长炮轰机器人跳舞是哗众取宠

上峰视点
2026-03-25 19:07:57
房子是上个月挂牌的,心是这个月凉透的!150万买的,现就这价?

房子是上个月挂牌的,心是这个月凉透的!150万买的,现就这价?

楠楠自语
2026-03-17 18:29:11
法国和浙江同为6000万人口,2025年法国创3万亿美元GDP,浙江呢?

法国和浙江同为6000万人口,2025年法国创3万亿美元GDP,浙江呢?

八斗小先生
2026-02-28 18:56:17
崩了,知名光伏公司大规模停产,大面积待岗!

崩了,知名光伏公司大规模停产,大面积待岗!

黯泉
2026-03-25 21:36:39
正式确定!CBA名将加盟浙江广厦,重返老东家,全力卫冕总冠军

正式确定!CBA名将加盟浙江广厦,重返老东家,全力卫冕总冠军

体坛瞎白话
2026-03-25 16:52:09
五大邻国做出抉择,亚洲大地震!美国知道:中国正在静待时机

五大邻国做出抉择,亚洲大地震!美国知道:中国正在静待时机

书写传奇
2026-03-26 04:45:22
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
现货黄金日内跌幅扩大至2%,报4415.49美元/盎司

现货黄金日内跌幅扩大至2%,报4415.49美元/盎司

每日经济新闻
2026-03-26 16:55:10
郑裕彤家族为什么不自救?不是说香港豪门隐形资产很多么?

郑裕彤家族为什么不自救?不是说香港豪门隐形资产很多么?

担扑
2026-03-26 17:02:51
伊朗军方强硬喊话美国 “别把你们的失败称为协议”

伊朗军方强硬喊话美国 “别把你们的失败称为协议”

新京报
2026-03-25 11:53:26
66岁大妈喜欢睡前泡脚,不久脑梗去世,专家怒斥:太无知了

66岁大妈喜欢睡前泡脚,不久脑梗去世,专家怒斥:太无知了

比利
2026-03-21 13:00:22
东契奇:六连客最满意的是从不放弃,布朗尼相比去年进步很大

东契奇:六连客最满意的是从不放弃,布朗尼相比去年进步很大

懂球帝
2026-03-26 11:13:10
杜月笙的识人术:只看对方的一个站姿,就能知道他是龙还是虫

杜月笙的识人术:只看对方的一个站姿,就能知道他是龙还是虫

千秋文化
2026-03-23 20:09:06
斩草除根!美以联合空袭打击伊朗伊斯法罕关键光电及导弹研究设施

斩草除根!美以联合空袭打击伊朗伊斯法罕关键光电及导弹研究设施

军迷战情室
2026-03-25 07:42:05
痛别!李幼平逝世

痛别!李幼平逝世

极目新闻
2026-03-26 13:31:27
凌晨4点 22亿对决!时隔10年巴西再战法国:熊皇vs姆巴佩

凌晨4点 22亿对决!时隔10年巴西再战法国:熊皇vs姆巴佩

叶青足球世界
2026-03-26 10:18:34
2026-03-26 21:28:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7746文章数 556关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
艺术
数码
教育
房产

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

艺术要闻

哪一座桥不是风景?

数码要闻

小米Book Pro 14超薄设计引爆市场!这家国产厂商立功了

教育要闻

来上课了——高考阅读难题大综合(细节+主旨+含义)(下)第1段

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

无障碍浏览 进入关怀版