网易首页 > 网易号 > 正文 申请入驻

让AI替码农卷复杂任务,贾佳亚团队提出MoTCoder,准确率刷新SOTA

0
分享至

论文一作李靖瑶,香港中文大学博士生(DV Lab),师从贾佳亚教授。主要研究方向是大语言模型,包括模型预训练、后训练、推理优化。作者陈鹏光、夏彬等均为 DV Lab 成员。

大模型写代码早就是基操了,但让它写算法竞赛题或企业级系统代码,就像让只会煮泡面的人去做满汉全席 —— 生成的代码要么是 “铁板一块” 毫无章法,要么是 “一锅乱炖” 难以维护。

如何让大模型像工程师一样思考,用模块化思维拆解复杂问题?

近日,贾佳亚团队提出MoTCoder(Module-of-Thought Coder),通过创新的模块化思维指令微调(MoT Instruction Tuning),显著提升了模型在复杂编程任务中的准确率与可维护性。实验显示,在 APPS 和 CodeContests 等权威编程基准上,MoTCoder 的 pass@1 准确率直接刷新记录,甚至超越 SOTA 6%,让大模型在 “疯狂打码” 时更接近「人类智慧」。

  • 论文标题:MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks
  • 论文链接:https://arxiv.org/abs/2312.15960

目前,团队已发出程序员快乐包 —— 代码、模型与数据集通通开源,欢迎在线体验:

  • 代码库:https://github.com/dvlab-research/MoTCoder
  • 32B 模型:https://huggingface.co/JingyaoLi/MoTCoder-32B-V1.5
  • 7B 模型:https://huggingface.co/JingyaoLi/MoTCoder-7B-v1.5
  • 350K 训练数据集:https://huggingface.co/datasets/JingyaoLi/MoT-Code-350K

复杂编程的解耦神器

当前主流代码生成模型(如 Qwen2.5-Coder)生成的代码往往就是这种单块式的结构,虽然在简单任务上表现良好,但面对复杂场景时难掩缺陷:

  • 拆解复杂任务:不存在的!让它写个分布式系统,输出代码堪比灾难现场;
  • 维护成本爆炸:生成的代码注释比程序员(bu shi)头发还少,debug 时被同事怀疑是祖传咒语。

试想象一下,你让模型写个自动驾驶算法,结果它吐出几千行密密麻麻的代码,像一团乱麻根本无从下手。这就是传统模型的单块式代码 —— 把所有逻辑塞进一个函数,不讲章法地一锅乱炖。

图 1a: 传统模型生成的单块式代码

而 MoTCoder 则能 “遇招拆招”,把复杂任务拆成 “输入解析”、“核心算法”、“异常处理” 等标准化模块,像乐高积木般严丝合缝组装,每个模块还自带 “说明书”,强迫症患者看完都直呼舒适!

图 1b: MoTCoder 生成的模块化代码

图 2:MoTCoder 的两阶段模块化设计流程

MoTCoder 的三大核心突破

(1)性能开挂:复杂任务准确率刷新 SOTA

得益于模块化思维对复杂逻辑的拆解能力,在 APPS 数据集上,MoTCoder-32B 的 pass@1 超越同等规模模型 5.8%;在 CodeContests 数据集上,MoTCoder-32B 更是直接上演「屠榜」戏码,超越 SOTA 5.9%!

图 3:MoTCoder 的战斗力曲线

(2)大模型代码质检员

MoTCoder 通过多轮自我反思机制,能自动检测并修正代码错误。实验显示:

  • 未修正状态下,MoTCoder 可达到 SOTA 模型 5 轮人工修正后的效果
  • 开启自检后,准确率更进一步提升 4%

(3)代码质量全面碾压传统模型

通过专业的代码质量分析工具 Radon 对 APPS 和 CodeContests 数据集上的生成代码进行评估,MoTCoder 在所有难度级别中都保持了明显更高的可维护性指数(Maintainability Index)。

实验数据显示,相比普通微调模型和基线模型,MoTCoder 生成的代码具有更低的复杂度、更精简的代码量和更合理的注释比例。

程序员狂喜:简直好用哭了!

图 4:MoTCoder 生成的代码具有更优的可维护性特征

智能调度:简单题极简模式,难题乐高模式

这种优势源于 MoTCoder 的模块化训练方法,使生成的代码结构更清晰、逻辑更简明。在时间和内存消耗的对比中(图 5),MoTCoder 生成的代码展现出显著优势。虽然其运行时间与普通微调模型相当,但在内存占用上始终低于基准模型。这得益于 MoTCoder 对全局变量和函数局部变量的智能区分,能够及时释放未使用的内存资源。

图 5:MoTCoder 生成的代码具有更低的内存消耗

图 6:不同难度的代码函数数量与准确率关系

贾佳亚团队在开发过程中发现了一个有趣的现象(图 6):

- 入门题:函数数量增加,准确率反而下降(简单问题无需拆解)

- 面试题:函数数量变化对准确率影响较小(保持稳定)

- 竞赛题:函数数量与准确率呈正相关(复杂问题必须模块化)

MoTCoder 自带智能调度系统,问题复杂度决定了其模块化策略:面对两行代码就能搞定的题目,启动极简模式;而遭遇代码量堪比毕业论文的变态需求,则秒切乐高模式。而这种思维方式已达到人类工程师的解题路径。

这种特性也使得 MoTCoder 可覆盖从算法竞赛到工业级开发多个落地场景:

  • 算法竞赛:秒解 Codeforces/LeetCode 难题,生成带注释的标准答案;
  • 大型系统设计:自动生成微服务架构代码,接口清晰、模块解耦;
  • 企业级应用开发:生成可长期维护性的代码库,降低技术债务累积速度。

MoTCoder 让代码生成从 “功能实现” 跃迁至 “工程实践”,或许是时候重新定义智能编程了 —— 不仅要生成代码,更要生成好代码。贾佳亚团队表示,将继续深化智能编程的研究,并探索其在更多工业界场景的深度应用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

180视角
2026-03-26 11:52:12
我就不信张一山没有后悔过吗?这么美的前任拱手让出去了

我就不信张一山没有后悔过吗?这么美的前任拱手让出去了

喜欢历史的阿繁
2026-03-26 09:20:58
我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

乐悠悠娱乐
2026-03-26 10:27:07
俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

每日经济新闻
2026-03-26 15:53:05
汽车出海闯进新周期,广汽首个服务品牌GAC CARE捉住“决胜点”

汽车出海闯进新周期,广汽首个服务品牌GAC CARE捉住“决胜点”

功夫AUTO
2026-03-26 11:51:12
袁家军会见王兴兴

袁家军会见王兴兴

新京报政事儿
2026-03-26 16:45:34
张雪峰助理万霞:十年相伴,生死相隔最痛的人!

张雪峰助理万霞:十年相伴,生死相隔最痛的人!

天光破云来
2026-03-26 11:55:41
高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

沙雕小琳琳
2026-03-26 09:41:30
突发传闻:封锁霍尔木兹的伊朗关键人物被击毙

突发传闻:封锁霍尔木兹的伊朗关键人物被击毙

桂系007
2026-03-26 16:19:32
张雪峰猝然离世,办公室内景曝光,摆设奇怪,写真照被指像遗照,生前的话字字催泪

张雪峰猝然离世,办公室内景曝光,摆设奇怪,写真照被指像遗照,生前的话字字催泪

笔墨V
2026-03-26 14:53:51
伊朗:击中击落美以202架飞机;以方:坦格西里身亡,他负责封锁霍尔木兹!想快速抽身,特朗普:打伊朗不是战争,是“军事行动”

伊朗:击中击落美以202架飞机;以方:坦格西里身亡,他负责封锁霍尔木兹!想快速抽身,特朗普:打伊朗不是战争,是“军事行动”

每日经济新闻
2026-03-26 17:27:09
上海一女子“闪婚”拿到价值近千万房产99%份额,“闪离”后起诉分割房产,法院判了!

上海一女子“闪婚”拿到价值近千万房产99%份额,“闪离”后起诉分割房产,法院判了!

环球网资讯
2026-03-26 08:13:14
广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

洪观新闻
2026-03-26 10:56:49
伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

大象新闻
2026-03-26 09:45:03
比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

小金体坛大视野
2026-03-26 11:16:02
坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

南权先生
2026-03-25 15:25:11
突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

健康科普365
2026-03-26 09:57:24
引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

家传编辑部
2026-03-26 10:34:27
美团:2025年营收3,648.5亿元人民币 同比增长8.1%

美团:2025年营收3,648.5亿元人民币 同比增长8.1%

财联社
2026-03-26 17:40:04
塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

澎湃新闻
2026-03-26 17:24:26
2026-03-26 18:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
亲子
教育
时尚
军事航空

转头就晕的耳石症,能开车上班吗?

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被立案调查!

教育要闻

中小学家长必看数据,看与不看都会后悔

皮衣+裙,高级到炸

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版