网易首页 > 网易号 > 正文 申请入驻

北航提出大模型Scaling Laws:编程语言差异与多语言最优配比策略

0
分享至



北航、人大和九坤投资共同撰写的论文 《Scaling Laws for Code: Every Programming Language Matters》 整理而成。

在代码大模型(Code LLMs)的预训练中,行业内长期存在一种惯性思维,即把所有编程语言的代码都视为同质化的文本数据,主要关注数据总量的堆叠。然而,现代软件开发本质上是多语言混合的,不同语言的语法特性、语料规模和应用场景差异巨大。如果忽略这些差异,笼统地应用通用的 Scaling Laws,往往会导致性能预测偏差和算力浪费。

为了打破这一黑盒,研究团队耗费了相当于 33.6 万个 H800 GPU 时,进行了超过 1000 次实验。研究覆盖了从 0.2B 到 14B 的模型参数规模,以及高达 1T 的训练数据量,系统性地对 Python、Java、JavaScript、TypeScript、C#、Go、Rust 这七种主流语言进行了解构。这项工作的核心贡献在于建立了区分语言特性的 Scaling Laws,并据此提出了一套数学可解的最优数据配比方案。



  • 论文:《Scaling Laws for Code: Every Programming Language Matters》
  • 论文链接:https://arxiv.org/abs/2512.13472



图 1:论文提出的多语言 Scaling Law 与传统均匀分布基线的 Loss 对比。蓝色曲线显示,基于本文方法优化的模型在相同算力下能持续获得更低的 Loss)

语言特异性:Python 潜力巨大,Rust 快速收敛









图 2:七种编程语言各自独立的 Scaling Law 曲线。可以看到 Python(左上)的曲线斜率更陡峭,而 Rust(右下)则更早趋于平缓)

协同效应矩阵:语言间的 “近亲繁殖” 与 “非对称互助”

在实际预训练中,我们很少只训练单语言模型。那么,混合多种语言训练是否存在 “协同效应”(Synergy)?研究团队构建了一个详尽的协同增益矩阵,量化了引入辅助语言对目标语言性能的影响。

实验发现,绝大多数语言都能从多语言混合训练中获益,且收益大小与语法相似度高度相关。例如,Java 与 C#、JavaScript 与 TypeScript 这类语法结构高度相似的语言对,在混合训练时表现出极强的正向迁移效果。

更有趣的是,这种迁移往往是非对称的。Java是多语言训练的最大受益者,几乎与任何语言混合都能大幅降低其 Loss,这可能是因为 Java 作为成熟的面向对象语言,能从其他语言的范式中汲取通用逻辑。而Python虽然是代码领域的通用 “供体”(帮助其他语言提升),但其自身从其他语言获得的收益却相对有限,甚至在某些混合比例下会出现轻微的负迁移。这一发现提示我们,在构建语料库时需要精细设计混合策略,而非盲目地 “大杂烩”。



表 1:协同增益矩阵。红色越深代表辅助语言(列)对目标语言(行)的提升越大。Java 所在的行显示出它能从所有辅助语言中获得显著收益)

跨语言对齐策略:并行配对激发 Zero-Shot 能力

除了单语言生成,跨语言翻译(如 Java 转 Python)也是代码模型的重要能力。论文对比了两种数据组织策略:传统的“随机打乱”(Random Shuffling)和“并行配对”(Parallel Pairing)—— 即将一段代码与其翻译版本拼接在同一个 Context 中输入模型。

实验结果表明,并行配对策略在所有模型规模上均显著优于基线。这种策略实际上利用了模型的长上下文窗口,构建了隐式的文档级对齐信号。更关键的是,这种策略激发了模型在Zero-Shot(零样本)方向上的泛化能力。例如,模型仅训练了 Python↔Java 和 Python↔Go 的配对数据,但在测试从未见过的 Java↔Go 翻译任务时,基于并行配对训练的模型表现出了惊人的组合泛化能力。这证明了通过构建以 Python 为枢纽的平行语料,可以有效拉齐不同编程语言的向量空间。



图 4:三种策略在跨语言翻译任务上的表现对比。绿色线条代表的并行配对策略(Prompt-based Concatenation)在各方向上均取得最低 Loss)

最优 Token 分配指南:基于边际效用的经济学

基于上述发现,论文提出了“科学配比的多语言 Scaling Law”(Proportion-dependent Multilingual Scaling Law)。这不仅是一个理论公式,更是一套指导算力投资的行动指南。

在总算力固定的约束下,传统的均匀分配并非最优解。最优策略应遵循边际效用最大化原则

  1. 重仓高潜力语言:大幅增加Python的 Token 占比,因为它的 Scaling 指数高,投入更多数据能带来持续的性能爬坡。
  2. 平衡高协同组合:利用JavaScriptTypeScript的互补性,保持两者适度的比例以最大化协同增益。
  3. 削减早熟语言投入:适当减少RustGo的数据占比。因为它们收敛快,过多的数据投入只会带来边际收益的快速衰减,不如将这部分算力转移给更难学的语言。

实验验证显示,采用这种 “引导式分配” 策略训练出的 1.5B 模型,在多语言代码生成(MultiPL-E)和翻译任务上,均稳定优于均匀分配的基线模型,且没有任何一种语言因数据减少而出现显著的性能退化。



图 5:基线策略 vs 优化后的 Token 分配方案。基于 Scaling Law 的建议大幅增加了 Python(蓝色)的占比,同时削减了 Rust(橙色)和 Go(青色)的占比)

总结与启示

这项工作是代码大模型领域一次重要的 “去魅” 过程。它用详实的数据证明,编程语言在模型训练的视角下绝非同质。

对于致力于训练 Code LLM 的团队而言,这意味着数据工程的重点应从单纯的 “清洗与去重” 转向更宏观的 “成分配比”。理解不同语言的 Scaling 特性(是像 Python 一样潜力巨大,还是像 Rust 一样迅速饱和)以及它们之间的协同关系,能够帮助我们在有限的算力预算下,训练出综合代码能力更强的基座模型。这不仅是算法的优化,更是资源配置效率的提升。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
泰国总理换新车支持国产!从劳斯莱斯到比亚迪,还向民众极力推荐

泰国总理换新车支持国产!从劳斯莱斯到比亚迪,还向民众极力推荐

削桐作琴
2026-03-26 18:14:58
网传苏州女司机撞到老人后被家属打死?记者核实:女司机耳部缝针治疗后已出院,后续仍需观察

网传苏州女司机撞到老人后被家属打死?记者核实:女司机耳部缝针治疗后已出院,后续仍需观察

扬子晚报
2026-03-25 20:25:53
76人最多领先47分大胜公牛 恩比德复出35+6+7乔治解禁28分

76人最多领先47分大胜公牛 恩比德复出35+6+7乔治解禁28分

醉卧浮生
2026-03-26 09:25:57
旅游+演艺,激活消费新空间(大数据观察)

旅游+演艺,激活消费新空间(大数据观察)

人民网
2026-03-26 06:17:20
心梗去世的人越来越多?医生再次强调:宁可打打牌,也别做这6事

心梗去世的人越来越多?医生再次强调:宁可打打牌,也别做这6事

健康之光
2026-03-26 16:00:06
伊朗切断自己的退路,停战三条件震动全球,47年恩怨要做了断

伊朗切断自己的退路,停战三条件震动全球,47年恩怨要做了断

近史谈
2026-03-26 06:17:39
最自私的人是什么样的?网友:我爸58岁得癌,拆迁180万全部花光

最自私的人是什么样的?网友:我爸58岁得癌,拆迁180万全部花光

火山詩话
2026-03-24 17:32:57
特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

时尚的弄潮
2026-03-26 14:02:47
国安部紧急提醒:手机这3类功能绝不常开!现在改还来得及

国安部紧急提醒:手机这3类功能绝不常开!现在改还来得及

西莫的艺术宫殿
2026-03-26 15:20:40
广东一体长超2米、重达40多斤大蟒蛇河边晒太阳被抓捕,将择机放生;街坊称年前也曾抓走一条类似大小的蟒蛇,猜测是一公一母在此藏身安家

广东一体长超2米、重达40多斤大蟒蛇河边晒太阳被抓捕,将择机放生;街坊称年前也曾抓走一条类似大小的蟒蛇,猜测是一公一母在此藏身安家

潇湘晨报
2026-03-26 11:59:13
中央定调,养老金调整方向明确,2026年若上涨,企退能多涨3%吗?

中央定调,养老金调整方向明确,2026年若上涨,企退能多涨3%吗?

有范又有料
2026-03-26 14:35:52
伊朗警告地面战“更加危险且代价更大”

伊朗警告地面战“更加危险且代价更大”

界面新闻
2026-03-26 18:27:25
加沙的沉默:当“抵抗之弧”烽火连天,哈马斯为何失声

加沙的沉默:当“抵抗之弧”烽火连天,哈马斯为何失声

民间铁血柔情
2026-03-09 06:03:33
50℃高温锁住国运!电不够水没有,印度的未来,彻底没希望了?

50℃高温锁住国运!电不够水没有,印度的未来,彻底没希望了?

Hi科普啦
2026-03-25 14:57:31
近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

鲸探所长
2026-03-01 14:38:25
罕见一幕,中俄战机升空后,特朗普急喊话,就怕再晚一步就镇不住

罕见一幕,中俄战机升空后,特朗普急喊话,就怕再晚一步就镇不住

夏目历史君
2026-03-26 17:23:42
近90%都是“小蓝灯”!高架和高速越来越多了!网友:你不要过来啊!

近90%都是“小蓝灯”!高架和高速越来越多了!网友:你不要过来啊!

钱塘地产
2026-03-26 11:27:56
歼-16D携载LD-8A,开启反辐射作战新篇!

歼-16D携载LD-8A,开启反辐射作战新篇!

杨风
2026-03-25 20:50:09
穆雷轰53+6+4无缘今日最佳!对不起,东契奇暴走创神级纪录

穆雷轰53+6+4无缘今日最佳!对不起,东契奇暴走创神级纪录

世界体育圈
2026-03-26 13:01:23
800架战机掩护 3000辆坦克突击 40万大军两个月就位 这仗非打不可

800架战机掩护 3000辆坦克突击 40万大军两个月就位 这仗非打不可

聚峰军评
2026-03-24 15:08:30
2026-03-26 18:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
旅游
教育
健康
军事航空

亲子要闻

上海美华妇儿医院"康复中心"完成全面升级并正式焕新启幕

旅游要闻

世界那么大,来安美如画丨「与V四季行」倒计时1天,这份春日请柬请查收→

教育要闻

2026高考捡漏指南:西安藏着4所“就业王炸”院校,考生闭眼冲

转头就晕的耳石症,能开车上班吗?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版