网易首页 > 网易号 > 正文 申请入驻

把「会跑的代码世界」装进AI!Meta重磅开源首个代码世界模型:让AI像程序员一样思考

0
分享至


整理 | 郑丽媛

出品 | CSDN(ID:CSDNnews)

今日凌晨,Meta FAIR 团队重磅发布了 Code World Model(CWM)——一个参数量为 32B、支持最长 131k token 上下文的开放权重 LLM。

根据 Meta 官方介绍,CWM 的目标很明确:把“世界模型”的思想带到代码生成与推理中,让模型不仅会写代码,还能模拟代码执行过程、推理程序状态、自我检测并修复 Bug。


值得一提的是,为了支持社区在“代码世界模型”方向的研究,此次 Meta 还开源了CWM在中期训练(mid-training)、SFT和RL 阶段的权重检查点。为此,Meta 首席 AI 官 Alexandr Wang 还在 X 上呼吁:“我们鼓励研究界对这个开放权重的模型进行研究!”



为什么要把“世界模型”带入代码领域

在 CWM 研究论文开篇,Meta 团队就提到,当前传统的代码预训练是把代码视为静态文本,模型主要学习从左到右、从上到下逐行预测代码——换句话说,模型学到的是语法、常见模式和命名约定,但并不懂执行过程。

“我们认为这还不够——要真正掌握编码,不仅要了解代码长什么样,更要了解代码执行时的作用。”

这种技能对软件工程师的日常工作至关重要:在局部层面,他们了解一行代码的执行如何改变局部变量的状态;在全局层面,他们可以预测代码库的变化将如何影响程序的输出。

基于此,CWM 的核心出发点是:要把“世界模型”的想法带进代码领域,让模型学会观察——行动——观察的执行轨迹,从而提升生成代码的可执行性、可验证性与自我修复能力。


怎么做到从“看代码”到“看世界”

如开头所说,CWM 是一个 32B 参数、支持超长上下文(最高可到 131k tokens)的 LLM,为此它采用了局部+全局交替机制和长序列稳定化技巧。训练分为三大阶段进行:

● 预训练阶段:使用大规模通用语料与代码语料(约8T tokens,其中代码占比约 30%),为模型打基础,早期上下文长度为 8k token。

● 中期训练阶段:引入了 5T tokens 的世界建模数据,将上下文长度扩展到 131k tokens,这一步也是把世界模型能力“内化”的核心。

● 后训练阶段(SFT + RL):先做 SFT(100B tokens,32k 上下文)强化 instruction 与推理能力,然后做大规模多任务多回合 RL(172B tokens,131k 上下文),训练目标覆盖可验证的编码、算法题与软件工程交互。


其中,据 Meta 团队介绍,CWM 的世界模型能力主要靠中期训练阶段的两类数据驱动:

(1)Python 执行轨迹(execution traces):把函数或测试在解释器中执行的中间栈帧与局部变量状态序列化为observation→action→observation 的形式,并以专用格式喂给模型,让模型学会预测“下一步执行会如何改变局部状态”。


据了解,Meta 喂给 CWM 的这一类数据覆盖函数级、竞赛题解、以及仓库单元测试轨迹,总量非常大。通过学习这类数据,模型就能在没有真实运行环境时模拟代码执行路径。

(2)Agent与环境的交互轨迹:用一个自动化 Agent在可执行的仓库镜像里“觅食”——执行 Bash、编辑文件、运行测试,去修 Bug 或实现缺失功能。据悉,Meta 由此收集的此类数据量也很庞大:“从 10.2 万张图片和 3.15 万个底层存储库中收集了约 300 万条轨迹。”


这些动态轨迹数据,直接把 Agent 与环境的交互经验提前放到中期训练中,帮助模型学会“用工具修复软件”的编码思路,尤其对多回合软件工程任务帮助很大。

除此之外,Meta 还分享了 CWM 在后训练阶段中的两处工程细节:

首先,在 SFT 阶段引入特定的“推理 token”(reasoning token),帮助模型区分直答与推理过程;到了 RL 阶段,改用更灵活的 标签以鼓励模型形成自己的推理路径;其次,使 用自举策略,即把早期 RL 模型生成的高质量轨迹回流到 SFT,形成良性循环,既能稳步提升 Agentic 能力,又能降低 RL 的训练噪声。


基准测试CWM表现强劲

在 Meta 论文公布的基准测试中,CWM 在代码修复类与数学题上表现强劲:

● 在 SWE-bench Verified 上,CWM 在启用 Test-Time-Scaling(多候选并投票)时能达到 65.8% pass@1,未启用时为 53.9%;

● 在 LiveCodeBench、Math-500、AIME 等基准上也有亮眼结果:在 LiveCodeBench 上取得 68.6%;在 Math-500 上达到 96.6%;在 AIME 2024 上达到 76.0%。


以上面这张 SWE-bench Verified(该测试要求 AI 模型修复 GitHub 项目中的实际错误)得分为例,可以看出 CWM 不仅领先于其他参数量相近的开源模型,甚至能与更大或闭源的 LLM 相媲美,已接近 GPT-4 水平。

不过 Meta 也坦言 CWM 并非无可挑剔,因为它并非通用聊天模型,在某些编辑格式或多语言场景仍有差距;而且大量 Agentic 训练可能引入“格式化噪音”,需要用筛选与自举手段来缓解。

了解有关CWM更多细节查看论文

https://scontent-nrt1-1.xx.fbcdn.net/v/t39.2365-6/553592426_661450129912484_4072750821656455102_n.pdf


来自业界的赞许与质疑

从社交平台的刷屏程度来看,今天 CWM 的发布显然引起了广泛关注——毕竟,这是 Meta 高调重组其 AI 业务后推出的首款模型。

除了开头提到的 Alexandr Wang,多位 Meta AI 研究人员都进行了宣传与分享。例如,CWM 资深核心贡献者 Gabriel Synnaeve简单复盘了CWM 的研究思路;Yann LeCun 也转发了 Gabriel Synnaeve 的帖子,并用一句话总结:

“代码世界模型(CWM):通过想象执行指令的效果和规划产生预期效果的指令来生成代码。”


与此同时,业界对于 CWM 的发布也普遍表示好奇与欢迎,尤其赞赏 Meta 不只是开源最终模型,还公开了从中期训练到 SFT 与 RL 各阶段的检查点——这对学术与工程复现极其有用,在当前多家公司封闭策略的大环境下显得难能可贵。

然而,热情之余也伴随不少现实的质疑与顾虑。

不少开发者指出,希望 CWM 能与现有的代码生成系统进行独立的、面对面的比较,并在开发环境中进行实际试验。此外,毕竟 CWM 拥有 32B 参数,需要强大的计算能力,对于日常开发人员来说,或许轻量化的变体对他们而言才更有实感。正如 CTOL.digital 工程团队所说:“CWM 是一项伟大的研究成果,编写扎实,前景光明,但我们还是需要实际测试它。”

那么,你认为 CWM 的发布意味着什么?如果 AI 能真正理解代码执行并从此成为常态,我们又是否会进入一个软件开发新时代?

https://ai.meta.com/research/publications/cwm-an-open-weights-llm-for-research-on-code-generation-with-world-models/

https://www.ctol.digital/news/meta-drops-ai-that-gets-how-code-works-shaking-silicon-valley/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
盐城一学校年终福利引争议!谁吃了老师的差价?

盐城一学校年终福利引争议!谁吃了老师的差价?

MC洋洋拍客
2026-02-04 09:51:09
小伙请假从上海徒步1400公里回湖北过年,每天只吃一顿饭,33天瘦25斤

小伙请假从上海徒步1400公里回湖北过年,每天只吃一顿饭,33天瘦25斤

环球网资讯
2026-02-03 20:28:23
吵上热搜!上海七旬夫妇骑“老头乐”闯红灯被撞,索赔超70万元!法院判赔36万元,详情披露

吵上热搜!上海七旬夫妇骑“老头乐”闯红灯被撞,索赔超70万元!法院判赔36万元,详情披露

新民晚报
2026-02-04 14:42:48
77岁何庆魁摊牌:不为亲儿子留一分钱,只想把小20岁老伴哄开心

77岁何庆魁摊牌:不为亲儿子留一分钱,只想把小20岁老伴哄开心

娱乐圈见解说
2026-02-04 11:19:32
小沈阳闺女拍可口可乐广告,网友看完脚趾抠地:这演技也太尬了

小沈阳闺女拍可口可乐广告,网友看完脚趾抠地:这演技也太尬了

春之韵
2026-02-03 02:00:50
真爱还是接盘侠?41岁香港艳星现下嫁山东农村,曾不雅照片满天飞

真爱还是接盘侠?41岁香港艳星现下嫁山东农村,曾不雅照片满天飞

古事寻踪记
2026-02-04 07:10:54
夫妻网购娃娃菜中毒大反转!是丈夫投毒,对妻子灭口,商家被坑惨

夫妻网购娃娃菜中毒大反转!是丈夫投毒,对妻子灭口,商家被坑惨

离离言几许
2026-02-03 15:12:39
又一“俄罗斯英雄”毙命沙场,俄退役军人沦为社会安全重大隐患

又一“俄罗斯英雄”毙命沙场,俄退役军人沦为社会安全重大隐患

史政先锋
2026-02-03 20:00:14
一旦战争爆发,伊朗唯一活路,就是把那一万枚导弹一次全打出去!

一旦战争爆发,伊朗唯一活路,就是把那一万枚导弹一次全打出去!

南山塔的姑娘
2026-02-03 16:43:50
特朗普惊出一身冷汗:中美已无法开战,一杀手锏让美军无计可施

特朗普惊出一身冷汗:中美已无法开战,一杀手锏让美军无计可施

扶苏聊历史
2026-02-04 18:08:14
惊天反转!伊朗,要投降了?

惊天反转!伊朗,要投降了?

大嘴说天下
2026-02-03 20:36:57
日本公开采集稀土泥全过程

日本公开采集稀土泥全过程

中国网
2026-02-04 10:22:38
多名前员工称意外收到大疆发的新春礼盒 大疆:感恩付出 已连续发了多年

多名前员工称意外收到大疆发的新春礼盒 大疆:感恩付出 已连续发了多年

快科技
2026-02-04 00:10:45
不用坐牢了?马杜罗入狱3周后,中方再次发声,委代元首接过兵权

不用坐牢了?马杜罗入狱3周后,中方再次发声,委代元首接过兵权

知鉴明史
2026-02-04 18:20:52
超雄真的有那么可怕吗?网友的分享,一看一个不吱声

超雄真的有那么可怕吗?网友的分享,一看一个不吱声

另子维爱读史
2026-02-01 20:30:29
小米SU7一年半跑了26.5万公里几乎零故障!电池更是仅衰减5.5%

小米SU7一年半跑了26.5万公里几乎零故障!电池更是仅衰减5.5%

快科技
2026-02-02 20:08:52
看蒋万安给儿子们起的名字,就知道他骨子里的中国人身份,瞒不住

看蒋万安给儿子们起的名字,就知道他骨子里的中国人身份,瞒不住

据说说娱乐
2026-02-03 15:23:26
最新研究:人类寿命长短超50%由基因决定,衰老在很大程度上是遗传的

最新研究:人类寿命长短超50%由基因决定,衰老在很大程度上是遗传的

红星新闻
2026-02-02 18:30:18
韩综播出大S抢救细节..全因具俊晔1心愿授权!主持人哽咽说不下去

韩综播出大S抢救细节..全因具俊晔1心愿授权!主持人哽咽说不下去

ETtoday星光云
2026-02-04 15:35:54
49岁的特朗普95年来香港,怀中抱着一位神秘中国女孩,她是谁?

49岁的特朗普95年来香港,怀中抱着一位神秘中国女孩,她是谁?

板栗说事
2025-02-17 07:54:14
2026-02-04 19:12:49
CSDN incentive-icons
CSDN
成就一亿技术人
26301文章数 242229关注度
往期回顾 全部

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

头条要闻

特朗普急于将爱泼斯坦案翻篇 仍有250万页文件未公布

头条要闻

特朗普急于将爱泼斯坦案翻篇 仍有250万页文件未公布

体育要闻

哈登回应交易:不想让自己拖累快船的未来

娱乐要闻

姜元来在大S墓碑前哭泣,与具俊晔拥抱

财经要闻

下一轮金融危机,会由沃什引爆吗?

汽车要闻

综合续航1730km 5座中级电混SUV吉利银河M7官图发布

态度原创

艺术
家居
本地
亲子
公开课

艺术要闻

一篇文章看懂“传统吉祥图案”的寓意

家居要闻

灰白意境 光影奏鸣曲

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

亲子要闻

脚踏实弟,抬头挺兄!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版