网易首页 > 网易号 > 正文 申请入驻

刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了

0
分享至


新智元报道

编辑:艾伦

【新智元导读】疯狂挖人的Meta,终于在今天发布了最新AI研发成果!代码世界模型CWM是本次发布的模型,创新性地将世界模型引入了代码生成任务中。这是否会成为编程模型新范式?

,终于把他们的AI研发新成果端上来了!

就在今天,Meta官宣发布了一款名为代码世界模型(Code World Model, CWM)的LLM,探索如何使用世界模型改进AI代码生成性能。


Yann LeCun也亲自下场转发撑场子了。


CWM究竟有哪些创新点?这个32B的参数相对较小的大模型,究竟有多强?

CWM创新点

本次发布的CWM,最大的创新点是,将世界模型引入了代码生成任务中。

简言之,该模型的核心正如Yann LeCun所言:生成代码时,通过提前预测即将生成的代码指令可能产生的效果,来更好地规划出能够满足人类期望达成的效果的代码,从而改进生成代码的质量。

当人类进行规划时,我们会设想不同行动可能产生的结果。

当人类思考代码时,会在脑海中模拟其部分执行过程。

而目前市面上的主流语言模型,还很难做到这一点。

专门训练一个代码世界模型,补足这一点,生成代码的效果会不会好很多,是Meta要通过本次发布的CWM验证的猜想。


CWM基于大量编程数据,加上专门定制的Python和Bash(Linux和macOS的命令行解释器脚本语言)的世界建模数据,进行该模型的训练。

通过这种训练,CWM能够模拟Python程序在Bash环境中的执行及与Agent之间的交互。

对于「数数strawberry中有多少个r」这个难倒无数大模型的问题,CWM也用类似pdb(Python Debug用的调试器)的形式演示了其工作流程:



CWM直接发布了3个不同的Checkpoint,用于不同目的。



CWM性能测试

「光说不练假把式」,我们直接看看这个32B的小参数大模型在各类编程基准测试中的表现如何。

SWE-bench Verified是一个真实开源项目修复的最常用的编程评测标准,让模型在真实的大型开源仓库里,根据 GitHub issue+failing tests,定位并修复缺陷,最终以自动化测试是否全部通过来判定是否解决。

在该项测试中,32B小参数的CWM成绩为65.8%,逊于Qwen3-Coder和Kimi-K2-Instruct,与闭源的Gemini-2.5-Thinking接近,属于开源阵营第一梯队了。


其他测试成绩Alexandr Wang也直接发出来了:

LiveCodeBench:68.6%

Math-500:96.6%

AIME 2024:76.0%


CWM模型算是Meta的一次概念验证,投入了不算多的算力训练这个小参数大模型,主要是为了检验将世界模型引入代码生成任务是否会显著提高生成代码质量。

换言之,我们今日看到的这个模型只能算Demo。大的还在后面?

参考资料:

https://ai.meta.com/research/publications/cwm-an-open-weights-llm-for-research-on-code-generation-with-world-models/

https://x.com/syhw/status/1970960837721653409

https://x.com/AIatMeta/status/1970963571753222319

https://x.com/ylecun/status/1970967341052854748

https://x.com/alexandr_wang/status/1970973317227225433

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
奥科吉打成极品3D!三场首发净胜73分,三分达6成,成最佳拼图了

奥科吉打成极品3D!三场首发净胜73分,三分达6成,成最佳拼图了

篮球资讯达人
2025-11-02 11:39:23
刘宏伟律师:大范围失业的律师行业令人心痛

刘宏伟律师:大范围失业的律师行业令人心痛

网际风行
2025-10-30 07:18:43
央视预定!36集谍战大剧来了!张若昀联手陈道明,我敢说这剧必爆

央视预定!36集谍战大剧来了!张若昀联手陈道明,我敢说这剧必爆

动物奇奇怪怪
2025-11-02 11:56:01
红军城战斗结束,乌军官称局势不可逆转

红军城战斗结束,乌军官称局势不可逆转

三毛看世界
2025-11-02 10:39:30
许绍雄追悼会确定!家属呼吁亲友,别送花篮直接给钱,目的太感人

许绍雄追悼会确定!家属呼吁亲友,别送花篮直接给钱,目的太感人

一只番茄鱼
2025-10-31 22:46:33
太难了!深圳一成立24年工厂放假1个月,仅仅发600元车费补贴…

太难了!深圳一成立24年工厂放假1个月,仅仅发600元车费补贴…

火山诗话
2025-11-01 09:57:27
如果在家突发心梗,黄金5分钟自救法,快了解,关键时刻可自救

如果在家突发心梗,黄金5分钟自救法,快了解,关键时刻可自救

风信子的花
2025-10-24 23:59:39
中国最后一位太监孙耀庭自述:晚上伺候娘娘时,鞋底必须藏苍耳

中国最后一位太监孙耀庭自述:晚上伺候娘娘时,鞋底必须藏苍耳

妙知
2025-08-28 10:19:43
生于1988年,陈少霞拟任新职,曾就读于厦大|福建一地最新人事消息,他当选区长

生于1988年,陈少霞拟任新职,曾就读于厦大|福建一地最新人事消息,他当选区长

鲁中晨报
2025-11-02 10:59:04
王赐月,入职东南大学

王赐月,入职东南大学

鲁中晨报
2025-11-02 09:59:04
“国家队”持仓动向揭秘!Q3持仓超100亿A股上市公司名单一览

“国家队”持仓动向揭秘!Q3持仓超100亿A股上市公司名单一览

财联社
2025-11-02 08:41:06
广东降温后,竟是全球17级风王。

广东降温后,竟是全球17级风王。

天气观察站
2025-11-02 05:39:00
个矮臀大的女生这样穿才好看,短款外套搭瑜伽裤,提臀修身还显高

个矮臀大的女生这样穿才好看,短款外套搭瑜伽裤,提臀修身还显高

小乔古装汉服
2025-10-31 15:57:09
郑丽文震撼全场,马英九落泪,新的人事安排出炉,韩国瑜强硬发声

郑丽文震撼全场,马英九落泪,新的人事安排出炉,韩国瑜强硬发声

李摻穷游天下
2025-11-01 16:03:07
秦雯袭警完整录音曝光!事后还拿下三八红旗手,多家官媒呼吁彻查

秦雯袭警完整录音曝光!事后还拿下三八红旗手,多家官媒呼吁彻查

古希腊掌管月桂的神
2025-11-02 11:38:53
44岁梅根巴黎看秀!被媒体冷落显尴尬,穿搭效仿凯特王妃,很出圈

44岁梅根巴黎看秀!被媒体冷落显尴尬,穿搭效仿凯特王妃,很出圈

花心电影
2025-10-06 08:40:01
三星会长李在镕请黄仁勋!喝啤酒吃炸鸡很尽兴,最爱路边摊的财阀

三星会长李在镕请黄仁勋!喝啤酒吃炸鸡很尽兴,最爱路边摊的财阀

有范又有料
2025-10-31 08:02:53
流感季提前!新毒株甲型H3N2“换装”归来,快做好防护

流感季提前!新毒株甲型H3N2“换装”归来,快做好防护

大象新闻
2025-11-01 12:46:04
皇马4-0瓦伦西亚,赛后评分:不是姆巴佩第一,皇马18号排第一

皇马4-0瓦伦西亚,赛后评分:不是姆巴佩第一,皇马18号排第一

侧身凌空斩
2025-11-02 06:00:57
100多年里,中国的十次国运,只要走错了一次,就有可能身死国灭

100多年里,中国的十次国运,只要走错了一次,就有可能身死国灭

素衣读史
2025-10-12 16:54:49
2025-11-02 12:40:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13764文章数 66236关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

万斯一句话让印度裔美国人炸锅 遭铺天盖地批评后回应

头条要闻

万斯一句话让印度裔美国人炸锅 遭铺天盖地批评后回应

体育要闻

李大林获2025北马国内男子组冠军

娱乐要闻

离世的他曾是刘德华张学友御用班底

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

家居
本地
教育
数码
军事航空

家居要闻

吸睛艺术 富有传奇色彩

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

教育要闻

粉丝采访录(二):普通劳动者怎样培养子女

数码要闻

樱桃推出 CHERRY STREAM ULTIMATE 外设,含可自定义电磁滚轮鼠标

军事要闻

俄在日本海演习击沉假想敌潜艇

无障碍浏览 进入关怀版