网易首页 > 网易号 > 正文 申请入驻

刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了

0
分享至

新智元报道

编辑:艾伦

【新智元导读】疯狂挖人的Meta,终于在今天发布了最新AI研发成果!代码世界模型CWM是本次发布的模型,创新性地将世界模型引入了代码生成任务中。这是否会成为编程模型新范式?

,终于把他们的AI研发新成果端上来了!

就在今天,Meta官宣发布了一款名为代码世界模型(Code World Model, CWM)的LLM,探索如何使用世界模型改进AI代码生成性能。

Yann LeCun也亲自下场转发撑场子了。

CWM究竟有哪些创新点?这个32B的参数相对较小的大模型,究竟有多强?

CWM创新点

本次发布的CWM,最大的创新点是,将世界模型引入了代码生成任务中。

简言之,该模型的核心正如Yann LeCun所言:生成代码时,通过提前预测即将生成的代码指令可能产生的效果,来更好地规划出能够满足人类期望达成的效果的代码,从而改进生成代码的质量。

当人类进行规划时,我们会设想不同行动可能产生的结果。

当人类思考代码时,会在脑海中模拟其部分执行过程。

而目前市面上的主流语言模型,还很难做到这一点。

专门训练一个代码世界模型,补足这一点,生成代码的效果会不会好很多,是Meta要通过本次发布的CWM验证的猜想。

CWM基于大量编程数据,加上专门定制的Python和Bash(Linux和macOS的命令行解释器脚本语言)的世界建模数据,进行该模型的训练。

通过这种训练,CWM能够模拟Python程序在Bash环境中的执行及与Agent之间的交互。

对于「数数strawberry中有多少个r」这个难倒无数大模型的问题,CWM也用类似pdb(Python Debug用的调试器)的形式演示了其工作流程:

CWM直接发布了3个不同的Checkpoint,用于不同目的。

CWM性能测试

「光说不练假把式」,我们直接看看这个32B的小参数大模型在各类编程基准测试中的表现如何。

SWE-bench Verified是一个真实开源项目修复的最常用的编程评测标准,让模型在真实的大型开源仓库里,根据 GitHub issue+failing tests,定位并修复缺陷,最终以自动化测试是否全部通过来判定是否解决。

在该项测试中,32B小参数的CWM成绩为65.8%,逊于Qwen3-Coder和Kimi-K2-Instruct,与闭源的Gemini-2.5-Thinking接近,属于开源阵营第一梯队了。

其他测试成绩Alexandr Wang也直接发出来了:

LiveCodeBench:68.6%

Math-500:96.6%

AIME 2024:76.0%

CWM模型算是Meta的一次概念验证,投入了不算多的算力训练这个小参数大模型,主要是为了检验将世界模型引入代码生成任务是否会显著提高生成代码质量。

换言之,我们今日看到的这个模型只能算Demo。大的还在后面?

参考资料:

https://ai.meta.com/research/publications/cwm-an-open-weights-llm-for-research-on-code-generation-with-world-models/

https://x.com/syhw/status/1970960837721653409

https://x.com/AIatMeta/status/1970963571753222319

https://x.com/ylecun/status/1970967341052854748

https://x.com/alexandr_wang/status/1970973317227225433

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
油价降了!3月26日全国油价下调85元吨,4月7日油价将迎下跌!

油价降了!3月26日全国油价下调85元吨,4月7日油价将迎下跌!

沙雕小琳琳
2026-03-26 15:31:42
亲戚借车从不加油,这次他故意空着油箱给她,她老公却急了:我上次不是刚加了600块的油吗!

亲戚借车从不加油,这次他故意空着油箱给她,她老公却急了:我上次不是刚加了600块的油吗!

品读时刻
2026-03-25 09:04:33
斯特林在费耶诺德表现糟糕,前荷兰国脚:他不如直接退役吧

斯特林在费耶诺德表现糟糕,前荷兰国脚:他不如直接退役吧

懂球帝
2026-03-27 00:49:18
一代香港美人,感觉不是很开心的样子,大家还记得她的名字吗?

一代香港美人,感觉不是很开心的样子,大家还记得她的名字吗?

动物奇奇怪怪
2026-03-26 08:35:16
黄金,注意!无敌扫荡又要开始了!

黄金,注意!无敌扫荡又要开始了!

杨子黄金
2026-03-26 09:06:53
意天空:卢卡库退出比利时名单但没回俱乐部,那不勒斯很愤怒

意天空:卢卡库退出比利时名单但没回俱乐部,那不勒斯很愤怒

懂球帝
2026-03-26 20:03:10
樊振东空降迈阿密,新身份曝光!回归国乒成谜!吴敬平发文!

樊振东空降迈阿密,新身份曝光!回归国乒成谜!吴敬平发文!

好乒乓
2026-03-26 12:28:10
澳门国民党中将吕文贞突然说,我是李克农的人,该向组织报到了

澳门国民党中将吕文贞突然说,我是李克农的人,该向组织报到了

鹤羽说个事
2026-03-25 21:56:09
一天蒸发6200亿!谷歌算法黑科技击溃存储股,华尔街痛批市场“不懂技术”

一天蒸发6200亿!谷歌算法黑科技击溃存储股,华尔街痛批市场“不懂技术”

每日经济新闻
2026-03-26 19:00:13
你在无意中发现别人什么秘密?网友爆料,电视剧都不敢这样演

你在无意中发现别人什么秘密?网友爆料,电视剧都不敢这样演

夜深爱杂谈
2026-03-16 22:21:03
丧心病狂!河南14岁少年被虐死案:死时穿纸尿裤,胃里空无一物

丧心病狂!河南14岁少年被虐死案:死时穿纸尿裤,胃里空无一物

春日在捕月
2026-03-25 01:00:23
BBC采访爆出大瓜!特朗普开出停战价码:海湾国家需支付2.5万亿美元

BBC采访爆出大瓜!特朗普开出停战价码:海湾国家需支付2.5万亿美元

星辰大海路上的种花家
2026-03-25 13:08:50
疯爽被塘主追着求复合

疯爽被塘主追着求复合

毒舌扒姨太
2026-03-26 22:44:25
江西安源路桥集团有限公司党支部书记、董事长王东被查

江西安源路桥集团有限公司党支部书记、董事长王东被查

潇湘晨报
2026-03-25 16:16:44
张雪峰去世媒体人发文:我问过了,他还在,网友:最后一课很沉重

张雪峰去世媒体人发文:我问过了,他还在,网友:最后一课很沉重

蜜桔娱乐
2026-03-25 10:20:48
CCTV5直播国足VS库拉索!对方主帅毒奶 邵佳一想进世界杯先赢黑马

CCTV5直播国足VS库拉索!对方主帅毒奶 邵佳一想进世界杯先赢黑马

刀锋体育
2026-03-26 20:42:32
欧洲议会表决通过欧美贸易协议

欧洲议会表决通过欧美贸易协议

每日经济新闻
2026-03-26 19:26:26
曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

180视角
2026-03-25 16:58:57
疯了!有新联赛硬刚NBA!想抢詹姆斯约基奇!

疯了!有新联赛硬刚NBA!想抢詹姆斯约基奇!

柚子说球
2026-03-26 22:00:29
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
2026-03-27 04:36:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66720关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
手机
教育
时尚
军事航空

亲子要闻

试工育儿嫂被查出传染病,宝妈崩溃!家政服务“健康关”如何保障?

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

400万人爱过的女孩,被黄谣网暴180天后

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版