网易首页 > 网易号 > 正文 申请入驻

刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了

0
分享至


新智元报道

编辑:艾伦

【新智元导读】疯狂挖人的Meta,终于在今天发布了最新AI研发成果!代码世界模型CWM是本次发布的模型,创新性地将世界模型引入了代码生成任务中。这是否会成为编程模型新范式?

,终于把他们的AI研发新成果端上来了!

就在今天,Meta官宣发布了一款名为代码世界模型(Code World Model, CWM)的LLM,探索如何使用世界模型改进AI代码生成性能。


Yann LeCun也亲自下场转发撑场子了。


CWM究竟有哪些创新点?这个32B的参数相对较小的大模型,究竟有多强?

CWM创新点

本次发布的CWM,最大的创新点是,将世界模型引入了代码生成任务中。

简言之,该模型的核心正如Yann LeCun所言:生成代码时,通过提前预测即将生成的代码指令可能产生的效果,来更好地规划出能够满足人类期望达成的效果的代码,从而改进生成代码的质量。

当人类进行规划时,我们会设想不同行动可能产生的结果。

当人类思考代码时,会在脑海中模拟其部分执行过程。

而目前市面上的主流语言模型,还很难做到这一点。

专门训练一个代码世界模型,补足这一点,生成代码的效果会不会好很多,是Meta要通过本次发布的CWM验证的猜想。


CWM基于大量编程数据,加上专门定制的Python和Bash(Linux和macOS的命令行解释器脚本语言)的世界建模数据,进行该模型的训练。

通过这种训练,CWM能够模拟Python程序在Bash环境中的执行及与Agent之间的交互。

对于「数数strawberry中有多少个r」这个难倒无数大模型的问题,CWM也用类似pdb(Python Debug用的调试器)的形式演示了其工作流程:



CWM直接发布了3个不同的Checkpoint,用于不同目的。



CWM性能测试

「光说不练假把式」,我们直接看看这个32B的小参数大模型在各类编程基准测试中的表现如何。

SWE-bench Verified是一个真实开源项目修复的最常用的编程评测标准,让模型在真实的大型开源仓库里,根据 GitHub issue+failing tests,定位并修复缺陷,最终以自动化测试是否全部通过来判定是否解决。

在该项测试中,32B小参数的CWM成绩为65.8%,逊于Qwen3-Coder和Kimi-K2-Instruct,与闭源的Gemini-2.5-Thinking接近,属于开源阵营第一梯队了。


其他测试成绩Alexandr Wang也直接发出来了:

LiveCodeBench:68.6%

Math-500:96.6%

AIME 2024:76.0%


CWM模型算是Meta的一次概念验证,投入了不算多的算力训练这个小参数大模型,主要是为了检验将世界模型引入代码生成任务是否会显著提高生成代码质量。

换言之,我们今日看到的这个模型只能算Demo。大的还在后面?

参考资料:

https://ai.meta.com/research/publications/cwm-an-open-weights-llm-for-research-on-code-generation-with-world-models/

https://x.com/syhw/status/1970960837721653409

https://x.com/AIatMeta/status/1970963571753222319

https://x.com/ylecun/status/1970967341052854748

https://x.com/alexandr_wang/status/1970973317227225433

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
云南省政协教科卫体委员会主任谭亚原接受审查调查

云南省政协教科卫体委员会主任谭亚原接受审查调查

界面新闻
2025-11-06 17:01:05
台北豪宅双尸案:9亿CEO与女网红疑“马拉松”连嗨48小时丧命

台北豪宅双尸案:9亿CEO与女网红疑“马拉松”连嗨48小时丧命

吃瓜体
2025-11-06 09:51:51
上海律师带小三孕检新后续:空姐是10年白月光,婆婆态度让人寒心

上海律师带小三孕检新后续:空姐是10年白月光,婆婆态度让人寒心

壹月情感
2025-11-04 22:50:11
内涵高露、手撕王传君,“黑料缠身”的白百何,谁给她的勇气?

内涵高露、手撕王传君,“黑料缠身”的白百何,谁给她的勇气?

白面书誏
2025-11-06 16:03:00
中方下了“最后通牒”,认定荷兰100%担责,再不悔改一切后果自负

中方下了“最后通牒”,认定荷兰100%担责,再不悔改一切后果自负

博览历史
2025-11-05 18:23:01
吴彦祖罕晒夫妻合照,47岁Lisa素颜老到认不出,发际线后退像男人

吴彦祖罕晒夫妻合照,47岁Lisa素颜老到认不出,发际线后退像男人

花心电影
2025-11-06 17:16:02
1965年,毛主席劝蒋介石回大陆,老蒋提出6个要求,毛主席:同意

1965年,毛主席劝蒋介石回大陆,老蒋提出6个要求,毛主席:同意

诺言卿史录
2025-07-17 14:23:29
名著误译的问题,到底有多严重?

名著误译的问题,到底有多严重?

尚曦读史
2025-11-05 07:39:11
周四收盘:今天涨到4008,做好准备了,周五很可能将迎来关键变盘

周四收盘:今天涨到4008,做好准备了,周五很可能将迎来关键变盘

好贤观史记
2025-11-06 15:00:23
梅西隔空回击C罗:世界杯是终极成就!夺冠的感觉无法描述

梅西隔空回击C罗:世界杯是终极成就!夺冠的感觉无法描述

叶青足球世界
2025-11-06 09:44:22
午后直线拉升!600939,超40万手封涨停

午后直线拉升!600939,超40万手封涨停

数据宝
2025-11-06 14:17:13
女孩每天去超市货架偷面包,老板装没看见,10年后老板收到快递哭了

女孩每天去超市货架偷面包,老板装没看见,10年后老板收到快递哭了

悬案解密档案
2025-11-03 10:58:58
张韶涵演唱会疑拉稀!裙子有黄色污渍,前排闻臭味,助理搀扶离场

张韶涵演唱会疑拉稀!裙子有黄色污渍,前排闻臭味,助理搀扶离场

八星人
2025-11-06 11:51:17
被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

霹雳炮
2025-11-02 20:52:08
跌西部倒数第一!弗拉格20+9丢绝平独行侠惜败鹈鹕 8战6败

跌西部倒数第一!弗拉格20+9丢绝平独行侠惜败鹈鹕 8战6败

醉卧浮生
2025-11-06 11:54:45
重磅:普京签署新征兵令!俄罗斯人全年都可被征召入伍

重磅:普京签署新征兵令!俄罗斯人全年都可被征召入伍

项鹏飞
2025-11-05 19:10:45
克扣80%工资,偿还80%人生!比骑手捅站长更可悲的是周围人的态度

克扣80%工资,偿还80%人生!比骑手捅站长更可悲的是周围人的态度

垛垛糖
2025-11-05 13:54:23
终于,人民日报定调统一,赖清德阻挡不住,台岛军心大乱逃兵翻倍

终于,人民日报定调统一,赖清德阻挡不住,台岛军心大乱逃兵翻倍

影孖看世界
2025-11-06 16:02:12
市委书记女儿去县财政局工作,局长处处为难她,某天书记来探班

市委书记女儿去县财政局工作,局长处处为难她,某天书记来探班

秋风专栏
2025-10-23 11:23:56
五角大楼没想到,大陆对台使出最绝的一招:邀请日本自卫队到北京

五角大楼没想到,大陆对台使出最绝的一招:邀请日本自卫队到北京

虎哥闲聊
2025-11-06 14:10:11
2025-11-06 19:32:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13801文章数 66238关注度
往期回顾 全部

科技要闻

小鹏机器人里藏真人?何小鹏发一镜到底视频

头条要闻

女子将社保迁到异地 申请退休时被告知无法在当地退休

头条要闻

女子将社保迁到异地 申请退休时被告知无法在当地退休

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

“黑料缠身”的白百何 谁给她的勇气?

财经要闻

南银法巴加速发展背后:资金饥渴症待解

汽车要闻

是我眼花了么?怎么大猩猩都来参加新车发布了?

态度原创

房产
游戏
教育
时尚
军事航空

房产要闻

中旅·三亚蓝湾,以一座城市会客厅回应世界的滨海想象

盘点几款简单易上手的战棋策略游戏,小白也能轻松入坑!

教育要闻

数阵图看着挺吓人的,其实就是求两个和

中国色特别策划 | 故宫技艺与古意新生

军事要闻

美国发射洲际弹道导弹 俄方回应

无障碍浏览 进入关怀版