网易首页 > 网易号 > 正文 申请入驻

CodeClash 通过多轮编程竞赛对大型语言模型进行基准测试

0
分享至


作者 | Sergio De Simone

译者 | 平川

为了更好地评估大型语言模型(LLM)的编码能力,来自斯坦福、普林斯顿和康奈尔的研究人员开发了一个新的基准测试。这个新的基准测试名为 CodeClash,它让多个 LLM 在多轮比赛中展开较量,旨在评估在突破定义狭窄的特定任务范畴后,它们实现竞争性高阶目标的能力。

研究人员认为,仅在明确指定的任务上评估编码 LLM,例如修复 Bug、实现算法或编写测试,不足以评估它们应对现实世界软件开发挑战的能力。

与维护任务不同,开发人员需要实现高阶目标,例如提高用户留存率、增加收入或降低成本。这需要完全不同的能力;工程师必须一层层地将这些目标分解为可操作的步骤,对它们进行优先级排序,并就应采取哪些解决方案作出决策。

为了使 LLM 评估过程更接近现实世界中以目标为导向的软件工程,研究人员开发了 CodeClash,这是一个旨在反映开发周期迭代性质的基准测试。在开发过程中,它会根据现实世界的反馈提出、部署和完善变更,然后才进入下一步。在 CodeClash 中,LLM 争相构建能够实现高阶目标的最佳代码库:

多个 LM 系统在多轮比赛中构建实现高阶目标的最佳代码库。这些代码库实现的解决方案会在代码竞技场中展开角逐,例如 BattleSnake(基于网格的生存游戏)、Poker(不限注德州扑克)和 RoboCode(坦克大战)。


每一步包括两个阶段:编辑阶段(LLM 编辑代码库)和比赛阶段(代码库将在代码竞技场中相互评估)。代码竞技场根据分数最大化、资源获取或生存等目标来确定胜者。

一开始,只为 LM 代理提供简要的环境描述。虽然起始代码库中有竞技场机制、示例机器人和推荐策略这样的信息,但模型必须主动发现它们。

每轮结束时,比赛日志都会记录到日志库中,供 LLM 挖掘见解,并为下一轮比赛做好更充分的准备,其目标是全面提升代码库质量,同时增强相对于对手的竞争力。

通过这种方法,研究团队进行了 1680 场比赛,涉及 8 个 LLM,包括 Claude Sonnet 4.5、GPT 5、Gemini 2.5 Pro、Qwen3-Coder、Grok Code Fast 等。没有哪个模型在所有竞技场中都始终优于其他模型,不过总体来看,来自 Anthropic 和 OpenAI 的模型稍微有些优势。这在一对一和多代理比赛中都成立,只是在后一个场景中波动性更大些。例如,6 人比赛的获胜者只获得总分数的 28.6%,而在一对一挑战中为 78.0%。

研究人员还评估了模型分析其他 LLM 生成的代码库的能力。在这种情况中,GPT 5 被证明是最佳模型,优于 Claude Sonnet 4.5。然而,分析表明,检查对手的代码并不会自动转化为竞争优势。

尽管这项研究很有说服力,但研究人员承认,当前的实验环境规模还小于典型的现实系统。因此,未来研究将致力于处理更庞大的代码库并支持多重竞争目标。

https://www.infoq.com/news/2025/11/codeclash-competitive-llm-coding/

声明:本文为 InfoQ 翻译,未经许可禁止转载。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
几种毒蔬菜流通市面,建议:买菜切记避开这3样!

几种毒蔬菜流通市面,建议:买菜切记避开这3样!

健康科普365
2026-01-28 11:00:45
南京天润城,一共有451栋楼,房价从2380涨到19000,当前价格分化

南京天润城,一共有451栋楼,房价从2380涨到19000,当前价格分化

靓仔情感
2026-01-30 16:47:13
48岁瘫痪卧床、父亲离世,重获新生全靠汪嘉伟,郑亮现状如何?

48岁瘫痪卧床、父亲离世,重获新生全靠汪嘉伟,郑亮现状如何?

以茶带书
2026-01-30 20:14:45
消失75年的美潜艇现身我国南海,美方直言:所有国家都不准打捞

消失75年的美潜艇现身我国南海,美方直言:所有国家都不准打捞

寄史言志
2026-01-30 23:53:09
上海队战胜深圳!卢伟夸赞一人,不是张镇麟和王哲林,也不是外援

上海队战胜深圳!卢伟夸赞一人,不是张镇麟和王哲林,也不是外援

格斗联盟王大锤
2026-01-31 07:27:06
万万没想到,把自己给举报了

万万没想到,把自己给举报了

我是历史其实挺有趣
2026-01-30 09:12:34
闲鱼不愧是全国最大的黑市,网民:只有你想不到,没有你买不到

闲鱼不愧是全国最大的黑市,网民:只有你想不到,没有你买不到

小熊侃史
2026-01-16 07:40:07
公司:“二次合同不能终止,第二次岂不成了无固定”?法院:理解错误!| 劳动法库

公司:“二次合同不能终止,第二次岂不成了无固定”?法院:理解错误!| 劳动法库

劳动法库
2026-01-31 08:34:05
中央巡视组将再亮剑!这5类问题是重点,老百姓福音来了!

中央巡视组将再亮剑!这5类问题是重点,老百姓福音来了!

细说职场
2026-01-30 17:21:07
自作孽!44岁少帅,自从玩“战略放弃”后,再没赢球,如今5连败

自作孽!44岁少帅,自从玩“战略放弃”后,再没赢球,如今5连败

金山话体育
2026-01-31 06:28:15
白骨案前夫是自卫反击战老兵!独自带大儿子不再婚 28年为她正名

白骨案前夫是自卫反击战老兵!独自带大儿子不再婚 28年为她正名

好贤观史记
2026-01-30 17:01:36
看完《小城大事》再看《生命树》,我想说:没有对比就没有伤害!

看完《小城大事》再看《生命树》,我想说:没有对比就没有伤害!

老吴教育课堂
2026-01-31 01:48:11
儿子病逝,儿媳带孙子去了北方,15年后孙子突然回来,我泪如雨下

儿子病逝,儿媳带孙子去了北方,15年后孙子突然回来,我泪如雨下

媛来这样
2025-11-19 08:50:14
大爆冷!联盟第一轰然倒下!亚历山大30+8+6,雷霆的总冠军悬了

大爆冷!联盟第一轰然倒下!亚历山大30+8+6,雷霆的总冠军悬了

篮球扫地僧
2026-01-30 23:17:15
刘强东亿万身家背后,妹妹是一生的痛,长相靓还能干,却没享到福

刘强东亿万身家背后,妹妹是一生的痛,长相靓还能干,却没享到福

子芫伴你成长
2026-01-31 08:20:03
单场10+10,再中3记三分!火箭底薪后卫重回首发,300万年薪真香

单场10+10,再中3记三分!火箭底薪后卫重回首发,300万年薪真香

篮球看比赛
2026-01-30 13:45:28
1-0,法甲争冠热门避免2连败,反超巴黎圣日耳曼队升至榜首

1-0,法甲争冠热门避免2连败,反超巴黎圣日耳曼队升至榜首

侧身凌空斩
2026-01-31 05:46:46
兹维列夫怒斥阿卡抽筋使用医疗暂停,阿卡赛前呕吐引人担忧

兹维列夫怒斥阿卡抽筋使用医疗暂停,阿卡赛前呕吐引人担忧

网球之家
2026-01-30 22:46:01
同学聚会,老婆被起哄和初恋拥吻,我笑着鼓掌:你脏了,我不要了

同学聚会,老婆被起哄和初恋拥吻,我笑着鼓掌:你脏了,我不要了

夜阑故事集
2026-01-25 13:10:03
飞天茅台单瓶破1800元

飞天茅台单瓶破1800元

第一财经资讯
2026-01-30 22:27:19
2026-01-31 09:19:00
InfoQ incentive-icons
InfoQ
有内容的技术社区媒体
12005文章数 51727关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

特朗普听到"中英破冰"秒垮脸 失心疯的全过程被拍下

头条要闻

特朗普听到"中英破冰"秒垮脸 失心疯的全过程被拍下

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

警方通报金晨交通事故,否认网传骗保

财经要闻

白银,暴跌!黄金,40年最大跌幅!

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

健康
亲子
本地
旅游
公开课

耳石症分类型,症状大不同

亲子要闻

这孩子……

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

旅游要闻

未开发山域不是免费景区,别让探险变遇险!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版