网易首页 > 网易号 > 正文 申请入驻

AI替代程序员?一项最新测试的结果恰恰相反 | 企服国际观察

0
分享至

AI编程已经成为生成式AI落地的过程中最热门的赛道之一,不过,近日一支由国际算法奥赛金牌得主组成的科研团队发表的论文却跟AI编程“泼了一盆冷水”。

AI优势仍停留在“知识密集型”

这支由国际算法奥赛金牌得主组成的科研团队对目前市面上常见的大模型产品(包括了GPT-4o、DeepSeek R1、Claude 3等20个顶级大模型)进行了测试(点击阅读LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?),测试主要内容是:一个由Codeforces、ICPC和IOI这些顶级赛事中的问题组成的LiveCodeBench Pro基准测试,在过程中,这些问题会持续更新,以降低数据污染的可能性,共计设置了584道编程赛题。

他们为每一个问题进行了算法类别的标注,并对模型生成的失败提交进行了逐行分析。

在难度层级设置上面,团队采用 Codeforces Elo评级启发式方法进行难度标注。官方Elo评级≤2000 的问题标记为 “简单”:世界级选手通常可使用标准教科书技术和观察在约 15 分钟内解决;中等层级(2000~3000)包含需要融合两种或更多成熟算法,并结合非平凡数学推理和观察的问题;任何评级 > 3000 的问题视为 “难”——这些挑战通常依赖极复杂、非明显的推导或演绎飞跃,需要对算法理论的精湛掌握和深厚的数学直觉。超过 99.9% 的参与者无法解决,甚至在实时竞赛中最强选手有时也未能解决。

根据该团队发布的论文显示,在没有外部工具的情况下,表现最佳的模型在中等难度问题上的通过率仅为53%,在难题上通过率为0%,而这些领域正是人类专家的强项。

除此之外,他们还发现,LLMs在实现密集型问题上表现出色,但在涉及微妙算法推理和复杂案例分析的问题上却表现不佳,常常生成看似正确实则错误的推理。高性能似乎主要由实现精度和工具增强驱动,而非 superior reasoning(优越的推理能力)。

同时,团队还对大模型在某些方面的失败分析了原因,分析表明 LLM 的代码通常语法更可靠,但在构思正确算法或从问题中提取正确观察所需的高级推理中挣扎。尽管我们的正式注释仅涵盖 o3-mini 的提交,初步人工检查表明大多数现有 LLM 共享相同的错误模式。

该团队在经过测试之后,得出了四个结论:

  • 第一,当前模型在更结构化和知识密集型问题(需要更多逻辑推导而非演绎)中表现出色,但在需要观察和创造力的观察密集型问题中表现显著更差。仅在组合数学、线段树和动态规划问题上,o4-mini-high 表现超过大师水平。
  • 第二,与人类专家相比,概念错误是模型失败的主要原因。LLM 甚至常在提供的样例输入上失败,表明对给定信息的利用不完整,即使在简单场景中也有改进空间。
  • 第三,推理模型在组合数学和知识密集型问题上,比非推理模型表现出大幅提升,而在观察密集型问题上的增益有限。
  • 第四,尽管通过增加尝试次数,可以显著提升模型整体性能,但仍难以解决高难度层级的问题。
AI编程已是“兵家必争之地”

虽然测试的结果不尽如人意,但AI编程已经成为科技大厂必争的市场,也是他们继续AI故事的重要一环。比如,微软基于GPT-4模型推出了GitHub Copilot提供代码补全、生成和错误修复功能,支持多种IDE(如VS Code、JetBrains),并新增“智能体”功能,可自主执行开发任务;OpenAI推出了Codex智能体,支持代码生成和复杂任务处理,与GitHub深度整合;谷歌推出了Gemini 2.5 Pro与JulesAI代理服务;字节跳动推出了集成Claude 3.7和GPT-4o模型的AI原生IDE支持快速原型开发,以及MarsCode一站式开发平台;美团上线了AI编程工具“NoCode” ........

从目前发展趋势上看,国内与国际科技公司聚焦的方向不尽相同,国际厂商更为强调智能体和复杂任务处理;国内工具如通义灵码、Trae等更注重本土化适配和快速开发。

AI编程当下如此之火,也让一些程序员产生了可能被AI“替代”的焦虑。不过,通过前文提及的团队测试不难看出,在一些非知识密集型的编程场景下,程序员的价值依旧很大,能力自然也超过AI。所以,虽然AI编程成为热门赛道,但对于企业而言,一位有经验,能操作高难度,具备“创造力”的程序员,依旧是企业数字化过程中的中坚力量。

而大模型仅在知识密集型的场景下具备显著优势,也不仅仅体现在编程领域。在此前笔者与行业内多名专家的交流中,他们也都向笔者表示了,大模型现在的比较有优势的场景还是主要集中在知识密集型的场景下。在这些场景下,AI确实能够帮助企业实现降本增效,不过这种能力距离我们期待的,能够统筹全局的智能体,还有很大差距。当AI能独立解决IOI金牌题时,通用人工智能才会真正到来。(本文首发于钛媒体APP,作者|张申宇,编辑丨盖虹达)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
于晓光做梦没想到,韩国总统访华仅3天,46岁秋瓷炫竟意外火出圈

于晓光做梦没想到,韩国总统访华仅3天,46岁秋瓷炫竟意外火出圈

爱下厨的阿酾
2026-01-07 10:19:28
毕福剑没想到,如今硕士毕业的女儿,竟和前妻过上高攀不起的生活

毕福剑没想到,如今硕士毕业的女儿,竟和前妻过上高攀不起的生活

查尔菲的笔记
2026-01-07 13:10:16
美国向中东派遣至少50架加油机,神棍计划外逃莫斯科

美国向中东派遣至少50架加油机,神棍计划外逃莫斯科

金召点评
2026-01-06 09:59:38
中国加速替代禁令的影响开始显现,日媒:我们的根被自己斩断了!

中国加速替代禁令的影响开始显现,日媒:我们的根被自己斩断了!

说宇宙
2025-12-28 14:00:03
YU7新车未出店,后备箱就打不开,车主要退车!小米回应

YU7新车未出店,后备箱就打不开,车主要退车!小米回应

都市快报橙柿互动
2026-01-06 18:17:35
原来她是王石大女儿,比后妈年龄还大,45岁单身不结婚父亲愁白头

原来她是王石大女儿,比后妈年龄还大,45岁单身不结婚父亲愁白头

银河史记
2026-01-06 12:33:04
美国学者杰弗里·萨克斯:美国试图主宰美洲的做法将引发暴力事件

美国学者杰弗里·萨克斯:美国试图主宰美洲的做法将引发暴力事件

环球网资讯
2026-01-06 17:42:10
电网设备迎价值重估,非常正宗的10家龙头企业(精选名单)

电网设备迎价值重估,非常正宗的10家龙头企业(精选名单)

特特农村生活
2026-01-07 05:27:24
于晓光做梦没想到,韩国总统访华仅3天,46岁秋瓷炫竟意外火出圈

于晓光做梦没想到,韩国总统访华仅3天,46岁秋瓷炫竟意外火出圈

一娱三分地
2026-01-06 20:16:31
皇帝让自己姑姑侍寝,姑姑开始反对后来顺从,还怂恿他杀自己丈夫

皇帝让自己姑姑侍寝,姑姑开始反对后来顺从,还怂恿他杀自己丈夫

铭记历史呀
2025-12-17 18:02:13
马杜罗迎来帮手,六国挺身而出,四国对美国发出通牒,特朗普急了

马杜罗迎来帮手,六国挺身而出,四国对美国发出通牒,特朗普急了

来科点谱
2026-01-06 09:00:36
中方会因委内瑞拉事件呼吁对美制裁吗?外交部回应

中方会因委内瑞拉事件呼吁对美制裁吗?外交部回应

澎湃新闻
2026-01-06 15:46:30
全国唯一,中国卫星,迎战商业航天!

全国唯一,中国卫星,迎战商业航天!

投研邦V
2026-01-07 19:37:49
博尔特现状:退役8年生3娃,每年领400万美元,39岁上楼都能喘气

博尔特现状:退役8年生3娃,每年领400万美元,39岁上楼都能喘气

削桐作琴
2025-12-25 17:32:09
苹果官网上架马年手机保护壳,售价449元

苹果官网上架马年手机保护壳,售价449元

界面新闻
2026-01-06 11:14:08
体检报告中,若这3个指标都正常,基本可排除很多疾病

体检报告中,若这3个指标都正常,基本可排除很多疾病

财经早餐
2025-08-05 06:38:02
特斯拉中国:购买Model 3和Model Y、Model Y L车型5年0息

特斯拉中国:购买Model 3和Model Y、Model Y L车型5年0息

极目新闻
2026-01-06 09:58:24
河南一大爷实拍“素颜巴黎”照片火遍全网,埃菲尔铁塔被调侃像“电线塔

河南一大爷实拍“素颜巴黎”照片火遍全网,埃菲尔铁塔被调侃像“电线塔

大象新闻
2026-01-07 19:53:19
澳网公布创纪录奖金池,史上最大奖金提升引发热议

澳网公布创纪录奖金池,史上最大奖金提升引发热议

网球之家
2026-01-06 22:35:27
辽宁动真格了!向教师违规收受礼品礼金“亮剑”,还校园一片净土

辽宁动真格了!向教师违规收受礼品礼金“亮剑”,还校园一片净土

冬天来旅游
2026-01-07 13:43:17
2026-01-07 23:31:00
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
128591文章数 861591关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

美军扣押俄潜艇护航的"水手"油轮 美方人员已上船

头条要闻

美军扣押俄潜艇护航的"水手"油轮 美方人员已上船

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

健康
家居
手机
本地
公开课

这些新疗法,让化疗不再那么痛苦

家居要闻

宁静不单调 恰到好处的美

手机要闻

华为Mate 60系列等机型推送鸿蒙OS 6 125版本升级 5A信号标识来了

本地新闻

“闽东利剑·惠民安商”高效执行专项行动

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版