网易首页 > 网易号 > 正文 申请入驻

AI替代程序员?一项最新测试的结果恰恰相反 | 企服国际观察

0
分享至

AI编程已经成为生成式AI落地的过程中最热门的赛道之一,不过,近日一支由国际算法奥赛金牌得主组成的科研团队发表的论文却跟AI编程“泼了一盆冷水”。

AI优势仍停留在“知识密集型”

这支由国际算法奥赛金牌得主组成的科研团队对目前市面上常见的大模型产品(包括了GPT-4o、DeepSeek R1、Claude 3等20个顶级大模型)进行了测试(点击阅读LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?),测试主要内容是:一个由Codeforces、ICPC和IOI这些顶级赛事中的问题组成的LiveCodeBench Pro基准测试,在过程中,这些问题会持续更新,以降低数据污染的可能性,共计设置了584道编程赛题。

他们为每一个问题进行了算法类别的标注,并对模型生成的失败提交进行了逐行分析。

在难度层级设置上面,团队采用 Codeforces Elo评级启发式方法进行难度标注。官方Elo评级≤2000 的问题标记为 “简单”:世界级选手通常可使用标准教科书技术和观察在约 15 分钟内解决;中等层级(2000~3000)包含需要融合两种或更多成熟算法,并结合非平凡数学推理和观察的问题;任何评级 > 3000 的问题视为 “难”——这些挑战通常依赖极复杂、非明显的推导或演绎飞跃,需要对算法理论的精湛掌握和深厚的数学直觉。超过 99.9% 的参与者无法解决,甚至在实时竞赛中最强选手有时也未能解决。

根据该团队发布的论文显示,在没有外部工具的情况下,表现最佳的模型在中等难度问题上的通过率仅为53%,在难题上通过率为0%,而这些领域正是人类专家的强项。

除此之外,他们还发现,LLMs在实现密集型问题上表现出色,但在涉及微妙算法推理和复杂案例分析的问题上却表现不佳,常常生成看似正确实则错误的推理。高性能似乎主要由实现精度和工具增强驱动,而非 superior reasoning(优越的推理能力)。

同时,团队还对大模型在某些方面的失败分析了原因,分析表明 LLM 的代码通常语法更可靠,但在构思正确算法或从问题中提取正确观察所需的高级推理中挣扎。尽管我们的正式注释仅涵盖 o3-mini 的提交,初步人工检查表明大多数现有 LLM 共享相同的错误模式。

该团队在经过测试之后,得出了四个结论:

  • 第一,当前模型在更结构化和知识密集型问题(需要更多逻辑推导而非演绎)中表现出色,但在需要观察和创造力的观察密集型问题中表现显著更差。仅在组合数学、线段树和动态规划问题上,o4-mini-high 表现超过大师水平。
  • 第二,与人类专家相比,概念错误是模型失败的主要原因。LLM 甚至常在提供的样例输入上失败,表明对给定信息的利用不完整,即使在简单场景中也有改进空间。
  • 第三,推理模型在组合数学和知识密集型问题上,比非推理模型表现出大幅提升,而在观察密集型问题上的增益有限。
  • 第四,尽管通过增加尝试次数,可以显著提升模型整体性能,但仍难以解决高难度层级的问题。
AI编程已是“兵家必争之地”

虽然测试的结果不尽如人意,但AI编程已经成为科技大厂必争的市场,也是他们继续AI故事的重要一环。比如,微软基于GPT-4模型推出了GitHub Copilot提供代码补全、生成和错误修复功能,支持多种IDE(如VS Code、JetBrains),并新增“智能体”功能,可自主执行开发任务;OpenAI推出了Codex智能体,支持代码生成和复杂任务处理,与GitHub深度整合;谷歌推出了Gemini 2.5 Pro与JulesAI代理服务;字节跳动推出了集成Claude 3.7和GPT-4o模型的AI原生IDE支持快速原型开发,以及MarsCode一站式开发平台;美团上线了AI编程工具“NoCode” ........

从目前发展趋势上看,国内与国际科技公司聚焦的方向不尽相同,国际厂商更为强调智能体和复杂任务处理;国内工具如通义灵码、Trae等更注重本土化适配和快速开发。

AI编程当下如此之火,也让一些程序员产生了可能被AI“替代”的焦虑。不过,通过前文提及的团队测试不难看出,在一些非知识密集型的编程场景下,程序员的价值依旧很大,能力自然也超过AI。所以,虽然AI编程成为热门赛道,但对于企业而言,一位有经验,能操作高难度,具备“创造力”的程序员,依旧是企业数字化过程中的中坚力量。

而大模型仅在知识密集型的场景下具备显著优势,也不仅仅体现在编程领域。在此前笔者与行业内多名专家的交流中,他们也都向笔者表示了,大模型现在的比较有优势的场景还是主要集中在知识密集型的场景下。在这些场景下,AI确实能够帮助企业实现降本增效,不过这种能力距离我们期待的,能够统筹全局的智能体,还有很大差距。当AI能独立解决IOI金牌题时,通用人工智能才会真正到来。(本文首发于钛媒体APP,作者|张申宇,编辑丨盖虹达)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
12306上的高铁站名多个空格:恭喜 你发现了“彩蛋”

12306上的高铁站名多个空格:恭喜 你发现了“彩蛋”

快科技
2026-03-09 12:08:26
印前参谋长终于承认:印军白死了!加勒万那夜,输的根本不是胆量

印前参谋长终于承认:印军白死了!加勒万那夜,输的根本不是胆量

知识TNT
2026-03-08 11:00:08
美媒:中美下一个战场已定,中国有世界最大固体火箭先获战略优势

美媒:中美下一个战场已定,中国有世界最大固体火箭先获战略优势

混沌录
2026-03-07 16:44:13
网红瑶一瑶被爆料,为保持萌态人为抑制长高,母亲对此亲自回应

网红瑶一瑶被爆料,为保持萌态人为抑制长高,母亲对此亲自回应

手工制作阿歼
2026-03-08 13:04:50
1998年数万华人遭屠杀,中国为何没出兵?26年后答案让人沉默

1998年数万华人遭屠杀,中国为何没出兵?26年后答案让人沉默

哄动一时啊
2026-02-17 22:21:25
仗打到第10天,以色列发现情况不对劲,美国正在私下里联系伊朗

仗打到第10天,以色列发现情况不对劲,美国正在私下里联系伊朗

轩逸阿II
2026-03-09 12:51:24
宫鲁鸣最大失误:不是没招李梦、晚招刘禹彤,而是用错张子宇

宫鲁鸣最大失误:不是没招李梦、晚招刘禹彤,而是用错张子宇

卿子书
2026-03-08 10:46:27
哈梅内伊之子穆杰塔巴成为伊朗新任最高领袖,也门胡塞武装发声

哈梅内伊之子穆杰塔巴成为伊朗新任最高领袖,也门胡塞武装发声

环球网资讯
2026-03-09 08:41:57
蒋介石逃往台湾,亲自点名要带走的3位女性,她们的结局如何?

蒋介石逃往台湾,亲自点名要带走的3位女性,她们的结局如何?

兵鉴史
2026-03-07 06:38:09
定了!2026高速收费新政正式落地:全国车主通行大变样3月起执行

定了!2026高速收费新政正式落地:全国车主通行大变样3月起执行

周哥一影视
2026-03-09 10:18:45
15年前,那个当着全世界喝下核污染水的日本官员,如今还活着吗

15年前,那个当着全世界喝下核污染水的日本官员,如今还活着吗

小蜜情感说
2026-03-06 16:52:42
为了拒绝勒布朗的封神主题曲邀约,霉霉究竟付出了多大代价?

为了拒绝勒布朗的封神主题曲邀约,霉霉究竟付出了多大代价?

罗氏八卦
2026-03-08 18:00:03
伊朗表明态度,霍尔木兹海峡开放,但不是谁都能过的!

伊朗表明态度,霍尔木兹海峡开放,但不是谁都能过的!

米师傅安装
2026-03-09 12:17:24
笑麻!双胞胎的父母崩溃瞬间,网友:鸡都不敢买整只

笑麻!双胞胎的父母崩溃瞬间,网友:鸡都不敢买整只

另子维爱读史
2026-03-08 22:25:26
中核集团的顾军被查了。最让人脊背发凉的是他的第一个身份

中核集团的顾军被查了。最让人脊背发凉的是他的第一个身份

南权先生
2026-02-02 16:05:36
全球市场持续抛售!国际油价破110美元,韩国股市再度触发熔断,全球股债齐跌

全球市场持续抛售!国际油价破110美元,韩国股市再度触发熔断,全球股债齐跌

第一财经资讯
2026-03-09 11:28:09
2-0大冷门,仅29%控球率仍赢,西甲第11掀翻西甲第5,迎2连胜

2-0大冷门,仅29%控球率仍赢,西甲第11掀翻西甲第5,迎2连胜

凌空倒钩
2026-03-09 04:36:15
全国政协委员、吉利控股集团董事长李书福:以甲醇为载体破解风光电消纳难题 助力绿色交通转型

全国政协委员、吉利控股集团董事长李书福:以甲醇为载体破解风光电消纳难题 助力绿色交通转型

中国能源网
2026-03-08 15:25:02
一个危险的信号:若中方拒绝特朗普来华,意味着中美关系彻底破裂

一个危险的信号:若中方拒绝特朗普来华,意味着中美关系彻底破裂

米师傅安装
2026-03-09 12:12:45
巴黎这一夜!戴20斤大耳钉的宋佳,让全世界 看到了她的江湖地位

巴黎这一夜!戴20斤大耳钉的宋佳,让全世界 看到了她的江湖地位

林雁飞
2026-03-06 16:40:51
2026-03-09 13:36:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
130406文章数 861911关注度
往期回顾 全部

科技要闻

冲上热搜,马化腾说没想到“龙虾”这么火

头条要闻

穆杰塔巴"冒死"接班 或让伊朗进入"复仇+军管"模式

头条要闻

穆杰塔巴"冒死"接班 或让伊朗进入"复仇+军管"模式

体育要闻

36连胜终结!大魔王也是可以战胜的

娱乐要闻

姆巴佩恋情确认!与26岁新欢共度良宵

财经要闻

油价直逼120美元!

汽车要闻

对标奔驰小号G级 路虎小型卫士最新消息曝光

态度原创

家居
游戏
亲子
数码
公开课

家居要闻

独栋独院 精致亲子墅

V社员工给《半条命2》刷差评?真相让玩家哭笑不得

亲子要闻

杭州医院生长贴火 孩子贴后长高6-7厘米

数码要闻

Oukitel公布全球首款集成光伏的强固型工业笔记本电脑RG14-P

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版