网易首页 > 网易号 > 正文 申请入驻

OpenAI 最新研究:当前 AI 模型仍无法媲美人类程序员

0
分享至

IT之家 2 月 24 日消息,尽管 OpenAI 首席执行官萨姆・奥尔特曼(Sam Altman)坚称,到今年年底,人工智能模型将能够超越“低级别”软件工程师,但该公司研究人员的最新研究却表明,即使是目前最先进的 AI 模型,仍无法与人类程序员相媲美。

研究人员在一篇新论文中指出,即使是前沿模型 —— 即那些最具创新性和突破性的 AI 系统 ——“仍然无法解决大多数”编程任务。为此,研究人员开发了一个名为 SWE-Lancer 的新基准测试工具,该工具基于自由职业者网站 Upwork 上的 1400 多个软件工程任务。通过这一基准测试,OpenAI 对三款大型语言模型(LLMs)进行了测试,分别是其自身的 o1 推理模型、旗舰产品 GPT-4o,以及 Anthropic 公司的 Claude 3.5 Sonnet。

具体而言,这一新基准测试评估了这些 LLMs 在处理 Upwork 上的两类任务时的表现:一类是个体任务,涉及修复漏洞并实施修复措施;另一类是管理任务,要求模型从更宏观的角度做出更高层次的决策。值得注意的是,在测试过程中,这些模型被禁止访问互联网,因此它们无法直接抄袭网上已有的类似答案。

这些模型所承担的任务在 Upwork 上的价值累计可达数十万美元,但它们仅能解决一些表面的软件问题,却无法在大型项目中真正找到漏洞及其根源。这种“半成品”的解决方案,对于与 AI 有过合作经验的人来说并不陌生 ——AI 擅长输出听起来自信满满的信息,但在仔细审查时往往漏洞百出。

尽管论文指出,这三款 LLMs 通常能够“远快于人类”地完成任务,但它们却无法理解漏洞的广泛性及其背景,从而导致解决方案“错误或不够全面”。

研究人员解释称,Claude 3.5 Sonnet 的表现优于另外两款 OpenAI 模型,并且在测试中“赚取”的金额也超过了 o1 和 GPT-4o。然而,其大多数答案仍然是错误的。研究人员指出,任何模型若想被真正用于实际编程任务,都需要具备“更高的可靠性”。

简而言之,该论文似乎表明,尽管这些前沿模型能够快速地处理一些细节任务,但它们在处理这些任务时的技能水平,仍远远不及人类工程师。

尽管近年来这些大型语言模型取得了快速的发展,并且未来还会继续进步,但它们目前在软件工程领域的技能水平仍不足以取代人类。然而IT之家注意到,这似乎并未阻止一些首席执行官解雇人类程序员,转而使用这些尚未成熟的 AI 模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比失业更可怕的是工资倒退,深圳的工资已经降到了10年前

比失业更可怕的是工资倒退,深圳的工资已经降到了10年前

细说职场
2026-04-07 11:32:47
特朗普迎来最黑暗一天,美海军遭遇历史性耻辱,沙特对美信任崩塌

特朗普迎来最黑暗一天,美海军遭遇历史性耻辱,沙特对美信任崩塌

梦史
2026-04-12 09:21:00
匈牙利大选投票率创历史新高,欧尔班前途未卜

匈牙利大选投票率创历史新高,欧尔班前途未卜

山河路口
2026-04-12 18:38:44
为什么女人从第一次同房后,就会变得越来越爱?

为什么女人从第一次同房后,就会变得越来越爱?

思絮
2026-04-08 09:36:06
山西吕梁中院一法官被曝在其办公室内猥亵案件当事人,警方已立案

山西吕梁中院一法官被曝在其办公室内猥亵案件当事人,警方已立案

极目新闻
2026-04-12 15:32:42
震惊!做普工都要验资了,网传深圳一工厂招工,身价最低300元起

震惊!做普工都要验资了,网传深圳一工厂招工,身价最低300元起

火山詩话
2026-04-11 14:54:51
“这增长速度,在英国前所未见”

“这增长速度,在英国前所未见”

观察者网
2026-04-12 20:30:32
意甲奇景:尤文米兰齐呼国米加油!争四形势大乱,国米要稳住!

意甲奇景:尤文米兰齐呼国米加油!争四形势大乱,国米要稳住!

肥强侃球
2026-04-12 21:40:59
52 岁张震岳湘江边夜跑!黝黑络腮胡像外国人,男人味拉满

52 岁张震岳湘江边夜跑!黝黑络腮胡像外国人,男人味拉满

南万说娱26
2026-04-12 15:22:37
美国小费越来越离谱,心疼钱也得给:专家建议自取餐也给几美元

美国小费越来越离谱,心疼钱也得给:专家建议自取餐也给几美元

华人生活网
2026-04-13 04:59:41
又大又圆的尤物!蕾丝一穿,透而不妖,辣而不艳

又大又圆的尤物!蕾丝一穿,透而不妖,辣而不艳

飛娱日记
2026-04-12 09:34:57
中超积分战报:青岛海牛补时绝平,北京国安被逆转,深圳3-4憾负

中超积分战报:青岛海牛补时绝平,北京国安被逆转,深圳3-4憾负

足球狗说
2026-04-12 22:14:57
王石夫妇不必如此动怒

王石夫妇不必如此动怒

不主流讲话
2026-04-13 04:53:29
行程结束,王毅离开朝鲜,临走前去了一个特殊地方,韩国悄然撤兵

行程结束,王毅离开朝鲜,临走前去了一个特殊地方,韩国悄然撤兵

妙知
2026-04-12 07:39:38
这张照片是2014年张雪峰和他的妻子李丽婧,在清华大学拍的结婚照

这张照片是2014年张雪峰和他的妻子李丽婧,在清华大学拍的结婚照

喜欢历史的阿繁
2026-04-11 06:47:10
皇马肠子悔青!当年不听齐达内的,如今被瓜迪奥拉狠狠打脸

皇马肠子悔青!当年不听齐达内的,如今被瓜迪奥拉狠狠打脸

奶盖熊本熊
2026-04-13 04:43:26
上半年贵人助,下半年横财追,这3生肖好运旺不停!人生迎新高

上半年贵人助,下半年横财追,这3生肖好运旺不停!人生迎新高

毅谈生肖
2026-04-12 11:22:09
非夫妻开房,民警提醒:只要不干这个,谁管你是不是夫妻

非夫妻开房,民警提醒:只要不干这个,谁管你是不是夫妻

君说舆情
2026-04-07 08:35:16
情侣在餐厅秀恩爱,女友手部动作不雅被偷拍,目击者:都看习惯了

情侣在餐厅秀恩爱,女友手部动作不雅被偷拍,目击者:都看习惯了

李晚书
2026-04-10 17:13:10
为这场和谈,巴基斯坦押上国运!万人封城不给以色列任何可乘之机

为这场和谈,巴基斯坦押上国运!万人封城不给以色列任何可乘之机

青青子衿
2026-04-11 02:19:32
2026-04-13 05:35:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
338662文章数 607127关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

伊媒:美驱逐舰遭革命卫队锁定 距离被摧毁仅差几分钟

头条要闻

伊媒:美驱逐舰遭革命卫队锁定 距离被摧毁仅差几分钟

体育要闻

创造历史!五大联赛首位女性主教练诞生

娱乐要闻

赌王女儿何超蕸病逝,常年和乳癌斗争

财经要闻

美伊谈判破裂的三大症结

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

数码
旅游
亲子
教育
时尚

数码要闻

苹果版套娃 买台Mac Pro回家:打开一看里面还藏着一台Mac Pro

旅游要闻

北京:郁金香迎来盛花期

亲子要闻

“晚上疼得睡不着”!8岁女童双眼、身上被灼伤!警惕这东西,不少人家里有

教育要闻

小班教学,9月开校,树德派校长!这所中学,正在招老师

被周冬雨、林更新戴上热搜的珠宝,究竟有多惊艳?

无障碍浏览 进入关怀版