网易首页 > 网易号 > 正文 申请入驻

OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer

0
分享至

作者 | Daniel Dominguez

译者 | 明知山

策划 | 丁晓昀

OpenAI 发布 SWE-Lancer 基准测试,用于评估 AI 大语言模型在现实世界自由职业软件工程任务中的表现。该基准测试的数据集包含来自 Upwork 的 1400 多个任务,总价值高达 100 万美元。这些任务既包括独立的编码活动,也包括管理决策,复杂程度和报酬各有不同,充分模拟了现实世界中的自由职业场景。

SWE-Lancer 通过严格的评估方法来反映软件工程的经济价值和复杂性。它采用经过专业工程师验证的先进的端到端测试方法来评估模型在实际环境中的表现。尽管 AI 大语言模型近期取得了显著进展,但初步结果显示,这些模型在应对基准测试中的多数任务时仍然面临严峻挑战。

基准测试涵盖了多种任务,如应用程序逻辑开发、UI/UX 设计以及服务器端逻辑实现,确保能够对模型能力进行全面的评估。SWE-Lancer 还为研究人员提供了一个统一的 Docker 镜像和公共评估拆分,用以促进 AI 模型评估过程中的协作和透明度。

该项目旨在推动对 AI 在软件工程领域经济影响的研究,特别是潜在的生产力提升和对劳动力市场的影响。通过将模型性能与货币价值联系起来,SWE-Lancer 展现了 AI 在软件工程中的实际影响,并凸显了持续优化 AI 技术的重要性。

在基准测试中表现最好的模型是 Claude 3.5 Sonnet,在独立编码任务中的成功率为 26.2%,这表明 AI 能力仍有很大的提升空间。许多模型在需要深度上下文理解或评估多个提案的任务方面表现不佳,这表明未来的模型可能需要更复杂的推理能力。

一些评论表示对 SWE-Lancer 的实际应用表示怀疑,认为可能只对特定群体有吸引力,另一些人则认为这是理解 AI 对软件工程社会经济影响的关键一步,与行业向 AI 驱动的生产力工具发展的整体趋势相契合,正如 Gartner 2027 所预测的软件工程智能平台的广泛采用。

用户 Alex Bon 表示:

终于有机会让 AI 证明它也能在零工经济中生存下来了!

独立黑客 Jason Leow 则表示:

我喜欢这个发展方向。用全栈问题进行测试,将其与市场价值联系起来,这正是日常开发工作所面临的东西。我一直觉得旧的基准测试有些不太对劲。

SWE-Lancer 为评估 AI 在自由职业软件工程中的应用提供了一个重要的框架,揭示了 AI 在实际应用中的挑战与机遇。基准测试的结果凸显了进一步研究和开发的必要性,以便提升 AI 模型在现实世界软件工程任务中的表现。

查看英文原文:

https://www.infoq.com/news/2025/03/openai-swe-benchmark/

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

会议推荐

AICon 2025 强势来袭,5 月上海站、6 月北京站,双城联动,全览 AI 技术前沿和行业落地。大会聚焦技术与应用深度融合,汇聚 AI Agent、多模态、场景应用、大模型架构创新、智能数据基建、AI 产品设计和出海策略等话题。即刻扫码购票,一同探索 AI 应用边界!

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
镰刀挥下!美联储“鹰王”上位,全球资产面临的大血洗,开始了!

镰刀挥下!美联储“鹰王”上位,全球资产面临的大血洗,开始了!

丁丁鲤史纪
2026-05-28 12:29:37
中方通告全球,对菲律宾发布66号公告:马科斯知道,中国动真格了

中方通告全球,对菲律宾发布66号公告:马科斯知道,中国动真格了

深析古今
2026-05-26 18:36:56
屋漏偏逢连夜雨!60岁郭富城再迎噩耗,方媛疑产后抑郁是冰山一角

屋漏偏逢连夜雨!60岁郭富城再迎噩耗,方媛疑产后抑郁是冰山一角

悄悄史话
2026-05-28 11:44:23
豆包回应“家长听豆包给婴儿每顿只喂60ml奶”:不实,正常情况下不会给出该建议

豆包回应“家长听豆包给婴儿每顿只喂60ml奶”:不实,正常情况下不会给出该建议

扬子晚报
2026-05-28 19:39:39
张镇麟防守立功!古德温超神绝杀,鬼才卢伟命真硬,上海2-0广厦

张镇麟防守立功!古德温超神绝杀,鬼才卢伟命真硬,上海2-0广厦

后仰大风车
2026-05-28 21:46:02
英国语言学家研究表明:核心的英语单词只有850个单词!日常够了

英国语言学家研究表明:核心的英语单词只有850个单词!日常够了

户外阿毽
2026-05-26 10:37:10
茅台跌破1300,最大危机暴露

茅台跌破1300,最大危机暴露

财经保探长
2026-05-28 07:25:10
油价最新调整通知

油价最新调整通知

我爱赣榆
2026-05-28 22:13:06
千亿龙头迎来年内首个涨停;300964,午后“20CM”涨停

千亿龙头迎来年内首个涨停;300964,午后“20CM”涨停

大众证券报
2026-05-28 15:48:11
82岁老人酷爱打麻将却因年龄大上桌遭拒,4子女制免责承诺卡获网友共情;牌桌免责承诺法律效力究竟几何?律师说法

82岁老人酷爱打麻将却因年龄大上桌遭拒,4子女制免责承诺卡获网友共情;牌桌免责承诺法律效力究竟几何?律师说法

大风新闻
2026-05-28 18:07:08
荷兰军官侃侃而谈:中国早就发现我们进入南海,看了一眼就走了!

荷兰军官侃侃而谈:中国早就发现我们进入南海,看了一眼就走了!

阿龙聊军事
2026-05-28 16:05:55
小米集团总裁卢伟冰:近八成用户在试驾对比YU7标准版与特斯拉Model Y后驱版后,选择了小米

小米集团总裁卢伟冰:近八成用户在试驾对比YU7标准版与特斯拉Model Y后驱版后,选择了小米

鲁中晨报
2026-05-27 14:20:18
挂断特朗普电话,沙特王储彻底怒了:沙特永远不可能给美国当筹码

挂断特朗普电话,沙特王储彻底怒了:沙特永远不可能给美国当筹码

阿天爱旅行
2026-05-28 21:16:16
U23国足新一期集训名单公布!向余望、吾米提江领衔

U23国足新一期集训名单公布!向余望、吾米提江领衔

体坛周报
2026-05-28 18:16:17
华为Mate 90全面曝光:这次华为不是在追赶,是在改写规则!

华为Mate 90全面曝光:这次华为不是在追赶,是在改写规则!

明美无限
2026-05-28 16:20:54
特斯拉中国宣布新功能,终于要来了!

特斯拉中国宣布新功能,终于要来了!

XCiOS俱乐部
2026-05-28 15:06:23
这和不穿有啥区别?徐璐真空上阵,身材火辣,抢了所有女星风头!

这和不穿有啥区别?徐璐真空上阵,身材火辣,抢了所有女星风头!

川渝视觉
2026-05-27 22:29:45
浙江400万砸店事件引公愤!老实人被做局掏空血汗钱,更惨在后头

浙江400万砸店事件引公愤!老实人被做局掏空血汗钱,更惨在后头

爱写的樱桃
2026-05-27 20:39:36
又闷又热,大伙要记得多补水啊!

又闷又热,大伙要记得多补水啊!

贵圈真乱
2026-05-28 13:01:23
获东契奇投资认可!前中国男篮主帅乔尔杰维奇受邀执教新球队

获东契奇投资认可!前中国男篮主帅乔尔杰维奇受邀执教新球队

醉卧浮生
2026-05-28 07:00:23
2026-05-28 22:48:50
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1526文章数 150关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

男子养了3万多只鸭子雨后被冲走2万多只:损失70多万

头条要闻

男子养了3万多只鸭子雨后被冲走2万多只:损失70多万

体育要闻

唐斯经历的一切,此刻的他与尼克斯

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

特朗普重新起诉华尔街日报 索赔百亿美元

汽车要闻

宋Ultra DM-i售12.99万起 选装天神之眼B承诺一年城市领航兜底

态度原创

时尚
手机
家居
本地
房产

光脚、背“外卖盒”、羽毛头饰...早春秀谁赢了?

手机要闻

天玑机皇!小米17T系列真机图赏:徕卡+天玑强强联手

家居要闻

蜂鸟餐椅 线面交错

本地新闻

用剪纸的方式,打开江苏扬州

房产要闻

突发重磅!三亚新机场公司正式成立!

无障碍浏览 进入关怀版