网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

MetaGPT 发布新型 AI 开发能力评估基准 RealDevWorld

2025-09-03 15:32:09　来源: 硅星Breaknews

上海举报

0

分享至

品玩9月3日讯，据MetaGPT官方消息，他们近日发布全新 AI 开发能力评估基准RealDevWorld，通过 RealDevBench 数据集与 AppEvalPilot 框架，为 AI 代理在实际软件开发场景中的表现提供系统性评测。

该基准包含 194 项真实开发任务，覆盖显示（50.0%）、分析（18.6%）、游戏（17.0%）、数据（14.4%）四大类别，涉及金融追踪、市场分析等多领域场景，强调从需求理解到调试的端到端评估。其创新的 “代理即评委” 模式，通过自动化 GUI 测试与交互式评估，实现 92% 的评估准确率与 85% 的人类专家相关性。

实验数据显示，AppEvalPilot 框架在多项指标上超越传统 GUI 测试方法，效率提升 47%，评估时间缩短 33%、成本降低 77%。MGX（BoN-3）、Lovable 等模型在综合排行榜中表现突出，凸显 AI 在软件工程领域的应用潜力。该基准为行业提供了标准化评估工具，有望加速 AI 驱动的软件开发技术迭代。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

1美元Token撬动4800美元收益!百万美元级基准,最赚钱Agent出现了

机器之心Pro 2026-03-10 10:06:03
0 跟贴 0
二元成功率已经过时！PRM-as-a-Judge是你需要的具身操作评测框架

机器之心Pro 2026-04-14 12:24:23
0 跟贴 0

具身智能缺数据？觅蜂科技发布MEgo：无本体采集，随走随采

雷科技 2026-04-18 19:44:51
0 跟贴 0

AI开始接管实验室了！玻尔·跃迁实验室1800+设备即插即用

量子位 2026-04-18 23:54:30
0 跟贴 0
π0.7发布，机器人迎来GPT-2时刻

智东西 2026-04-18 17:19:27
1 跟贴 1

2026北京亦庄人形机器人半程马拉松开跑

每日经济新闻 2026-04-19 08:15:07
0 跟贴 0

上海更新城乡建设用地基准地价，住宅用地差异化调整

新浪财经 2026-04-16 19:01:54
5 跟贴 5
一国可敌全球，中国数据相比其他国家就是bug

小信新鲜事 2026-04-16 01:10:46
0 跟贴 0

北约30国驻布鲁塞尔大使集体访日日本外务省：罕见

参考消息 2026-04-18 17:59:50
12506 跟贴 12506
解放军护卫舰与外舰缠斗20小时细节披露

上观新闻 2026-04-18 12:26:59
12516 跟贴 12516
伊朗就霍尔木兹海峡发表最新声明多国回应

环球网 2026-04-18 14:18:01
6200 跟贴 6200
中国全力追赶，印度将军称福建航母落后10年电磁弹射技术

赶山的姑娘 2026-04-18 15:53:35
0 跟贴 0
最低成本挑战太湖一日游——沃尔沃XC70 感恩版

新出行 2026-04-18 17:52:17
0 跟贴 0
张雪机车荷兰站首回合正赛获第四名

央视新闻客户端 2026-04-18 21:11:59
9038 跟贴 9038
川崎 H2R模型摩托

制造科技 2026-04-16 21:58:46
12 跟贴 12
揭秘年销10亿的爆款宋柚汁：“宋柚”是商标，柚含量不到3%，主配料为糖水，品牌号称全国销量第一

蓝鲸新闻 2026-04-15 09:44:24
3829 跟贴 3829
少坐特斯拉后排，这设计为了省成本，不把后排乘客安全当回事

每日一笑铺 2026-04-18 11:24:00
0 跟贴 0
学校组织10元车费去春游，男孩下车秒哭，“这是我家，油菜花还是我和爷爷一起种的，我妈刚把我送学校，你又把我带回来了”

观威海 2026-04-18 13:16:03
1628 跟贴 1628
跟我逛发布会在现场看风云T9L的拆解电机和OLED尾灯技术

SuperStreet超级街 2026-04-18 00:02:57
0 跟贴 0
和幼儿园小朋友猜拳，教官从“随便玩玩”到“认真对决”，这一幕也太可爱了！

环球网资讯 2026-04-18 11:22:20
95 跟贴 95
广东“莫氏鸡煲大公主”爆火前后反差大，晚上干到凌晨2点才收工，发文吐槽：这个鸡你们是非吃不可吗

大象新闻 2026-04-15 12:57:04
1750 跟贴 1750
快检查自家阳台！有人家里已大量出现，官方提醒：千万别摸

环球网资讯 2026-04-18 16:23:18
609 跟贴 609
组装V8汽车发动机模型

制造科技 2026-04-16 13:26:17
0 跟贴 0
东！东！东！徐州队下半场连灌卫冕冠军泰州队三球

扬子晚报 2026-04-18 21:48:04
61 跟贴 61
男子爬上泰山“五岳独尊”石刻拍照，景区：将核查其身份进行处理

扬子晚报 2026-04-17 12:09:40
1572 跟贴 1572
女子在飞猪旅行购买四张机票，实际支付金额均高于出票价格！双方协商未果，飞猪单方面退还差价，消费者无奈退票，被收取190元费用

大风新闻 2026-04-18 16:49:05
700 跟贴 700
何润东空降苏超复刻霸王巡场

上游新闻 2026-04-18 19:42:01
1170 跟贴 1170
男生每天都想“运动”，医生告诉你小妙招，成本才几块钱

笑出猪叫研究所 2026-04-18 17:07:58
1 跟贴 1
"地球或今年冲击高温极限" 国家气候中心回应

澎湃新闻 2026-04-18 11:03:07
407 跟贴 407
会6国语言的美国软件工程师流落街头，需一间房一台电脑就能翻身

唐唐说趣 2026-04-17 16:14:31
14 跟贴 14
楼市研究大反转数据揭秘住宅趋势

王波说房 2026-04-17 18:58:57
0 跟贴 0
浙江大学最新研究：3 天高强度应激致焦虑，14 天低强度转为抑郁

生物学霸 2026-04-16 17:21:40
3 跟贴 3
广东一学生上课时突然倒地停止呼吸，120调度员隔空指导老师实施胸外按压

环球网资讯 2026-04-19 07:47:11
1 跟贴 1
外卖员眼中的“禁区”：在算法与效率的夹缝中，我们正在吞下怎样的代价？

医路防老 2026-04-19 08:30:06
0 跟贴 0
跨国搬家8次后，我发现"适应力"是个伪概念

时光慢邮啊 2026-04-18 08:19:52
0 跟贴 0
公积金使用范围再扩容

界面新闻 2026-04-18 09:55:49
313 跟贴 313
日本又有新动作军事专家：其出兵海外的野心非常迫切

环球网资讯 2026-04-18 16:03:55
139 跟贴 139
年销10亿的网红“宋柚汁”。“宋柚”是商标，柚含量仅2.7%？创始人回应不是节省成本，再放就没法喝了

河南都市频道 2026-04-16 14:28:04
0 跟贴 0
好开又省油，使用成本比纯电车还低，试驾长安逸动蓝鲸超擎

侃车家 2026-04-18 17:06:36
0 跟贴 0
苹果这部"富人盗窃剧"登顶全球，流媒体在赌什么？

有态度网友ytd3049 2026-04-18 21:45:08
0 跟贴 0

全场仅2次罚球，哈登太难了！季后赛刚开打，哈登好像就被针对了

全场仅2次罚球，哈登太难了！季后赛刚开打，哈登好像就被针对了

老梁体育漫谈

2026-04-19 04:59:43

善恶到头终有报，如今73岁的唐国强，已经走上了一条不归路！

善恶到头终有报，如今73岁的唐国强，已经走上了一条不归路！

吴蒂旅行ing

2026-03-20 05:20:46

国王杯决赛：15秒进球与83分钟绝平，谁的设计更聪明？

国王杯决赛：15秒进球与83分钟绝平，谁的设计更聪明？

赛场速报局

2026-04-19 09:04:15

央视再三提醒，绑银行卡的手机，务必开启这两项功能

央视再三提醒，绑银行卡的手机，务必开启这两项功能

另子维爱读史

2026-04-18 22:46:08

深大一口气停招26个专业，这些“坑”你还在踩吗？

深大一口气停招26个专业，这些“坑”你还在踩吗？

牛锅巴小钒

2026-04-17 13:18:03

不想访华了？特朗普召回美驻华大使，贝森特放话：中国“不可靠”

不想访华了？特朗普召回美驻华大使，贝森特放话：中国“不可靠”

通文知史

2026-04-19 08:55:08

医生发现：高血压患者若每天吃水煮蛋，不用多久，或会有5个改善

医生发现：高血压患者若每天吃水煮蛋，不用多久，或会有5个改善

王医生健康讲坛

2026-04-19 08:00:15

天助拜仁：1-2，多特蒙德遭德甲第6掀翻，2轮不胜落后榜首12分

天助拜仁：1-2，多特蒙德遭德甲第6掀翻，2轮不胜落后榜首12分

凌空倒钩

2026-04-18 23:35:36

“10分钟的商务座，你拍了9分钟的照”，穷养女炫富，反被群嘲

“10分钟的商务座，你拍了9分钟的照”，穷养女炫富，反被群嘲

妍妍教育日记

2026-04-15 08:25:03

为何好多小国都莫名其妙反华？马斯克一语道破本质

为何好多小国都莫名其妙反华？马斯克一语道破本质

兴史兴谈

2026-04-06 02:41:27

56岁的王菲现身西藏，打扮的很高级，不愧是经常拜佛的人

56岁的王菲现身西藏，打扮的很高级，不愧是经常拜佛的人

乡野小珥

2026-04-11 01:30:53

美参议院同意继续动武，增派1万士兵，特朗普将挤压伊朗经济

美参议院同意继续动武，增派1万士兵，特朗普将挤压伊朗经济

山河路口

2026-04-16 10:35:02

美国妹子崩溃大哭：借9.6万美元上大学，已还16.5万，还欠22万

美国妹子崩溃大哭：借9.6万美元上大学，已还16.5万，还欠22万

贱议你读史

2026-04-19 04:30:07

以牙还牙！日本战舰闯入台海第2天，东部战区出兵战巡东海！

以牙还牙！日本战舰闯入台海第2天，东部战区出兵战巡东海！

阿龙聊军事

2026-04-19 08:46:34

日本军舰强闯台湾海峡：咱们为什么没打了它，或者上船去抓人？

日本军舰强闯台湾海峡：咱们为什么没打了它，或者上船去抓人？

黄娜老师

2026-04-19 01:00:29

腿比腰粗的女生长啥样?看完真人照片后具象化了哈哈

腿比腰粗的女生长啥样?看完真人照片后具象化了哈哈

经典段子

2026-04-13 22:33:26

弗里克给巴萨开药方：缺的不是天才，是26岁的老炮

弗里克给巴萨开药方：缺的不是天才，是26岁的老炮

赛场名场面

2026-04-18 13:52:16

女人和异性发展关系，嘴上不说，心里最在意三件事，越真实越扎心

女人和异性发展关系，嘴上不说，心里最在意三件事，越真实越扎心

加油丁小文

2026-04-19 08:30:08

惨遭清零！爱德华兹啊！四年3亿！这就没了？

惨遭清零！爱德华兹啊！四年3亿！这就没了？

篮球盛世

2026-04-18 12:50:12

交警提醒：2026新交规落地，2分彻底取消，这4类行为直接扣满12分

交警提醒：2026新交规落地，2分彻底取消，这4类行为直接扣满12分

复转这些年

2026-04-18 12:59:02

硅星Breaknews

7526文章数 73关注度

往期回顾全部

科技要闻

传Meta下月拟裁8000 大举清退人力为AI腾位

头条要闻

女子与情人在车上发生关系后被杀还被灌农药伪造殉情

头条要闻

女子与情人在车上发生关系后被杀还被灌农药伪造殉情

体育要闻

时隔25年重返英超！没有人再嘲笑他了

娱乐要闻

刘德华回应潘宏彬去世，拒谈丧礼细节

财经要闻

华谊兄弟，8年亏光85亿

汽车要闻

奇瑞威麟R08 PRO正式上市售价14.48万元起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

家居

亲子

手机

旅游

干细胞抗衰4大误区,90%的人都中招

家居要闻

法式线条时光静淌

亲子要闻

不必过度忧虑人口问题，30年内人造子宫就会像试管婴儿一样司空见惯

手机要闻

华为Pura X Max：被曝24日开卖！华为Pura 90：发售日成谜！

旅游要闻

贵州湄潭：从卖茶叶到卖体验，一片茶叶如何“玩”出新业态？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版