品玩9月3日讯,据MetaGPT官方消息,他们近日发布全新 AI 开发能力评估基准RealDevWorld,通过 RealDevBench 数据集与 AppEvalPilot 框架,为 AI 代理在实际软件开发场景中的表现提供系统性评测。
该基准包含 194 项真实开发任务,覆盖显示(50.0%)、分析(18.6%)、游戏(17.0%)、数据(14.4%)四大类别,涉及金融追踪、市场分析等多领域场景,强调从需求理解到调试的端到端评估。其创新的 “代理即评委” 模式,通过自动化 GUI 测试与交互式评估,实现 92% 的评估准确率与 85% 的人类专家相关性。
实验数据显示,AppEvalPilot 框架在多项指标上超越传统 GUI 测试方法,效率提升 47%,评估时间缩短 33%、成本降低 77%。MGX(BoN-3)、Lovable 等模型在综合排行榜中表现突出,凸显 AI 在软件工程领域的应用潜力。该基准为行业提供了标准化评估工具,有望加速 AI 驱动的软件开发技术迭代。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.