4月10日讯,豆包大模型团队正式宣布,首个面向多语言开发环境的代码修复评测基准 Multi-SWE-bench 已开源。该数据集扩展了 SWE-bench 的能力,首次覆盖 Python 之外的 7 种主流编程语言(Java、Go、Rust、C、C++、TypeScript、JavaScript),构建了真实的跨语言代码修复任务。Multi-SWE-bench 包含 1,632 个实例,均来自 GitHub issue,并经过专业开发者审核,具备清晰问题描述与可复现测试环境。其引入的任务难度分级机制,涵盖从简单修改到复杂多文件操作,旨在系统评估大模型的多语言泛化能力,推动自动编程技术向支持多语言、解决真实问题的通用智能体迈进。(DoNews)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.