网易首页 > 网易号 > 正文 申请入驻

慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一

0
分享至



自动化修复真实世界的软件缺陷问题是自动化程序修复研究社区的长期目标。然而,如何自动化解决视觉软件缺陷仍然是一个尚未充分探索的领域。最近,随着 SWE-bench 团队发布最新的多模态 Issue 修复基准 SWE-bench Multimodal,多模态问题修复引起了研究人员的广泛关注,如何有效的解决这类多模态问题对现有的修复系统呈现出关键挑战。

为了解决多模态修复场景,来自慕尼黑工业大学Software Engineering& AI 团队带来了一项最新研究成果:GUIRepair——《Seeing is Fixing: Cross-Modal Reasoning with Multimodal LLMs for Visual Software Issue Repair》。这项工作已经成功登上了SWE-benchMultimodal 排行榜的第一名,为多模态软件自动修复开辟了一条充满潜力的道路。目前,该论文已被软件工程领域顶级学术会议 ASE 2025 接收。



  • 论文标题:Seeing is Fixing: Cross-Modal Reasoning with Multimodal LLMs for Visual Software Issue Fixing
  • 论文链接:https://arxiv.org/abs/2506.16136

研究动机:为什么要研究 “视觉软件问题”?

在软件工程领域,自动程序修复(Automated Program Repair, APR)是一个重要方向。它的目标是利用智能技术,自动为开发者定位并修复 bug,从而节省大量人工调试的成本。随着大语言模型(LLM)的发展,APR 在许多经典基准(如 SWE-bench、Defects4J)上已经展现出了很强的性能。

然而,这些研究几乎都停留在单一模态(unimodal)的层面:

  • 输入是文本描述(issue 报告),
  • 再结合源代码,
  • 让 LLM 来推理修复。

但现实中的软件开发并没有这么 “单一”。

在现代前端开发和 GUI 应用中,用户和开发者在报告问题时,往往会附上多模态(multimodal)信息,例如使用屏幕截图来呈现并记录具体的问题场景:

  • 组件位置错乱
  • 图表显示异常
  • 按钮样式错误……



这些 GUI 相关的问题单靠文字难以描述清楚,截图提供的视觉信息往往至关重要。

然而,现有的 APR 系统很少关注视觉软件领域,它们很难直接利用并充分理解这些视觉信息。

与此同时,GUI Testing 社区虽然关注 GUI 相关的软件问题,但他们的研究重点是: “如何发现 / 暴露 bug?”

却很少考虑:“如何自动修复这些 bug?”

于是,APR 和 GUI Testing 之间出现了一道 “断层”。

解决思路:跨模态推理(Seeing is Fixing)

带着这个问题,我们提出了GUIRepair—— 一个将APR 与 GUI Testing的经验知识巧妙融合的跨模态自动修复框架。



它的设计哲学可以用一句话来概括:

Seeing is Fixing—— 只有真正 “看见” 问题,才能更好地 “修复” 问题。

GUIRepair 的核心由两个互补的跨模态组件构成:

1.Image2Code

  • 目标:帮助模型更好地理解前端的视觉问题。
  • 方法:将视觉元素转化为可执行的代码上下文,让 LLM 能够从 “图像” 中反推出 “代码行为”。
  • 意义:就像开发者看到界面异常时,会想到是哪个代码片段导致了这个 UI 错误。

2.Code2Image

  • 目标:帮助模型验证修复是否真正奏效。
  • 方法:将补丁的代码行为重新渲染为视觉输出,以提供修复行为的视觉化反馈。
  • 意义:不是只靠 “编译是否通过”,而是 让模型像人类开发者一样自己 “观察” 修复后的界面效果。

通过这两个组件,GUIRepair 在修复流程中实现了跨模态的双向转换以将视觉信息与代码行为建立联系:

  • 从图像 → 代码的理解(理解问题),
  • 再到代码 → 图像的验证(确认修复)。

实验结果:SWE-bench Multimodal 新 SOTA!

我们在SWE-bench Multimodal(SWE-bench M)上对 GUIRepair 进行了系统评测。

这是目前最具挑战性的基准之一,涵盖了517 个真实的多模态问题,广泛来源于开源 JavaScript 库(如 bpmn-js、carbon、openlayers 等)。

实验结果显示:

  • GUIRepair 在使用 GPT-4o 作为基座模型时,成功解决了30.37%的任务实例,超越了现有的使用相同模型的修复系统。
  • 当使用更强的 o3 模型时,GUIRepair 更是达到了35.98%的修复成绩,超过了现有的所有开源和商业修复系统。
  • 这也让 GUIRepair 成功登顶SWE-bench Multimodal 排行榜第一!



这项工作的意义

我们认为 GUIRepair 的贡献不仅仅是排行榜上的第一名,更在于它打开了一条新的研究方向:

  • 过去 APR 的研究重点在 “文本 + 代码”;
  • GUI Testing 的重点在 “发现问题”;
  • 而 GUIRepair 把二者结合起来,真正让模型具备了视觉理解 + 自动修复的能力。

因此,我们想借用一句经典的话来总结:

这是多模态软件工程的一小步,却是自动化程序修复的一大步。

总结

自动修复前端视觉问题,这曾经是一个被忽视的 “角落”。

而现在,我们希望通过 GUIRepair 让大家看到:跨模态的力量,正在推动自动化多模态软件工程进入一个新的时代。

也许今天只是一个小小的起点,但我们更期待未来的多模态软件工程研究将具有更广泛的应用场景和更强大的任务解决能力。

作者介绍

Kai Huang,慕尼黑工业大学 Software Engineering & AI 团队博士生,研究方向为多模态软件工程,以第一作者身份发表软件工程领域顶级会议或期刊论文 6 篇,并获得 ACM 杰出论文奖项。

Chunyang Chen,慕尼黑工业大学正教授,领导 Software Engineering & AI 团队。团队研究关注于软件工程、深度学习、以及人机交互等领域。

Jian Zhang,南洋理工大学研究员,主要关注 AI4SE 研究领域,他的工作主要发表在多个软件工程领域顶级场所(ICSE, FSE, ASE, ISSTA)。

Xiaofei Xie,新加坡管理大学助理教授,他的研究领域主要集中在人工智能系统的程序分析、软件测试、漏洞检测和质量保证。

团队介绍

慕尼黑工业大学 TUM “Software Engineering & AI” 团队隶属于 TUM 计算、信息与技术学院(School of Computation, Information and Technology, CIT),由陈春阳教授(Prof. Dr. Chunyang Chen)领导,坐落于德国 Heilbronn 校区。团队致力于软件工程、深度学习与人机交互等方向的前沿研究,并积极与全球学术界与产业界开展合作,欢迎各种形式的交流与合作。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
TVB女星膝骨碎裂送医,与男友相恋四十年达成不生育共识

TVB女星膝骨碎裂送医,与男友相恋四十年达成不生育共识

仙味少女心
2026-01-07 18:35:09
功夫巨星献祭女儿!

功夫巨星献祭女儿!

八卦疯叔
2026-01-08 13:26:35
开业仅8年,番禺宜家为何说关就关?

开业仅8年,番禺宜家为何说关就关?

楼市前线
2026-01-07 21:11:08
能拼能抢的火箭就是没法把球放进篮圈?

能拼能抢的火箭就是没法把球放进篮圈?

邓肯的笑
2026-01-08 18:29:03
在自家公司上班有多惨?网友:感同身受,想逃但是还不够能力

在自家公司上班有多惨?网友:感同身受,想逃但是还不够能力

解读热点事件
2025-12-29 00:05:13
天然气比京津还贵!河北农村供暖成难题,有气不敢开,百姓意见大

天然气比京津还贵!河北农村供暖成难题,有气不敢开,百姓意见大

眼光很亮
2026-01-02 14:37:34
浙大研究:阿尔兹海默症早期不是记性差,而是身上6表现,需注意

浙大研究:阿尔兹海默症早期不是记性差,而是身上6表现,需注意

岐黄传人孙大夫
2026-01-05 14:28:04
安徽542万大奖无人认领弃奖,工作人员:特意留门到23时59分

安徽542万大奖无人认领弃奖,工作人员:特意留门到23时59分

观威海
2026-01-08 10:38:22
大洗牌!中国10大机场城市,又变了

大洗牌!中国10大机场城市,又变了

国民经略
2026-01-07 11:44:42
林建岳母亲余宝珠101岁了,只认前儿媳谢玲玲,四代同堂为她庆生

林建岳母亲余宝珠101岁了,只认前儿媳谢玲玲,四代同堂为她庆生

照见古今
2026-01-07 19:42:45
毛主席去世后,华国锋除了依靠叶帅外,还有几个大员是他信任的

毛主席去世后,华国锋除了依靠叶帅外,还有几个大员是他信任的

谈古论今历史有道
2026-01-07 07:45:03
郭正亮见2026民调“非常麻烦”:国民党要正视目前氛围

郭正亮见2026民调“非常麻烦”:国民党要正视目前氛围

新时光点滴
2026-01-08 01:33:31
五十六岁的钟丽缇更加油腻了,从机场出来,150斤的体重惊呆众人

五十六岁的钟丽缇更加油腻了,从机场出来,150斤的体重惊呆众人

可乐谈情感
2026-01-08 06:28:33
闫学晶风波再升级!称自己的钱够花几辈子,凭本事吃饭,爱咋咋地

闫学晶风波再升级!称自己的钱够花几辈子,凭本事吃饭,爱咋咋地

小徐讲八卦
2026-01-08 10:34:47
王思聪成功和懒懒分手,回国的懒懒被曝变卖奢侈品,网友吐槽太贵

王思聪成功和懒懒分手,回国的懒懒被曝变卖奢侈品,网友吐槽太贵

娱乐团长
2025-11-16 15:45:42
告别8号仓!龙华核心区57万㎡住宅来袭,周边房价已松动

告别8号仓!龙华核心区57万㎡住宅来袭,周边房价已松动

乐居好房
2026-01-08 15:42:02
他是姚明前队友,因伤病缺钱治疗,瘫痪在床,靠70岁母亲拾荒生活

他是姚明前队友,因伤病缺钱治疗,瘫痪在床,靠70岁母亲拾荒生活

篮球看比赛
2026-01-08 11:41:29
骗你的,其实AI根本不需要那么多提示词。

骗你的,其实AI根本不需要那么多提示词。

差评XPIN
2026-01-07 00:13:05
中东国家都意识到了,就算中国高端武器再多,也没办法保护他们!

中东国家都意识到了,就算中国高端武器再多,也没办法保护他们!

近史博览
2026-01-05 20:40:01
屋内血迹斑斑,租客不见踪影!广东一房东:凌晨曾收到满屏“救命”留言

屋内血迹斑斑,租客不见踪影!广东一房东:凌晨曾收到满屏“救命”留言

环球网资讯
2026-01-08 17:02:14
2026-01-08 19:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12080文章数 142532关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

陈志被押解回国 太子银行进入清算程序贷款人仍需还款

头条要闻

陈志被押解回国 太子银行进入清算程序贷款人仍需还款

体育要闻

约基奇倒下后,一位故人邪魅一笑

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

游戏
艺术
家居
公开课
军事航空

“很多士兵会死” 制作人透露《绝地潜兵2》重大更新

艺术要闻

颐和园金光穿洞

家居要闻

理性主义 冷调自由居所

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普提出将美国军费提升至1.5万亿美元

无障碍浏览 进入关怀版