网易首页 > 网易号 > 正文 申请入驻

慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一

0
分享至

自动化修复真实世界的软件缺陷问题是自动化程序修复研究社区的长期目标。然而,如何自动化解决视觉软件缺陷仍然是一个尚未充分探索的领域。最近,随着 SWE-bench 团队发布最新的多模态 Issue 修复基准 SWE-bench Multimodal,多模态问题修复引起了研究人员的广泛关注,如何有效的解决这类多模态问题对现有的修复系统呈现出关键挑战。

为了解决多模态修复场景,来自慕尼黑工业大学Software Engineering& AI 团队带来了一项最新研究成果:GUIRepair——《Seeing is Fixing: Cross-Modal Reasoning with Multimodal LLMs for Visual Software Issue Repair》。这项工作已经成功登上了SWE-benchMultimodal 排行榜的第一名,为多模态软件自动修复开辟了一条充满潜力的道路。目前,该论文已被软件工程领域顶级学术会议 ASE 2025 接收。

  • 论文标题:Seeing is Fixing: Cross-Modal Reasoning with Multimodal LLMs for Visual Software Issue Fixing
  • 论文链接:https://arxiv.org/abs/2506.16136

研究动机:为什么要研究 “视觉软件问题”?

在软件工程领域,自动程序修复(Automated Program Repair, APR)是一个重要方向。它的目标是利用智能技术,自动为开发者定位并修复 bug,从而节省大量人工调试的成本。随着大语言模型(LLM)的发展,APR 在许多经典基准(如 SWE-bench、Defects4J)上已经展现出了很强的性能。

然而,这些研究几乎都停留在单一模态(unimodal)的层面:

  • 输入是文本描述(issue 报告),
  • 再结合源代码,
  • 让 LLM 来推理修复。

但现实中的软件开发并没有这么 “单一”。

在现代前端开发和 GUI 应用中,用户和开发者在报告问题时,往往会附上多模态(multimodal)信息,例如使用屏幕截图来呈现并记录具体的问题场景:

  • 组件位置错乱
  • 图表显示异常
  • 按钮样式错误……

这些 GUI 相关的问题单靠文字难以描述清楚,截图提供的视觉信息往往至关重要。

然而,现有的 APR 系统很少关注视觉软件领域,它们很难直接利用并充分理解这些视觉信息。

与此同时,GUI Testing 社区虽然关注 GUI 相关的软件问题,但他们的研究重点是: “如何发现 / 暴露 bug?”

却很少考虑:“如何自动修复这些 bug?”

于是,APR 和 GUI Testing 之间出现了一道 “断层”。

解决思路:跨模态推理(Seeing is Fixing)

带着这个问题,我们提出了GUIRepair—— 一个将APR 与 GUI Testing的经验知识巧妙融合的跨模态自动修复框架。

它的设计哲学可以用一句话来概括:

Seeing is Fixing—— 只有真正 “看见” 问题,才能更好地 “修复” 问题。

GUIRepair 的核心由两个互补的跨模态组件构成:

1.Image2Code

  • 目标:帮助模型更好地理解前端的视觉问题。
  • 方法:将视觉元素转化为可执行的代码上下文,让 LLM 能够从 “图像” 中反推出 “代码行为”。
  • 意义:就像开发者看到界面异常时,会想到是哪个代码片段导致了这个 UI 错误。

2.Code2Image

  • 目标:帮助模型验证修复是否真正奏效。
  • 方法:将补丁的代码行为重新渲染为视觉输出,以提供修复行为的视觉化反馈。
  • 意义:不是只靠 “编译是否通过”,而是 让模型像人类开发者一样自己 “观察” 修复后的界面效果。

通过这两个组件,GUIRepair 在修复流程中实现了跨模态的双向转换以将视觉信息与代码行为建立联系:

  • 从图像 → 代码的理解(理解问题),
  • 再到代码 → 图像的验证(确认修复)。

实验结果:SWE-bench Multimodal 新 SOTA!

我们在SWE-bench Multimodal(SWE-bench M)上对 GUIRepair 进行了系统评测。

这是目前最具挑战性的基准之一,涵盖了517 个真实的多模态问题,广泛来源于开源 JavaScript 库(如 bpmn-js、carbon、openlayers 等)。

实验结果显示:

  • GUIRepair 在使用 GPT-4o 作为基座模型时,成功解决了30.37%的任务实例,超越了现有的使用相同模型的修复系统。
  • 当使用更强的 o3 模型时,GUIRepair 更是达到了35.98%的修复成绩,超过了现有的所有开源和商业修复系统。
  • 这也让 GUIRepair 成功登顶SWE-bench Multimodal 排行榜第一!

这项工作的意义

我们认为 GUIRepair 的贡献不仅仅是排行榜上的第一名,更在于它打开了一条新的研究方向:

  • 过去 APR 的研究重点在 “文本 + 代码”;
  • GUI Testing 的重点在 “发现问题”;
  • 而 GUIRepair 把二者结合起来,真正让模型具备了视觉理解 + 自动修复的能力。

因此,我们想借用一句经典的话来总结:

这是多模态软件工程的一小步,却是自动化程序修复的一大步。

总结

自动修复前端视觉问题,这曾经是一个被忽视的 “角落”。

而现在,我们希望通过 GUIRepair 让大家看到:跨模态的力量,正在推动自动化多模态软件工程进入一个新的时代。

也许今天只是一个小小的起点,但我们更期待未来的多模态软件工程研究将具有更广泛的应用场景和更强大的任务解决能力。

作者介绍

Kai Huang,慕尼黑工业大学 Software Engineering & AI 团队博士生,研究方向为多模态软件工程,以第一作者身份发表软件工程领域顶级会议或期刊论文 6 篇,并获得 ACM 杰出论文奖项。

Chunyang Chen,慕尼黑工业大学正教授,领导 Software Engineering & AI 团队。团队研究关注于软件工程、深度学习、以及人机交互等领域。

Jian Zhang,南洋理工大学研究员,主要关注 AI4SE 研究领域,他的工作主要发表在多个软件工程领域顶级场所(ICSE, FSE, ASE, ISSTA)。

Xiaofei Xie,新加坡管理大学助理教授,他的研究领域主要集中在人工智能系统的程序分析、软件测试、漏洞检测和质量保证。

团队介绍

慕尼黑工业大学 TUM “Software Engineering & AI” 团队隶属于 TUM 计算、信息与技术学院(School of Computation, Information and Technology, CIT),由陈春阳教授(Prof. Dr. Chunyang Chen)领导,坐落于德国 Heilbronn 校区。团队致力于软件工程、深度学习与人机交互等方向的前沿研究,并积极与全球学术界与产业界开展合作,欢迎各种形式的交流与合作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
崩了,知名光伏公司大规模停产,大面积待岗!

崩了,知名光伏公司大规模停产,大面积待岗!

黯泉
2026-03-25 21:36:39
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
2026QS世界大学学科排名正式发布!

2026QS世界大学学科排名正式发布!

双一流高校
2026-03-26 00:11:50
最近全网都在夸陈若琳长得好看,我真的想说:别光看脸啊

最近全网都在夸陈若琳长得好看,我真的想说:别光看脸啊

小光侃娱乐
2026-03-26 06:55:03
多名大学校长炮轰机器人跳舞是哗众取宠

多名大学校长炮轰机器人跳舞是哗众取宠

上峰视点
2026-03-25 19:07:57
中国最“尴尬”的5个地级市:它们根本不该在本省,应该“改嫁”

中国最“尴尬”的5个地级市:它们根本不该在本省,应该“改嫁”

好笑娱乐君每一天
2026-03-26 01:22:35
怀孕传闻真相大白后,翁帆突传“喜讯”,杨振宁终于可以放心了!

怀孕传闻真相大白后,翁帆突传“喜讯”,杨振宁终于可以放心了!

丁丁鲤史纪
2026-03-25 16:35:13
白宫:美国总统特朗普将于5月访华

白宫:美国总统特朗普将于5月访华

辇毂
2026-03-26 05:18:40
清纯得不像动作片女一号!

清纯得不像动作片女一号!

贵圈真乱
2026-03-26 11:33:33
张雪峰追悼会周六将在苏州殡仪馆举行

张雪峰追悼会周六将在苏州殡仪馆举行

界面新闻
2026-03-26 07:04:27
你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

夜深爱杂谈
2026-02-01 18:57:04
奴颜媚骨具象化,高市早苗三十年前照片被扒出,原来她从未变过!

奴颜媚骨具象化,高市早苗三十年前照片被扒出,原来她从未变过!

社会酱
2026-03-23 17:34:19
狂赚18亿!比爱马仕还狠的运动奢侈品,正在掏空中产的钱包

狂赚18亿!比爱马仕还狠的运动奢侈品,正在掏空中产的钱包

青眼财经
2026-03-17 16:03:09
哈萨克斯坦也没想到,跟着中国混来混去,结果自己也混成了个霸主

哈萨克斯坦也没想到,跟着中国混来混去,结果自己也混成了个霸主

小樾说历史
2026-03-25 12:16:16
东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
炸锅!利物浦 1.25 亿标王主动申请离队,首选下家完全出乎意料

炸锅!利物浦 1.25 亿标王主动申请离队,首选下家完全出乎意料

澜归序
2026-03-26 06:08:07
国家出手逮捕的3名华人首富,疯狂敛财坑害百姓,每个都罪有应得

国家出手逮捕的3名华人首富,疯狂敛财坑害百姓,每个都罪有应得

林轻吟
2026-03-25 07:15:32
日本不再欢迎中国人?3月起日本签证“一刀切”,华人进退两难!

日本不再欢迎中国人?3月起日本签证“一刀切”,华人进退两难!

有范又有料
2026-03-25 14:08:39
9中9轰20+9+5!杨瀚森付出一切遭库克坑苦 G联赛首次百分百命中率

9中9轰20+9+5!杨瀚森付出一切遭库克坑苦 G联赛首次百分百命中率

颜小白的篮球梦
2026-03-26 10:15:13
2026-03-26 15:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12604文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
本地
时尚
游戏
房产

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被查

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

皮衣+裙,高级到炸

DOTA2 7.41版本大更新!再见了命石,选择困难症有福了

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

无障碍浏览 进入关怀版