网易首页 > 网易号 > 正文 申请入驻

模型“看视频写网页”,GPT-5仅36.35分!首个video2code基准发布

0
分享至

IWR-Bench团队投稿
量子位 | 公众号 QbitAI

多模态大模型在根据静态截图生成网页代码(Image-to-Code)方面已展现出不俗能力,这让许多人对AI自动化前端开发充满期待。

然而,一个网页的真正价值远不止于其静态布局。用户的点击、筛选、表单提交,乃至游戏中的每一步操作,都构成了其核心的交互功能。这些动态、有状态的交互逻辑,恰恰是传统静态评测无法触及的盲区。

为了填补这一关键空白,上海人工智能实验室联合浙江大学等机构的研究者,提出了IWR-Bench——一个旨在更真实地评估LVLM交互式网页重建能力的评测基准。



IWR-Bench的核心转变在于,它不再提供静态截图,而是要求模型观看一段记录了完整用户操作流程的视频,并结合网页所需的全部静态资源(如图片、图标、子视频等),去理解并复现整个页面的动态行为。任务的复杂性跨度很大,从简单的浏览功能,到需要逆向工程游戏规则的2048、订机票等应用。

这项任务的难度远超预期。在对28个主流模型的全面测试中,即便是表现最好的模型GPT-5,其综合得分也仅有36.35分。这一结果清晰地指出了当前模型的核心短板,IWR-Bench不仅为领域提供了一个更具挑战性的新目标,也为未来的研究指出了一个新的方向。

核心亮点

  • 首个视频输入的交互网页重建评测:从“image-to-code”迈向“video-to-code”,对网页事件驱动逻辑的生成提出刚性要求
  • 真实场景、完整资源:113个网站任务、1001次交互动作;提供全部静态资源并匿名化命名,逼近真实开发
  • 自动化Agent-as-a-Judge:用编程代理复现动作轨迹,双重评分同时评估功能正确性(IFS)与视觉保真度(VFS)
  • 28个LVLM系统测评:最佳模型总分36.35%,IFS仅24.39%、VFS为64.25%;通用多模态模型显著优于“视频专长”模型



10个代表性模型在IWR-Bench任务上的评测总览

覆盖全面的真实世界网页任务

现有的网页代码生成基准(如Design2Code、WebSight)主要聚焦于静态截图转代码(image2code),而IWR-Bench则专注于动态视频转可交互网页代码(video2code):

传统任务: 给AI一张网页截图 → 生成HTML/CSS代码
IWR任务: 给AI一段用户操作视频 + 网页静态资源 → 生成包含完整交互逻辑的代码

值得一提的是,每个任务都提供了完整的静态资源(图片、图标、视频等),并且所有文件名都经过匿名化处理(如logo.png → asset_001.png),迫使模型必须依靠视觉匹配而非语义推理。静态资源的引入,也为直接基于渲染结果而非HTML代码进行评测提供了关键帮助。

下图为IWR-Bench任务和评测总览,模型输入包括(a)用户交互视频,(b)爬取的静态资源的缩略图与文件路径,要求模型输出html代码。评测时,通过agent在浏览器上基于(c)标注的操作轨迹进行操作,以实现基于检查点的自动化评分。



IWR任务对模型的三大核心挑战包括:

  • 多模态理解:从视频帧精准捕捉布局、文本与组件状态
  • 多模态推理:在时间序列中推断交互逻辑与因果关系,并将视频元素与静态资源可靠匹配与绑定
  • 高级代码生成:将推断出的状态机与事件逻辑实现为可运行的前端代码



IWR任务的规模和覆盖范围如下:

  • 113个来自真实网站的任务,分辨率覆盖桌面与移动端(19种,移动占10.62%)
  • 共1001个交互动作,平均每任务8.9步;其中620个视觉检查点、403个逻辑断言
  • 复杂任务包含2048、扫雷等完整游戏逻辑与GUI重建

评测框架和指标

IWR-Bench采用了一套严格的自动化评测协议,通过编程代理(基于browser-use库)来模拟真实用户的网页操作。

评测流程

  • 操作执行:代理按照预定义的动作序列操作生成的网页
  • 功能验证:检查每个操作是否能正确执行,以及逻辑断言是否满足
  • 视觉对比:在关键检查点截图,与参考页面进行多维度对比

双重评分体系

交互功能分数(IFS):衡量功能正确性

  • 计算成功完成的操作占总操作数的比例, 操作失败包括浏览器执行失败、逻辑断言失败
  • SOTA模型GPT-5的IFS仅为24.39%

视觉保真度分数(VFS):衡量视觉还原度 - 结合低级特征(OCR文本相似度、DINO结构相似度)

  • 融合高级评估(由Gemini-2.5-Pro进行整体评判)
  • SOTA模型GPT-5的VFS为64.25%

评测结果



IWR-Bench在28个模型上的评测结果

研究人员从中得到了三个关键发现。

首先,功能实现是最大瓶颈

所有模型的VFS都显著高于IFS,这揭示了一个核心问题:

模型能够较好地复现静态视觉效果,但在生成事件驱动逻辑方面严重不足。

例如,GPT-5能够达到64.25%的视觉保真度,但功能正确性仅为24.39%——这意味着即使页面”看起来对”,实际操作时有75%以上的功能无法正常工作。

其次,thinking版本带来部分提升

“thinking”版本模型普遍表现更好:

  • Claude-Sonnet-4 (thinking) vs. 普通版:34.62 vs. 34.00
  • Claude-Opus-4 (thinking) vs. 普通版:34.13 vs. 33.33
  • Gemini-2.5-Pro (thinking) vs. 普通版:30.36 vs. 30.31

但提升幅度有限,说明基础模型能力仍是决定性因素。

另外,现在的专有视频理解模型效果不如通用多模态模型

专门针对视频理解训练的模型(如VideoLLaMA3、InternVideo)表现垫底,而通用的多模态大模型表现更优。这表明,该任务与传统的视频理解任务具有显著的差异性。

IWR-Bench的推出,标志着AI从“看懂静态网页”到“理解动态交互”的关键一步。36分的成绩告诉我们:这条路还很长。这不仅是对AI多模态能力的一次全面体检,更是为多模态能力涌现指明了下一阶段的攻坚方向。

IWR-Bench由上海人工智能实验室联合浙大、2077AI、港中文、斯坦福等单位共同完成,第一作者陈杨是浙江大学硕士生,通讯作者为上海人工智能实验室沈宇帆、石博天。

论文链接:
https://arxiv.org/abs/2509.24709
代码地址:
https://github.com/L-O-I/IWR-Bench
数据地址:
https://huggingface.co/datasets/IWR-Bench/IWR-Bench
项目主页:
https://l-o-i.github.io/IWR-Bench/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
哈佛发现:高血脂不用治,治好都是误诊?告诉您5个血脂真相!

哈佛发现:高血脂不用治,治好都是误诊?告诉您5个血脂真相!

岐黄传人孙大夫
2026-01-08 10:06:20
恶心汪小菲!具俊晔自曝大S每晚都给他服务,毫不避讳说夫妻秘事

恶心汪小菲!具俊晔自曝大S每晚都给他服务,毫不避讳说夫妻秘事

八星人
2026-01-25 13:34:45
雷来了,周末18家公司发风险提示公告,其中10家涉重大风险!

雷来了,周末18家公司发风险提示公告,其中10家涉重大风险!

财经智多星
2026-01-25 12:03:48
澎湃:欧洲球队对李昊最多报50万欧,薪水也只有国内五分之一

澎湃:欧洲球队对李昊最多报50万欧,薪水也只有国内五分之一

懂球帝
2026-01-25 10:51:06
98年泸定县惨案:690元引发血案,24岁民警遭围殴后枪杀10名村民

98年泸定县惨案:690元引发血案,24岁民警遭围殴后枪杀10名村民

谈史论天地
2026-01-21 23:20:03
以防你没有见过出生2天的长颈鹿

以防你没有见过出生2天的长颈鹿

今日日本
2026-01-24 08:32:11
拉“反斩首”防线?国防部首次确认,对赖清德逮捕可直接瓮中捉鳖

拉“反斩首”防线?国防部首次确认,对赖清德逮捕可直接瓮中捉鳖

通文知史
2026-01-24 18:15:03
坏!《黑神话》破解版再获重大进展:已支持Intel CPU

坏!《黑神话》破解版再获重大进展:已支持Intel CPU

游民星空
2026-01-25 16:59:45
张宗逊明明战功高、资历老,却没能评上大将,这事儿和惹恼两大元帅毫无关系,真正原因另有他处

张宗逊明明战功高、资历老,却没能评上大将,这事儿和惹恼两大元帅毫无关系,真正原因另有他处

清风鉴史
2025-12-24 13:59:10
朱媛媛离世仅8个月,52岁辛柏青高调传出喜讯,恶心的一幕出现

朱媛媛离世仅8个月,52岁辛柏青高调传出喜讯,恶心的一幕出现

洲洲影视娱评
2026-01-23 20:56:57
电网设备赚钱能力最强的10股名单出炉,净利率97%,暴赚49亿

电网设备赚钱能力最强的10股名单出炉,净利率97%,暴赚49亿

鹏哥投研
2026-01-25 09:19:39
宋军继辞去山东省副省长职务

宋军继辞去山东省副省长职务

观察者网
2026-01-25 21:05:09
一粒速效救心丸可治10多种病,别只用来治疗心梗了,一定要收藏

一粒速效救心丸可治10多种病,别只用来治疗心梗了,一定要收藏

路医生健康科普
2026-01-24 08:30:03
暴跌!马年生肖酒!2026年1月23日 - 飞天茅台和生肖酒每日行情价格

暴跌!马年生肖酒!2026年1月23日 - 飞天茅台和生肖酒每日行情价格

阿天爱旅行
2026-01-23 08:25:28
张又侠、刘振立涉嫌严重违纪违法被立案审查调查;解放军报社论:坚决打赢军队反腐败斗争攻坚战持久战总体战

张又侠、刘振立涉嫌严重违纪违法被立案审查调查;解放军报社论:坚决打赢军队反腐败斗争攻坚战持久战总体战

新民晚报
2026-01-25 10:40:11
27军出了三位大军区司令,一位军委副主席,小警卫员官至正国级

27军出了三位大军区司令,一位军委副主席,小警卫员官至正国级

兴趣知识
2026-01-20 03:01:11
最大的成功,就是健康地活着

最大的成功,就是健康地活着

深度报
2026-01-17 23:05:13
两大核心受伤,西部黑马倒下!天助自助者,快船的机会终于等来了

两大核心受伤,西部黑马倒下!天助自助者,快船的机会终于等来了

老梁体育漫谈
2026-01-25 00:05:18
爆砍19+3,单人激活广州队,郭艾伦宝刀不老,他该入选全明星

爆砍19+3,单人激活广州队,郭艾伦宝刀不老,他该入选全明星

麦子的篮球故事
2026-01-25 22:00:27
台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

顾史
2026-01-21 21:04:39
2026-01-25 22:20:49
量子位 incentive-icons
量子位
追踪人工智能动态
12060文章数 176362关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

在非洲遭绑架殴打的网红博主再发声:打人者愿赔40万

头条要闻

在非洲遭绑架殴打的网红博主再发声:打人者愿赔40万

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

亲子
教育
本地
数码
军事航空

亲子要闻

爸爸今天给孩子们做美味的火锅盲盒大餐

教育要闻

小学霸发来的题,不知道到底是考验我,还是向我求教

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

数码要闻

AMD锐龙7 9850X3D隐藏特性:轻松省下数百元!

军事要闻

俄美乌三方首轮会谈细节披露

无障碍浏览 进入关怀版