网易首页 > 网易号 > 正文 申请入驻

港中大WebGen-Agent:AI网站生成准确率提升一倍

0
分享至


这项由香港中文大学多媒体实验室的陆梓慕、任厚星、杨云乔等研究人员组成的团队完成的研究,发表于2025年1月的arXiv预印本,论文编号为arXiv:2509.22644v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

以前,我们想要AI帮忙做网站,就像让一个从未见过世界的人闭着眼睛画画一样。AI只能根据代码是否出错来判断网站好不好,完全看不到最终的网站长什么样,更不知道用户点击按钮时会发生什么。这就导致生成的网站经常出现各种问题:按钮摆得乱七八糟、颜色搭配得像彩虹一样刺眼、点击链接却跳不到该去的地方。

如今,香港中文大学的研究团队为这个问题找到了一个巧妙的解决方案。他们开发的WebGen-Agent系统,就像给AI装上了一双眼睛和一个专业的网站测试员。这个系统不仅能"看到"网站的样子,还能像真实用户一样在网站上点来点去,测试每个功能是否正常工作。

整个过程就像是一个不断改进的循环。AI先写代码生成网站,然后截图看看效果如何,就像画家画完画后退后几步欣赏作品。如果发现颜色不协调或者布局有问题,AI会根据视觉反馈进行调整。接着,系统会启动一个虚拟用户来测试网站功能,这个虚拟用户会点击每个按钮、填写表单、浏览各个页面,就像真正的访客一样。如果发现某个功能不工作,系统会记录下来并告诉AI该如何修复。

这种方法的效果令人惊喜。在测试中,原本只有26.4%准确率的Claude-3.5-Sonnet模型,使用WebGen-Agent后准确率跃升至51.9%,几乎翻了一倍。不仅如此,生成网站的美观程度也从3.0分提升到3.9分(满分5分),这意味着网站不仅功能更完善,看起来也更加赏心悦目。

研究团队还开发了一套专门的训练方法,叫做Step-GRPO。这就像是给AI学生配备了一个严格的老师,在AI生成网站的每一个步骤都给出评分和建议。传统的训练方法只在最后告诉AI结果好不好,而这套新方法会在整个过程中持续指导,告诉AI每一步做得如何,应该往哪个方向改进。

通过这种训练方法,即使是相对较小的AI模型也能显著提升性能。比如Qwen2.5-Coder-7B模型,经过训练后准确率从38.9%提升到45.4%,美观度评分也从3.4分升至3.7分。这证明了不需要更大更昂贵的AI模型,通过更好的训练方法同样可以获得出色的效果。

**一、传统网站生成AI的盲点问题**

以往的AI网站生成系统就像是一个优秀的程序员,但却患有严重的"色盲"和"触觉失调"。这些系统能够熟练地编写HTML、CSS和JavaScript代码,逻辑清晰,语法正确,但它们最大的问题是无法真正"看到"自己创造的作品,也无法像普通用户那样与网站互动。

当AI完成代码编写后,它唯一的反馈来源就是代码是否能够成功运行。这就好比一个厨师做菜,只知道食材有没有煮熟,却永远尝不到味道,也看不到菜品的卖相。即使代码运行正常,网站可能依然存在各种用户体验问题:重要按钮被挤到了页面边角、文字颜色和背景颜色太接近导致看不清楚、表单提交按钮点击后毫无反应、导航菜单在手机上显示混乱。

更糟糕的是,这些AI系统无法理解网站的整体视觉效果。它们可能会创建一个功能完备的在线商店,但这个商店的页面布局混乱不堪,产品图片大小不一,购买按钮藏在页面底部不显眼的位置。对于注重用户体验的现代网站来说,这样的问题往往比功能性错误更致命,因为用户在糟糕的视觉体验面前会立即失去耐心。

研究团队意识到,要让AI真正擅长网站开发,必须让它具备两种人类开发者天然具有的能力:审美判断和用户测试。前者需要AI能够"看见"网站的视觉效果,就像设计师审视自己的作品一样;后者需要AI能够模拟真实用户的行为,像质量测试员一样仔细检查每个功能。

**二、WebGen-Agent的双眼视觉系统**

WebGen-Agent的核心创新在于为AI配备了两套"感官系统":视觉系统和交互测试系统。这两套系统相互配合,让AI能够从用户的角度全面评估网站质量。

视觉系统的工作原理类似于专业的网页设计评审。当AI生成网站代码并成功运行后,系统会自动对网站首页进行截图,然后将这张截图交给一个专门训练过的视觉语言模型进行分析。这个模型就像一位资深的UI设计师,它会仔细观察网站的各个方面:整体布局是否协调、色彩搭配是否和谐、重要元素是否突出、是否存在明显的设计缺陷。

分析完成后,视觉模型会生成详细的评价报告,包括对网站外观的文字描述、美观度评分(1-5分),以及具体的改进建议。比如,它可能会指出"导航栏和主要内容区域的颜色对比度不够,建议加深导航栏背景色",或者"页面左侧有大片空白区域,建议添加侧边栏或调整内容布局"。

交互测试系统则扮演着虚拟用户的角色。当视觉评估通过后,系统会启动一个GUI代理,这个代理会像真实用户一样浏览网站。它会点击每个按钮、填写表单、测试搜索功能、尝试不同的导航路径。整个过程完全模拟真实用户的行为模式,甚至包括用户可能犯的一些小错误,比如在必填字段中留空或者输入错误格式的邮箱地址。

在测试过程中,GUI代理会详细记录每次交互的结果。如果发现某个按钮点击后没有反应,或者表单提交后出现错误信息,或者某个页面无法正常加载,代理都会将这些问题记录下来,并生成相应的功能性评分。最终,这个评分会反映网站功能的完整程度和用户体验的流畅程度。

这两套系统的结合使用,让WebGen-Agent能够从多个维度全面评估网站质量。视觉系统确保网站"好看",交互系统确保网站"好用"。更重要的是,当发现问题时,系统不仅会指出问题所在,还会提供具体的修改建议,指导AI在下一轮改进中朝着正确的方向努力。

**三、智能回溯和最优选择机制**

WebGen-Agent还具备了一套智能的"后悔机制",这就像给AI装上了撤销键和智能存档系统。在网站开发过程中,AI有时会陷入越改越糟的困境,这时候智能回溯功能就派上了用场。

系统会在每一个成功运行的步骤处自动创建"存档点",记录当时的代码状态、视觉评分和功能评分。当AI连续5次修改都出现代码错误时,系统会判断当前的修改方向可能有问题,立即触发回溯机制,将整个项目恢复到之前最好的状态,然后重新开始改进。

这种机制特别有用,因为AI在修复一个问题时,有时会无意中破坏其他已经工作正常的功能。比如,AI为了修复按钮颜色问题而修改CSS样式,结果却意外改变了整个页面的布局。传统系统会继续在这个错误的基础上进行修改,越改越乱,而WebGen-Agent会及时发现问题并回到正确的轨道上。

除了错误回溯,系统还有一套最优选择机制。即使整个开发过程顺利完成,系统也会回顾整个过程中的所有版本,选择综合评分最高的版本作为最终结果。选择标准很有讲究:首先比较功能评分,选择功能最完善的版本,如果功能评分相同,再比较视觉评分,选择最美观的版本,如果两项评分都相同,则选择最新的版本。

这种设计理念体现了"功能优先,美观其次"的务实原则。毕竟,一个功能残缺但外观精美的网站,远不如一个功能完整但外观普通的网站有价值。但在功能相当的情况下,更美观的设计当然更受欢迎。

**四、Step-GRPO训练方法的突破**

传统的AI训练就像期末考试,只在最后告诉学生总成绩是多少,却不说具体哪道题做错了,为什么错,应该怎么改进。而WebGen-Agent开发的Step-GRPO训练方法,则像是配备了一位全程跟踪指导的私人教师。

这套训练方法充分利用了WebGen-Agent工作流程中产生的丰富反馈信息。在AI生成网站的每一个步骤,系统都会获得视觉评分和功能评分,这些评分加起来就构成了该步骤的综合奖励值。与传统方法只在整个任务完成后给出一个总体评价不同,Step-GRPO会对每一步的表现进行实时评价和奖励。

具体来说,当AI在某一步成功改善了网站的视觉效果,比如将原本拥挤的页面布局调整得更加清爽,视觉评分就会上升,AI会立即获得正面奖励,知道这个修改方向是正确的。同样,如果AI修复了一个功能性问题,比如让原本无法提交的表单能够正常工作,功能评分的提升也会给AI带来正面反馈。

这种步骤级的奖励机制有几个显著优势。首先,它能够提供更密集的学习信号,让AI能够快速识别哪些行为是有益的,哪些是有害的。其次,它能够帮助AI理解复杂任务中的因果关系,比如理解某个CSS属性的修改如何影响页面的整体视觉效果。最后,它能够防止AI在长期任务中迷失方向,即使最终结果不够理想,AI也能从过程中的部分成功中学到有价值的经验。

实验结果证明了这种训练方法的有效性。经过Step-GRPO训练的7B参数模型,在网站生成任务上的表现显著超越了同规模的其他模型,甚至在某些指标上接近了更大规模模型的性能。这意味着通过更好的训练方法,我们可以用更少的计算资源获得更好的效果,这对于普及AI网站生成技术具有重要意义。

**五、实验验证和性能提升**

研究团队在WebGen-Bench这个专门的网站生成测试平台上进行了全面的实验验证。这个测试平台包含101个不同难度和类型的网站生成任务,涵盖了从简单的个人博客到复杂的电商网站的各种场景,以及647个GUI测试用例,确保能够全面评估AI的网站生成能力。

实验结果让人印象深刻。以Claude-3.5-Sonnet这个目前表现优秀的AI模型为例,使用传统方法时,它在网站生成任务上的准确率只有26.4%,也就是说10个网站任务中只能成功完成不到3个。而使用WebGen-Agent后,准确率跃升至51.9%,成功率提高了近一倍。更令人惊喜的是,生成网站的美观度评分也从3.0分提升到3.9分,这意味着不仅功能更完善,视觉效果也明显改善。

这种提升不仅限于大型模型。对于计算资源相对有限的用户来说,更令人鼓舞的是小型模型的表现改善。Qwen2.5-Coder-7B这个只有70亿参数的模型,原本准确率只有12.4%,几乎无法胜任实际的网站生成工作。但经过Step-GRPO训练后,准确率大幅提升至45.4%,美观度评分也从1.6分跃升至3.7分。

这些数字背后反映的是WebGen-Agent在实际应用中的价值。在传统方法下,用户可能需要尝试多次才能得到一个勉强可用的网站,而且还需要大量的手动修改。而使用WebGen-Agent后,用户更有可能在第一次尝试就得到一个既美观又实用的网站,大大提高了工作效率。

研究团队还对不同类型的网站生成任务进行了分类分析。结果显示,WebGen-Agent在各种类型的任务上都取得了显著改善,无论是注重内容展示的信息网站,还是强调用户交互的应用程序,或者是需要复杂数据管理的后台系统,都能从这套新方法中受益。

**六、技术实现的精妙细节**

WebGen-Agent的技术实现充满了巧思,整个系统的架构设计体现了研究团队对AI网站生成任务的深刻理解。

系统采用了模块化的设计理念,将代码生成引擎和视觉反馈系统分离开来。这种设计的好处是可以根据需要选择不同性能和成本的模型组合。代码生成部分使用强大的大语言模型,确保生成的代码质量和逻辑正确性;而视觉反馈部分使用相对轻量级的视觉语言模型,在保证评估准确性的同时控制计算成本。

实验发现,使用开源的Qwen2.5-VL-32B模型作为视觉反馈引擎,其效果与昂贵的商业模型GPT-4o相当,但成本却低得多。这种发现对于实际应用具有重要意义,因为它证明了高质量的AI网站生成服务可以以相对较低的成本提供给普通用户。

在GUI测试方面,系统会根据原始的网站需求自动生成测试指令,指导虚拟用户如何测试网站功能。这些指令会覆盖网站的各个功能点,确保测试的全面性。研究团队对生成的测试指令进行了人工评估,发现98.3%的指令都能有效覆盖原始需求的关键功能点,证明了自动化测试生成的可靠性。

系统还实现了智能的迭代控制机制。通过分析不同迭代次数对最终结果的影响,研究团队发现大多数任务在14-20次迭代后就能达到最佳效果,继续增加迭代次数的收益会显著递减。这个发现帮助系统在效果和效率之间找到了最佳平衡点。

在错误处理方面,系统设计了多层次的容错机制。除了前面提到的5步错误回溯机制,系统还会对不同类型的错误采用不同的处理策略。比如,对于简单的语法错误,系统会尝试自动修复;对于逻辑错误,系统会回溯到更早的稳定状态;对于环境相关的错误,系统会重新初始化运行环境。

说到底,WebGen-Agent的成功不仅仅在于技术上的创新,更在于它真正解决了AI网站生成领域的核心痛点。传统AI生成的网站就像是闭门造车的产物,虽然在技术层面可能没有问题,但缺乏对用户体验的考虑。而WebGen-Agent通过引入视觉反馈和用户测试,让AI能够站在用户的角度思考问题,生成真正实用和美观的网站。

这项研究的意义远不止于技术层面的改进。它为AI在创意和设计领域的应用提供了新的思路,证明了通过合适的反馈机制,AI可以在需要审美判断和用户体验考量的任务中取得突破性进展。随着技术的进一步发展和普及,我们可以期待看到更多普通用户能够轻松创建专业水准的网站,让网页设计不再是专业人士的专利。

对于想要深入了解这项技术的读者,可以通过arXiv:2509.22644v1查询完整的研究论文,获取更多技术细节和实验数据。研究团队还承诺会开源相关代码和模型,这将进一步推动整个领域的发展,让更多开发者和研究者能够在此基础上继续创新。

**Q&A**

Q1:WebGen-Agent和传统的网站生成AI有什么区别?

A:最大的区别是WebGen-Agent能"看见"网站的样子并能测试功能。传统AI只能根据代码是否出错来判断,就像闭着眼睛做设计,而WebGen-Agent会截图分析网站外观,还会像真实用户一样点击测试每个功能,发现问题后会自动修改改进。

Q2:普通用户可以使用WebGen-Agent来制作网站吗?

A:目前WebGen-Agent还是一个研究项目,主要在学术环境中测试。不过研究团队承诺会开源相关代码,未来可能会有基于这项技术的商业产品出现。现在普通用户还需要等待更成熟的产品化版本。

Q3:WebGen-Agent生成的网站质量到底有多好?

A:在测试中,WebGen-Agent让AI的网站生成成功率从26%提升到52%,美观度评分从3.0提升到3.9分(满分5分)。这意味着生成的网站不仅功能更完善,看起来也更加专业美观,基本达到了可以实际使用的水平。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一种新型 “软啃老”正在扩散:40岁子女不伸手要钱不蹭住,却用这2种方式拖垮父母

一种新型 “软啃老”正在扩散:40岁子女不伸手要钱不蹭住,却用这2种方式拖垮父母

有故事的人
2025-11-04 06:17:05
全运会12日晚战况:王楚钦轻敌失利,林诗栋逆转晋级

全运会12日晚战况:王楚钦轻敌失利,林诗栋逆转晋级

史虇的生活科普
2025-11-13 00:03:24
两性关系:由于男女生理差异,老年夫妻生活怎么过才算和谐呢?

两性关系:由于男女生理差异,老年夫妻生活怎么过才算和谐呢?

荷兰豆爱健康
2025-11-13 04:01:33
一个残酷的真相:在4000点进场,你就是在为2689点抄底的人"买单"

一个残酷的真相:在4000点进场,你就是在为2689点抄底的人"买单"

夜深爱杂谈
2025-11-12 23:15:15
安世事件迎转折!中国商务部长发话,抱歉,荷兰首相说话不管用了

安世事件迎转折!中国商务部长发话,抱歉,荷兰首相说话不管用了

南宗历史
2025-11-12 09:57:28
浙经贸的三分钟战士大二弟弟火了

浙经贸的三分钟战士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
义乌老板娘:排队!把印度婆罗门游客整不会,高种姓在中国不好使

义乌老板娘:排队!把印度婆罗门游客整不会,高种姓在中国不好使

诗意世界
2025-11-10 15:36:28
熊猫杯0-1越南,让邵佳一验出水货国脚:失误导致丢球+还险些送点

熊猫杯0-1越南,让邵佳一验出水货国脚:失误导致丢球+还险些送点

球场没跑道
2025-11-12 23:11:19
世界最严重的工程错误,耗费巨资成烂账,中国占俩,让央媒都愤怒

世界最严重的工程错误,耗费巨资成烂账,中国占俩,让央媒都愤怒

娱乐圈见解说
2025-11-12 15:07:01
张雪峰直播怒怼网友!演唱会女子身份曝光,脏话太多被指没素质

张雪峰直播怒怼网友!演唱会女子身份曝光,脏话太多被指没素质

不八卦掌门人
2025-11-12 17:07:36
火箭本季有多强!一数据NBA历史同期最佳 “杜有引力”成主要原因

火箭本季有多强!一数据NBA历史同期最佳 “杜有引力”成主要原因

惊奇侃球
2025-11-13 00:13:12
抢跳被取消资格,孙杨回应:抢跳把状态全打乱了,下个目标是集体项目,感觉自己没有老,和新生代选手同一水平线

抢跳被取消资格,孙杨回应:抢跳把状态全打乱了,下个目标是集体项目,感觉自己没有老,和新生代选手同一水平线

极目新闻
2025-11-12 20:10:06
黄晓明没想到,带儿子参加生日宴,女儿却成焦点,杨颖的DNA被赞

黄晓明没想到,带儿子参加生日宴,女儿却成焦点,杨颖的DNA被赞

小咪侃娱圈
2025-11-12 09:43:16
AMD股价涨幅扩大至10%

AMD股价涨幅扩大至10%

每日经济新闻
2025-11-12 23:29:48
中国海军双线造航母,核常动力同步上马,能超美国五成吗?

中国海军双线造航母,核常动力同步上马,能超美国五成吗?

Ck的蜜糖
2025-11-13 00:53:35
“玉兰油女神”的彪悍情史

“玉兰油女神”的彪悍情史

素衣读史
2025-11-07 15:43:03
郑州大二女生校内溺亡,长得很漂亮,年仅19岁,学校给6万慰问金

郑州大二女生校内溺亡,长得很漂亮,年仅19岁,学校给6万慰问金

诗意世界
2025-11-11 21:49:55
35周孕妇被劝下机后续:买票时说谎、登机后要挟航司!目击者发声

35周孕妇被劝下机后续:买票时说谎、登机后要挟航司!目击者发声

鋭娱之乐
2025-11-11 21:59:42
2002年,浙江男子得知铜价从3万涨到了8万块钱,立即囤铜125吨,随后他还做了这样一件事!

2002年,浙江男子得知铜价从3万涨到了8万块钱,立即囤铜125吨,随后他还做了这样一件事!

牛牛叨史
2025-11-06 02:39:20
高市硬刚到底,要将中国高官驱逐出境?中方以牙还牙,日本破防了

高市硬刚到底,要将中国高官驱逐出境?中方以牙还牙,日本破防了

面包夹知识
2025-11-11 18:08:05
2025-11-13 06:04:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
597文章数 150关注度
往期回顾 全部

科技要闻

前阿里人亲述: “经济上行”期双11什么样

头条要闻

俄外交部:乌方停止与俄谈判说明其缺乏达成和平意愿

头条要闻

俄外交部:乌方停止与俄谈判说明其缺乏达成和平意愿

体育要闻

消磨你上千小时的足球游戏,走过第20年

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

段永平最新访谈:聊企业经营 投资理念

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

游戏
亲子
家居
教育
公开课

分析称《GTA6》延期或致PS6等主机推迟:拖到2028年

亲子要闻

男孩总是躁怒崩溃,送去医院就诊,被确诊的却是孩子父母

家居要闻

情感之所 生活教会设计

教育要闻

劝退:UCL这边录中国学生最多,中国学生含量也最高的专业!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版