网易首页 > 网易号 > 正文 申请入驻

中科大联合牛津大学:让AI学会预知未来界面的神奇技术Code2World

0
分享至


在手机上点击一个按钮会发生什么?打开一个应用会跳转到什么页面?这些看似简单的问题,对于人工智能来说却是个巨大挑战。近日,中国科学技术大学联合牛津大学、阿里巴巴集团和中山大学的研究团队发表了一项突破性研究成果Code2World,这项研究发表于2026年的顶级学术会议,论文编号为arXiv:2602.09856v1。研究团队首次让AI学会了像人类一样"预知"操作界面的变化,为自动化操作手机电脑开辟了全新道路。

回到我们日常使用手机的场景。当你想要打开微信聊天,你的大脑会自动预测点击微信图标后会看到什么界面,然后做出相应准备。这种"预知能力"让人类能够高效地操作各种设备。然而,现有的AI助手却缺乏这种能力,它们往往像盲人摸象一样操作界面,点击一个按钮后才知道结果如何,一旦出错就需要花费大量时间纠正。

Code2World就像给AI装上了一双"预知未来"的眼睛。研究团队创造性地让AI通过生成网页代码的方式来预测界面变化,就好比让AI成为一名"界面魔术师",能够在脑海中构建出操作后的完整界面。这种方法的巧妙之处在于,代码本身就包含了界面的精确结构信息,比简单的图片预测要准确得多。

具体来说,当你告诉AI"点击搜索按钮"时,传统AI只能盲目点击然后等待结果。而Code2World却能够事先"看到"点击后会出现的搜索页面,包括搜索框的位置、按钮的排列、甚至页面的滚动方向。这种预知能力让AI能够提前规划下一步操作,大大提高了效率和准确性。

研究团队还面临着一个关键挑战:如何训练AI学会这种预知能力。他们巧妙地构建了一个包含8万多个高质量界面变化样本的数据集AndroidCode,就像为AI准备了一本包含无数"魔法配方"的教科书。更有趣的是,他们还设计了一套"视觉反馈纠错机制",让AI能够像学生一样从错误中学习,不断完善自己的预测能力。

在训练过程中,研究团队采用了一种叫做"渲染感知强化学习"的新颖方法。这就像训练一名画家,不仅要求画出美观的作品,还要确保画作能够准确反映现实。AI需要同时满足两个标准:生成的界面代码要在视觉上与真实界面高度相似,同时操作逻辑要完全正确。通过这种双重约束,AI逐渐学会了精确预测界面变化的能力。

实验结果令人惊叹。在与GPT-5、Gemini等顶级AI模型的对比中,Code2World展现出了卓越的预测能力。更重要的是,当将这项技术应用到实际的手机操作任务中时,AI助手的成功率显著提升,在AndroidWorld导航测试中,Gemini-2.5-Flash的成功率提升了9.5%。

这项技术的工作原理可以用厨师烹饪来类比。传统AI就像一个没有食谱的厨师,每次都要尝试不同的调料搭配,往往做出难以下咽的菜品。而Code2World则像拥有了一本详细食谱的大厨,不仅知道每道菜的制作步骤,还能预测加入特定调料后的味道变化,从而做出美味佳肴。

在技术实现层面,研究团队选择了HTML作为界面描述语言,这个选择堪称巧妙。HTML代码既能精确描述界面结构,又能通过浏览器直接渲染成可视界面,为AI提供了一个完美的"思维工具"。当AI需要预测点击某个按钮的结果时,它会生成相应的HTML代码,然后通过浏览器渲染出预期的界面效果。

研究团队还特别设计了一套评估体系,从功能逻辑和视觉质量两个维度全面评估AI的预测能力。功能逻辑评估确保AI预测的界面变化在逻辑上合理,比如点击"返回"按钮确实会返回上一级页面。视觉质量评估则确保预测的界面在外观上与真实界面高度相似,包括元素位置、大小比例、色彩搭配等细节。

这项技术的应用前景广阔。除了让手机AI助手变得更加智能外,Code2World还能应用于自动化软件测试、界面设计验证、无障碍辅助等多个领域。对于软件开发者来说,这项技术可以帮助自动测试应用界面的各种操作场景。对于有视觉障碍的用户,AI可以预先描述操作后的界面变化,提供更好的使用体验。

值得注意的是,研究团队在论文中展示了多个生动的案例。在一个文件管理场景中,AI需要将照片从一个文件夹移动到另一个文件夹。传统AI可能会尝试多次错误操作,而Code2World能够准确预测每次点击和滑动操作的结果,选择最优的操作路径,仅用三步就完成了任务。

另一个令人印象深刻的案例是邮件编写场景。当用户输入收件人邮箱地址时,AI能够准确预测系统会显示自动补全建议,并提前准备相应的处理策略。这种预知能力让AI的操作显得更加自然流畅,就像真正理解界面逻辑的人类用户一样。

研究团队还进行了广泛的消融实验,验证了各个技术组件的重要性。他们发现,单纯的代码生成能力还不足以达到最佳效果,必须结合视觉反馈和强化学习才能让AI真正掌握界面预测的精髓。这就像学习驾驶,不仅要掌握理论知识,还需要大量的实际练习和反馈纠正。

在跨应用泛化能力测试中,Code2World展现出了强大的适应性。即使面对从未见过的应用界面,AI依然能够准确预测大部分操作结果。这得益于研究团队精心设计的训练策略,让AI学会了界面交互的通用规律,而不是简单地记忆特定应用的操作模式。

从技术发展的角度看,Code2World代表了GUI世界模型研究的重要突破。传统的文本描述方法缺乏视觉细节,而像素级的图像生成方法又难以精确控制。Code2World巧妙地结合了两者的优势,既保持了视觉的高保真度,又确保了结构的可控性。

研究团队在论文中还详细讨论了这项技术的局限性和改进方向。目前Code2World主要针对移动应用界面进行优化,对于复杂的桌面软件界面支持还有待加强。此外,对于一些高度动态的界面元素,如实时视频播放、动画效果等,预测准确性还需要进一步提升。

展望未来,这项技术有望与其他AI能力相结合,创造出更加智能的人机交互体验。设想一下,当你对手机说"帮我订一张明天去北京的机票"时,AI不仅能够理解你的需求,还能准确预测操作过程中每个界面的变化,选择最高效的操作路径,真正实现"一句话搞定"的智能体验。

说到底,Code2World的意义远不止于技术本身的突破。它代表了AI从"被动反应"向"主动预测"的重要转变,让机器开始具备类似人类的"直觉"和"预见性"。这种能力的获得,标志着AI在理解和操作虚拟世界方面迈出了关键一步。

当然,任何新技术的发展都需要时间沉淀和实践验证。Code2World虽然在实验环境中表现出色,但要真正应用到日常生活中的各种复杂场景,还需要更多的优化和改进。不过,这项研究无疑为AI助手的智能化发展指明了一个极具前景的方向。

归根结底,Code2World让我们看到了AI技术发展的新可能性。它不再是简单地执行指令的工具,而是能够思考、预判、规划的智能伙伴。随着这项技术的不断成熟和应用,我们有理由相信,未来的AI助手将变得更加聪明、更加贴心,真正成为人类生活中不可或缺的智能帮手。有兴趣深入了解这项研究的读者可以通过arXiv:2602.09856v1查询完整论文。

Q&A

Q1:Code2World是什么技术?

A:Code2World是一种让AI能够预测用户界面变化的技术。当你在手机上点击某个按钮时,这项技术能让AI提前"看到"点击后会出现什么界面,就像给AI装上了预知未来的眼睛,让它能够更智能地操作手机和电脑。

Q2:Code2World和传统的AI操作有什么区别?

A:传统AI像盲人摸象,只能点击按钮后才知道结果,经常出错需要纠正。而Code2World让AI能够提前预测操作结果,选择最优路径。就像有经验的司机能预判路况选择最佳路线一样,这项技术让AI操作更准确高效。

Q3:这项技术什么时候能在日常生活中使用?

A:Code2World目前还处于研究阶段,已经在实验中展现出显著效果,能将AI助手成功率提升9.5%。虽然距离大规模商用还需要时间优化和验证,但这项技术为未来更智能的AI助手发展指明了方向,让我们对更便捷的人机交互充满期待。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
震惊!做普工都要验资了,网传深圳一工厂招工,身价最低300元起

震惊!做普工都要验资了,网传深圳一工厂招工,身价最低300元起

火山詩话
2026-04-11 14:54:51
为这场和谈,巴基斯坦押上国运!万人封城不给以色列任何可乘之机

为这场和谈,巴基斯坦押上国运!万人封城不给以色列任何可乘之机

青青子衿
2026-04-11 02:19:32
国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

比利
2026-01-23 12:41:53
续航100公里仅跑30公里 充电31秒电量猛涨10% 东莞网约车司机:深蓝SL03虚到不敢接单

续航100公里仅跑30公里 充电31秒电量猛涨10% 东莞网约车司机:深蓝SL03虚到不敢接单

信网
2026-04-11 17:05:04
暴跌95%!一代神车退场了,比燃油车卖不掉更可怕的事正在发生

暴跌95%!一代神车退场了,比燃油车卖不掉更可怕的事正在发生

毒sir财经
2026-04-10 16:25:00
马杜罗被绑3个月,委内瑞拉人肠子悔青:他们的“福报”还是到了

马杜罗被绑3个月,委内瑞拉人肠子悔青:他们的“福报”还是到了

墨羽怪谈
2026-04-10 18:36:19
标120W的充电器实际功率仅22.5W,商家:120W是产品型号

标120W的充电器实际功率仅22.5W,商家:120W是产品型号

极目新闻
2026-04-11 00:53:31
这是青年时期毛岸青,这张照片眉眼神态极像母亲杨开慧

这是青年时期毛岸青,这张照片眉眼神态极像母亲杨开慧

乡野小珥
2026-04-11 18:37:43
三天闪电访华!苏林急得直跺脚,东南亚集体掉头靠向中国

三天闪电访华!苏林急得直跺脚,东南亚集体掉头靠向中国

面包夹知识
2026-04-11 17:27:37
网传业内人士名单:4位奥运冠军+央视名记在282人群 未辱骂全红婵

网传业内人士名单:4位奥运冠军+央视名记在282人群 未辱骂全红婵

念洲
2026-04-11 22:07:23
千元童鞋把脚穿肿?泰兰尼斯遭家长“围攻”,医生警惕影响发育,90%专利竟是外观设计

千元童鞋把脚穿肿?泰兰尼斯遭家长“围攻”,医生警惕影响发育,90%专利竟是外观设计

新浪财经
2026-04-10 17:33:59
中纪委发话了!释放一个重要信号,一个都不放过!

中纪委发话了!释放一个重要信号,一个都不放过!

细说职场
2026-04-11 18:42:12
回台后就被抓?郑丽文和大陆谈完,临走前达成共识,赖清德急了

回台后就被抓?郑丽文和大陆谈完,临走前达成共识,赖清德急了

生活魔术专家
2026-04-11 20:11:44
70 岁外长王毅这一跪让我泪崩!为国奔波万里,却让所有人破防!

70 岁外长王毅这一跪让我泪崩!为国奔波万里,却让所有人破防!

眼界看视野
2026-04-11 21:09:54
理想汽车CEO李想朋友圈飙脏话后二次发声:怒斥某日系品牌持续拉踩

理想汽车CEO李想朋友圈飙脏话后二次发声:怒斥某日系品牌持续拉踩

快科技
2026-04-11 18:08:11
以色列政坛大地震!反对派61席锁死胜局!贝内特正疯狂背刺内氏

以色列政坛大地震!反对派61席锁死胜局!贝内特正疯狂背刺内氏

书纪文谭
2026-04-11 19:05:01
张大千:国家的钱怎么能用来帮私人还债,由此拒绝回归大陆

张大千:国家的钱怎么能用来帮私人还债,由此拒绝回归大陆

南极狼人
2026-04-11 19:00:11
辽阳奔驰车陪葬后续:主家原因曝光,车被挖出,村民透露全村第一

辽阳奔驰车陪葬后续:主家原因曝光,车被挖出,村民透露全村第一

奇思妙想草叶君
2026-04-11 14:56:58
信号不一般!闭门会谈1小时释放信号,郑丽文突然发出关键邀请

信号不一般!闭门会谈1小时释放信号,郑丽文突然发出关键邀请

坠入二次元的海洋
2026-04-11 19:13:18
赵子琪直播怒怼浪姐:淘汰遭侮辱,直言咖位不够,上不了花少

赵子琪直播怒怼浪姐:淘汰遭侮辱,直言咖位不够,上不了花少

离离言几许
2026-04-11 09:44:35
2026-04-12 02:48:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7949文章数 560关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

事关霍尔木兹海峡通行安排 伊美各执一词

头条要闻

事关霍尔木兹海峡通行安排 伊美各执一词

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

数码
手机
时尚
健康
公开课

数码要闻

荣耀MagicPad3 Pro 12.3官宣 机身厚度仅4.8mm

手机要闻

全球首款阔折叠卖爆!华为Pura X一年出货量超150万台

普通人穿衣其实很简单!构造腰线、一衣多穿,大方舒适又自然

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版