网易首页 > 网易号 > 正文 申请入驻

香港大学团队破解电脑操作难题:让AI通过看视频学会自己使用电脑

0
分享至


这项由香港大学的陆俊杰、徐艺恒、王俊力等研究者领导,联合阿里巴巴Qwen团队的黄斌源、林俊洋等专家共同完成的研究发表于2025年10月,论文编号为arXiv:2510.19488v1。这是一项关于如何让人工智能学会使用电脑的突破性研究,有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们看到一个孩子第一次学习使用电脑时,通常是通过观察大人的操作,然后模仿点击、打字、滚动等动作。现在,研究人员想让人工智能也能通过这种方式学习,但遇到了一个巨大的挑战:虽然网上有数百万个电脑操作教程视频,但这些视频就像是无声电影一样,我们能看到鼠标在移动、按钮被点击,却无法直接知道具体点击的坐标或者输入的文字内容。

香港大学的研究团队提出了一个创新的解决方案,他们称之为VideoAgentTrek。这个系统就像是一个非常聪明的"视频翻译官",能够自动观看YouTube上的电脑教程视频,然后把这些隐含的操作信息翻译成AI能够理解和学习的具体指令。

研究团队开发了一个叫做Video2Action的关键技术模块,它的工作原理可以比作一个经验丰富的电脑老师在观看学生操作录像。这个"老师"有两项特殊技能:首先,它能精确识别视频中什么时候发生了操作,比如在第3.5秒到5.5秒之间用户进行了打字操作;其次,它能准确推断出这些操作的具体内容,比如鼠标点击的确切坐标是(350, 200),或者用户输入的文字是"hello world"。

为了获得训练数据,研究团队像是在进行一场大规模的"视频考古"工作。他们从YouTube收集了55000个教程视频,总时长约10000小时,涵盖从Excel表格操作到软件安装的各种电脑使用场景。为了确保视频质量,他们还开发了一个叫做ScreenFilter的筛选工具,这个工具就像是一个专门的"质检员",能够自动识别哪些视频片段包含真正的电脑界面操作,过滤掉那些只是讲解PPT或者纯粹聊天的内容。

经过ScreenFilter的筛选,最终保留了约7377小时的高质量GUI交互视频。这些视频按照内容类型进行了分类:操作系统相关的占35.7%,专业软件使用占18.9%,日常办公应用占17.6%,工作流程演示占16.2%,其余为7.1%。这种分布确保了训练数据的广泛覆盖性。

Video2Action模块的工作过程可以分为三个步骤,就像一个熟练的秘书在整理会议记录。第一步是"动作事件检测",系统会仔细观看视频,标记出每个操作动作的精确时间段,比如"在1.5到2.0秒之间发生了点击动作"。第二步是"动作参数化",系统会分析这些时间段内的具体操作内容,推断出点击的坐标、输入的文字等详细参数。第三步是"内心独白生成",系统会为每个操作生成一段解释性的文字,说明为什么要进行这个操作,就像是操作者的内心想法。

研究团队使用了Qwen2.5-VL-7B作为基础模型进行训练。对于动作事件检测,他们使用了154小时的标注数据进行训练,这些数据来自OpenCUA项目,包含了77万多个精确标注的GUI事件。检测模型在测试中表现出色,整体精确率达到88%,召回率为70%。其中,点击和滚动等基于鼠标指针的操作识别效果最好,而按键操作由于视觉线索较少,识别难度相对较大。

对于动作参数化任务,研究团队训练了512000个视频片段。他们采用了动态帧率策略来平衡效率和准确性:对于短暂的操作(如点击),使用较高的帧率确保捕捉细节;对于较长的操作(如打字),则使用较低的帧率节省计算资源。在实际测试中,该模块在500个样本的人工评估中表现良好,点击操作的准确率达到71.3%,滚动操作达到73.5%。

通过Video2Action处理39000个YouTube视频后,研究团队最终获得了152万个交互步骤的训练数据,相当于约260亿个训练词汇。这个数据规模远超之前的人工标注数据集,而且覆盖了Windows、macOS、Web平台上数百种应用程序的操作模式。

在模型训练方面,研究团队采用了两阶段策略。第一阶段是"继续预训练",让模型在大规模的视频挖掘数据上学习基础的GUI交互模式,就像让学生先大量阅读各种操作手册。第二阶段是"监督微调",使用高质量的人工标注数据进行精细调整,就像让学生在老师指导下练习具体操作。

实验结果令人印象深刻。在OSWorld-Verified基准测试中,仅使用监督微调的基准模型任务成功率为9.3%,而加入VideoAgentTrek预训练后,成功率提升到15.8%,相对提升幅度达到70%。在AgentNetBench测试中,步骤准确率从64.1%提升到69.3%。特别值得注意的是,经过视频预训练的模型在给定更多操作步骤时表现出更好的"测试时扩展"能力,任务成功率从20步预算的14.13%提升到50步预算的15.78%,而未经视频预训练的模型在增加步骤后性能没有提升。

研究团队进一步分析了数据规模的影响。他们发现,随着视频预训练数据量的增加,模型性能呈现稳定的提升趋势。使用50%的数据时,AgentNetBench步骤成功率为68.1%,OSWorld-Verified任务成功率为13.3%;使用100%数据时,性能进一步提升至69.3%和15.7%。这表明更大规模的视频数据能够带来更好的性能。

VideoAgentTrek的一个重要优势是能够提供更长的操作轨迹。传统的人工标注数据集平均轨迹长度通常在5-18步之间,而VideoAgentTrek数据集的平均轨迹长度达到39.25步,其中42.1%的轨迹超过20步,14.5%包含50步或更多。这种长轨迹训练对于复杂任务的处理至关重要,它让AI模型学会了如何将复杂任务分解为子目标,在中间失败时持续尝试,并有效利用额外的计算预算进行探索和错误修正。

在技术细节方面,ScreenFilter使用YOLOv8x模型进行光标检测,在15000个合成图像上训练,F1分数达到89.58%。该工具以1-2帧每秒的速度处理视频,保留至少80%帧包含光标且持续6秒以上的片段,能够以每GPU日约840小时的效率进行大规模过滤。

Video2Action的动作事件检测模块支持多种操作类型,包括点击、拖拽、按键、滚动、打字等。在训练数据中,点击操作占主导地位(67.1%),其次是打字(13.9%)和按键(9.4%)。模型能够处理各种时长的操作,从0.5秒的快速点击到5秒的长时间打字输入。

内心独白生成使用GPT-5 Medium模型,为每个操作步骤生成4-8句的第一人称解释。这些解释包含操作意图、本地计划、预期状态变化等信息,帮助模型更好地理解操作的上下文和目的。生成过程会参考操作前后的关键帧、操作类型和参数,以及操作前后各1分钟的语音转录内容。

研究团队还对不同领域的性能进行了详细分析。在OSWorld-Verified的各个应用类别中,Chrome浏览器相关任务的改善最为显著,解决任务数从8个增加到15个;工作流程类任务从5个增加到8个;操作系统类任务也有稳定提升。这表明视频预训练在各种应用场景中都能带来实质性的性能提升。

VideoAgentTrek方法的创新之处在于首次实现了从无标注视频到结构化训练数据的自动转换。传统方法要么依赖昂贵的人工标注,要么局限于有限的模拟环境,而VideoAgentTrek能够利用互联网上丰富的教程视频资源,为计算机使用代理的训练提供了一种可扩展的替代方案。

这项研究的意义不仅在于技术突破,更在于为AI助手的实用化铺平了道路。未来,我们可能会看到更智能的AI助手,它们能够通过观看在线教程学习新的软件操作,然后帮助用户完成复杂的计算机任务。这种能力将极大地降低普通用户使用复杂软件的门槛,让更多人能够享受到数字化工具带来的便利。

说到底,VideoAgentTrek展示了一种全新的AI学习范式:通过模仿人类的学习方式,让AI从观察中学习,而不是仅仅依赖预先标注的数据。这种方法不仅更接近人类的学习过程,也为AI技术的发展开辟了更广阔的可能性。正如人类通过观察和模仿学会使用工具一样,AI也可以通过这种方式不断扩展自己的能力边界。对于普通用户而言,这意味着未来的AI助手将更加智能和实用,能够真正成为我们数字生活中的得力伙伴。

Q&A

Q1:VideoAgentTrek是什么?

A:VideoAgentTrek是香港大学和阿里巴巴团队开发的AI训练系统,它能自动从YouTube教程视频中提取电脑操作信息,让AI学会使用电脑,就像人类通过看视频学习一样。

Q2:这个系统相比传统方法有什么优势?

A:传统方法需要大量人工标注数据,成本高且规模有限。VideoAgentTrek能直接利用网上现成的教程视频,成本低廉且数据规模庞大,从39000个视频中自动提取了152万个操作步骤。

Q3:VideoAgentTrek训练的AI表现如何?

A:在标准测试中,使用VideoAgentTrek训练的AI任务成功率从9.3%提升到15.8%,步骤准确率从64.1%提升到69.3%,并且在复杂长任务上表现更加出色。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
姚来英已任中国烟草总公司总经理

姚来英已任中国烟草总公司总经理

界面新闻
2026-05-12 11:12:28
武大开了一个坏头

武大开了一个坏头

燕梳楼频道
2026-05-12 12:31:28
知名歌唱家贪财好色嫁大30岁二婚男,如今活成这样

知名歌唱家贪财好色嫁大30岁二婚男,如今活成这样

风月得自难寻
2026-05-12 06:25:42
第一次感受到维C的“杀伤力”,2块钱一瓶,就能搞定8个麻烦事

第一次感受到维C的“杀伤力”,2块钱一瓶,就能搞定8个麻烦事

室内设计师有料儿
2026-05-09 10:26:26
湖人0-4被雷霆横扫!詹姆斯24+12,赛后数据不说谎,揪出全队最差

湖人0-4被雷霆横扫!詹姆斯24+12,赛后数据不说谎,揪出全队最差

球场没跑道
2026-05-12 13:33:26
曝国际足联高官本周到北京:两届世界杯打包,主动给央视大幅降价

曝国际足联高官本周到北京:两届世界杯打包,主动给央视大幅降价

影像温度
2026-05-12 11:33:30
宇树发布GD01载人变形机甲 定价390万元起

宇树发布GD01载人变形机甲 定价390万元起

财联社
2026-05-12 12:27:07
女子疯狂殴打网约车司机把自己累趴,司机全程没还手,淡定数巴掌:每一下都有代价

女子疯狂殴打网约车司机把自己累趴,司机全程没还手,淡定数巴掌:每一下都有代价

网约车观察室
2026-05-12 09:52:13
特朗普即将访华,英媒:美已意识到中国比美国想象中更强大

特朗普即将访华,英媒:美已意识到中国比美国想象中更强大

混沌录
2026-05-11 18:07:10
中美关系的潜力、张力、角力|谁在“只有特朗普”的对华政策决策圈中发挥作用

中美关系的潜力、张力、角力|谁在“只有特朗普”的对华政策决策圈中发挥作用

澎湃新闻
2026-05-12 07:26:27
大连一烧烤店内女子用铁签给狗撸串,还让它坐在卡座上,市监局介入后店铺停业整顿,店主:已销毁全部铁签,向所有顾客致歉

大连一烧烤店内女子用铁签给狗撸串,还让它坐在卡座上,市监局介入后店铺停业整顿,店主:已销毁全部铁签,向所有顾客致歉

大风新闻
2026-05-12 10:08:22
某国企人员李四出国考察时,被“导游”引入色情场所,遭境外间谍以“艳照”要挟,被迫加入间谍组织,案件披露

某国企人员李四出国考察时,被“导游”引入色情场所,遭境外间谍以“艳照”要挟,被迫加入间谍组织,案件披露

扬子晚报
2026-05-12 07:47:53
详解湖人休赛期:首要任务续约里夫斯 老詹若离开年薪最多1500万

详解湖人休赛期:首要任务续约里夫斯 老詹若离开年薪最多1500万

罗说NBA
2026-05-12 13:57:41
还没出发前,特朗普就提出要求:中国向美采购小麦,为何这么急迫?

还没出发前,特朗普就提出要求:中国向美采购小麦,为何这么急迫?

麓谷隐士
2026-05-12 10:52:08
中东剧变!伊朗彻底决裂美国,最高领袖下死令,坐等中国担保

中东剧变!伊朗彻底决裂美国,最高领袖下死令,坐等中国担保

健身狂人
2026-05-12 13:14:55
特朗普登上专机前,郑丽文划下红线:不许支持台独

特朗普登上专机前,郑丽文划下红线:不许支持台独

健身狂人
2026-05-12 03:03:24
湖人比赛场边美女!!好美!

湖人比赛场边美女!!好美!

柚子说球
2026-05-11 20:03:02
多尔衮定律该扩大了!网传山东聊城继父与继女的养老对话,引争议

多尔衮定律该扩大了!网传山东聊城继父与继女的养老对话,引争议

火山詩话
2026-05-12 10:47:02
詹皇落寞背影让人动容!湖媒深情致谢告别:8年湖人生涯荣耀无数

詹皇落寞背影让人动容!湖媒深情致谢告别:8年湖人生涯荣耀无数

颜小白的篮球梦
2026-05-12 13:59:50
45岁独身男子病逝15万存款被民政局转走?该局回应:系另一亲属所为,警方已赴外地调查|求真

45岁独身男子病逝15万存款被民政局转走?该局回应:系另一亲属所为,警方已赴外地调查|求真

红星新闻
2026-05-12 13:32:22
2026-05-12 14:35:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8300文章数 563关注度
往期回顾 全部

科技要闻

纳德拉法庭爆料:拒当“AI时代的IBM”

头条要闻

特朗普访华企业团名单披露:马斯克在列 没有黄仁勋

头条要闻

特朗普访华企业团名单披露:马斯克在列 没有黄仁勋

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

刘涛晒妈祖诞辰活动照 评论区变许愿池

财经要闻

特朗普要来了,我们且淡定

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

本地
时尚
游戏
教育
公开课

本地新闻

用苏绣的方式,打开江西婺源

推广|| 你们都想要的绝美白衬衫,链接来了!

《蝙蝠侠》阿卡姆重启新作截图曝光!全新主角亮相

教育要闻

AI时代,雅思阅读的人文素养才是你的“不可替代内核”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版