网易首页 > 网易号 > 正文 申请入驻

香港大学团队破解电脑操作难题:让AI通过看视频学会自己使用电脑

0
分享至


这项由香港大学的陆俊杰、徐艺恒、王俊力等研究者领导,联合阿里巴巴Qwen团队的黄斌源、林俊洋等专家共同完成的研究发表于2025年10月,论文编号为arXiv:2510.19488v1。这是一项关于如何让人工智能学会使用电脑的突破性研究,有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们看到一个孩子第一次学习使用电脑时,通常是通过观察大人的操作,然后模仿点击、打字、滚动等动作。现在,研究人员想让人工智能也能通过这种方式学习,但遇到了一个巨大的挑战:虽然网上有数百万个电脑操作教程视频,但这些视频就像是无声电影一样,我们能看到鼠标在移动、按钮被点击,却无法直接知道具体点击的坐标或者输入的文字内容。

香港大学的研究团队提出了一个创新的解决方案,他们称之为VideoAgentTrek。这个系统就像是一个非常聪明的"视频翻译官",能够自动观看YouTube上的电脑教程视频,然后把这些隐含的操作信息翻译成AI能够理解和学习的具体指令。

研究团队开发了一个叫做Video2Action的关键技术模块,它的工作原理可以比作一个经验丰富的电脑老师在观看学生操作录像。这个"老师"有两项特殊技能:首先,它能精确识别视频中什么时候发生了操作,比如在第3.5秒到5.5秒之间用户进行了打字操作;其次,它能准确推断出这些操作的具体内容,比如鼠标点击的确切坐标是(350, 200),或者用户输入的文字是"hello world"。

为了获得训练数据,研究团队像是在进行一场大规模的"视频考古"工作。他们从YouTube收集了55000个教程视频,总时长约10000小时,涵盖从Excel表格操作到软件安装的各种电脑使用场景。为了确保视频质量,他们还开发了一个叫做ScreenFilter的筛选工具,这个工具就像是一个专门的"质检员",能够自动识别哪些视频片段包含真正的电脑界面操作,过滤掉那些只是讲解PPT或者纯粹聊天的内容。

经过ScreenFilter的筛选,最终保留了约7377小时的高质量GUI交互视频。这些视频按照内容类型进行了分类:操作系统相关的占35.7%,专业软件使用占18.9%,日常办公应用占17.6%,工作流程演示占16.2%,其余为7.1%。这种分布确保了训练数据的广泛覆盖性。

Video2Action模块的工作过程可以分为三个步骤,就像一个熟练的秘书在整理会议记录。第一步是"动作事件检测",系统会仔细观看视频,标记出每个操作动作的精确时间段,比如"在1.5到2.0秒之间发生了点击动作"。第二步是"动作参数化",系统会分析这些时间段内的具体操作内容,推断出点击的坐标、输入的文字等详细参数。第三步是"内心独白生成",系统会为每个操作生成一段解释性的文字,说明为什么要进行这个操作,就像是操作者的内心想法。

研究团队使用了Qwen2.5-VL-7B作为基础模型进行训练。对于动作事件检测,他们使用了154小时的标注数据进行训练,这些数据来自OpenCUA项目,包含了77万多个精确标注的GUI事件。检测模型在测试中表现出色,整体精确率达到88%,召回率为70%。其中,点击和滚动等基于鼠标指针的操作识别效果最好,而按键操作由于视觉线索较少,识别难度相对较大。

对于动作参数化任务,研究团队训练了512000个视频片段。他们采用了动态帧率策略来平衡效率和准确性:对于短暂的操作(如点击),使用较高的帧率确保捕捉细节;对于较长的操作(如打字),则使用较低的帧率节省计算资源。在实际测试中,该模块在500个样本的人工评估中表现良好,点击操作的准确率达到71.3%,滚动操作达到73.5%。

通过Video2Action处理39000个YouTube视频后,研究团队最终获得了152万个交互步骤的训练数据,相当于约260亿个训练词汇。这个数据规模远超之前的人工标注数据集,而且覆盖了Windows、macOS、Web平台上数百种应用程序的操作模式。

在模型训练方面,研究团队采用了两阶段策略。第一阶段是"继续预训练",让模型在大规模的视频挖掘数据上学习基础的GUI交互模式,就像让学生先大量阅读各种操作手册。第二阶段是"监督微调",使用高质量的人工标注数据进行精细调整,就像让学生在老师指导下练习具体操作。

实验结果令人印象深刻。在OSWorld-Verified基准测试中,仅使用监督微调的基准模型任务成功率为9.3%,而加入VideoAgentTrek预训练后,成功率提升到15.8%,相对提升幅度达到70%。在AgentNetBench测试中,步骤准确率从64.1%提升到69.3%。特别值得注意的是,经过视频预训练的模型在给定更多操作步骤时表现出更好的"测试时扩展"能力,任务成功率从20步预算的14.13%提升到50步预算的15.78%,而未经视频预训练的模型在增加步骤后性能没有提升。

研究团队进一步分析了数据规模的影响。他们发现,随着视频预训练数据量的增加,模型性能呈现稳定的提升趋势。使用50%的数据时,AgentNetBench步骤成功率为68.1%,OSWorld-Verified任务成功率为13.3%;使用100%数据时,性能进一步提升至69.3%和15.7%。这表明更大规模的视频数据能够带来更好的性能。

VideoAgentTrek的一个重要优势是能够提供更长的操作轨迹。传统的人工标注数据集平均轨迹长度通常在5-18步之间,而VideoAgentTrek数据集的平均轨迹长度达到39.25步,其中42.1%的轨迹超过20步,14.5%包含50步或更多。这种长轨迹训练对于复杂任务的处理至关重要,它让AI模型学会了如何将复杂任务分解为子目标,在中间失败时持续尝试,并有效利用额外的计算预算进行探索和错误修正。

在技术细节方面,ScreenFilter使用YOLOv8x模型进行光标检测,在15000个合成图像上训练,F1分数达到89.58%。该工具以1-2帧每秒的速度处理视频,保留至少80%帧包含光标且持续6秒以上的片段,能够以每GPU日约840小时的效率进行大规模过滤。

Video2Action的动作事件检测模块支持多种操作类型,包括点击、拖拽、按键、滚动、打字等。在训练数据中,点击操作占主导地位(67.1%),其次是打字(13.9%)和按键(9.4%)。模型能够处理各种时长的操作,从0.5秒的快速点击到5秒的长时间打字输入。

内心独白生成使用GPT-5 Medium模型,为每个操作步骤生成4-8句的第一人称解释。这些解释包含操作意图、本地计划、预期状态变化等信息,帮助模型更好地理解操作的上下文和目的。生成过程会参考操作前后的关键帧、操作类型和参数,以及操作前后各1分钟的语音转录内容。

研究团队还对不同领域的性能进行了详细分析。在OSWorld-Verified的各个应用类别中,Chrome浏览器相关任务的改善最为显著,解决任务数从8个增加到15个;工作流程类任务从5个增加到8个;操作系统类任务也有稳定提升。这表明视频预训练在各种应用场景中都能带来实质性的性能提升。

VideoAgentTrek方法的创新之处在于首次实现了从无标注视频到结构化训练数据的自动转换。传统方法要么依赖昂贵的人工标注,要么局限于有限的模拟环境,而VideoAgentTrek能够利用互联网上丰富的教程视频资源,为计算机使用代理的训练提供了一种可扩展的替代方案。

这项研究的意义不仅在于技术突破,更在于为AI助手的实用化铺平了道路。未来,我们可能会看到更智能的AI助手,它们能够通过观看在线教程学习新的软件操作,然后帮助用户完成复杂的计算机任务。这种能力将极大地降低普通用户使用复杂软件的门槛,让更多人能够享受到数字化工具带来的便利。

说到底,VideoAgentTrek展示了一种全新的AI学习范式:通过模仿人类的学习方式,让AI从观察中学习,而不是仅仅依赖预先标注的数据。这种方法不仅更接近人类的学习过程,也为AI技术的发展开辟了更广阔的可能性。正如人类通过观察和模仿学会使用工具一样,AI也可以通过这种方式不断扩展自己的能力边界。对于普通用户而言,这意味着未来的AI助手将更加智能和实用,能够真正成为我们数字生活中的得力伙伴。

Q&A

Q1:VideoAgentTrek是什么?

A:VideoAgentTrek是香港大学和阿里巴巴团队开发的AI训练系统,它能自动从YouTube教程视频中提取电脑操作信息,让AI学会使用电脑,就像人类通过看视频学习一样。

Q2:这个系统相比传统方法有什么优势?

A:传统方法需要大量人工标注数据,成本高且规模有限。VideoAgentTrek能直接利用网上现成的教程视频,成本低廉且数据规模庞大,从39000个视频中自动提取了152万个操作步骤。

Q3:VideoAgentTrek训练的AI表现如何?

A:在标准测试中,使用VideoAgentTrek训练的AI任务成功率从9.3%提升到15.8%,步骤准确率从64.1%提升到69.3%,并且在复杂长任务上表现更加出色。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这就是杜月笙妻妾真实的样貌,并非演员扮演,货真价实的罕见照片

这就是杜月笙妻妾真实的样貌,并非演员扮演,货真价实的罕见照片

云霄纪史观
2026-03-26 17:17:24
陈天桥:那一夜梁文锋拒绝了我的投资,却让我决定投入10亿美金去做另一件事

陈天桥:那一夜梁文锋拒绝了我的投资,却让我决定投入10亿美金去做另一件事

猎云网
2026-03-19 15:28:10
张雪峰背后的万霞太戳心!001号员工月薪3500熬到并肩成王

张雪峰背后的万霞太戳心!001号员工月薪3500熬到并肩成王

冷桂零落
2026-03-26 22:55:08
一名重大经济犯罪嫌疑人被押解回国

一名重大经济犯罪嫌疑人被押解回国

新华社
2026-03-26 15:00:03
特朗普万万没想到!第一个敢掀桌子的,竟然是马来西亚

特朗普万万没想到!第一个敢掀桌子的,竟然是马来西亚

黑鹰观军事
2026-03-25 17:12:13
上海交大解剖405名心梗死者,惊讶发现患心梗的人,有3个共性

上海交大解剖405名心梗死者,惊讶发现患心梗的人,有3个共性

健康之光
2026-03-26 13:55:06
杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

林轻吟
2026-03-25 19:25:45
油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

复转这些年
2026-03-26 09:40:14
30万!不是工资,是汪峰每个月要给的抚养费

30万!不是工资,是汪峰每个月要给的抚养费

小光侃娱乐
2026-03-25 16:45:05
30多辆大巴车一天只卖几张票!甘肃一地客运中心即将停运

30多辆大巴车一天只卖几张票!甘肃一地客运中心即将停运

快科技
2026-03-26 17:01:50
参数全赢,销量没赢:尚界Z7销量输给小米SU7!差哪呢?

参数全赢,销量没赢:尚界Z7销量输给小米SU7!差哪呢?

生活魔术专家
2026-03-26 18:07:46
在茶水间我帮老公整理领带,女总监冲过来推开我:别碰我男人!

在茶水间我帮老公整理领带,女总监冲过来推开我:别碰我男人!

萧竹轻语
2026-03-10 17:04:51
抗炎才能抗癌!哈佛大学《自然》重磅:炎症会在身体留下长期记忆,显著增加未来患癌风险

抗炎才能抗癌!哈佛大学《自然》重磅:炎症会在身体留下长期记忆,显著增加未来患癌风险

医诺维
2026-03-26 17:00:54
山姆曲奇礼盒紧急下架!监管部门:已立案

山姆曲奇礼盒紧急下架!监管部门:已立案

中国品牌
2026-03-26 19:00:21
夏日清凉:一种关于存在的轻盈宣言

夏日清凉:一种关于存在的轻盈宣言

疾跑的小蜗牛
2026-03-26 21:48:38
重大转折!俄罗斯,公开下场了!

重大转折!俄罗斯,公开下场了!

大嘴说天下
2026-03-26 22:17:57
看是御姐,脸还能打,肉却 “软趴趴” 了

看是御姐,脸还能打,肉却 “软趴趴” 了

飛娱日记
2026-03-13 11:31:29
“鸡蛋界的LV”,安全了吗

“鸡蛋界的LV”,安全了吗

中国新闻周刊
2026-03-26 13:01:31
张雪峰去世,他留下的30个金句,涵盖志愿填报、成长与认知

张雪峰去世,他留下的30个金句,涵盖志愿填报、成长与认知

光影新天地
2026-03-24 22:25:14
吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

念洲
2026-03-26 13:14:22
2026-03-27 00:12:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7765文章数 556关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
健康
亲子
公开课
军事航空

旅游要闻

3月26日最佳情报|郊野公园杨柳依依,樱花烂漫醉游人!恭喜

转头就晕的耳石症,能开车上班吗?

亲子要闻

看看把孩子吓得哈哈哈

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版