网易首页 > 网易号 > 正文 申请入驻

超越简单描述:浙江大学研究团队为机器人打造"动作理解教科书"

0
分享至

这项由浙江大学刘大勇教授与三一重工AI团队等多家机构合作的研究发表于2025年11月的计算机视觉顶级会议,论文编号为arXiv:2511.18685v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们看到一个人切西瓜时,我们不仅能看出"他在切西瓜",还能观察到更多细节:左手如何稳定西瓜,右手怎样握刀,刀刃如何垂直接触表面,甚至还能理解为什么要先轻压再用力,以及这种切法是否高效。这种对动作细节的深度理解正是机器人最欠缺的能力。

目前的AI大模型虽然能够识别视频中的基本动作,但它们就像只会说"有人在切西瓜"的观察者,无法理解切西瓜这个动作背后的精妙操作技巧。研究团队发现,这种缺陷严重限制了机器人在真实世界中的表现能力。当机器人需要完成复杂的物理操作时,仅仅知道"要做什么"是远远不够的,它们必须理解"如何做"和"为什么这样做"。

为了解决这个根本性问题,研究团队创建了一个名为CFG-Bench的全新评估体系。这个体系就像一本专门为机器人设计的"动作理解教科书",包含了1368个精心挑选的视频片段和19562组问答对,覆盖了从简单的日常动作到复杂的户外活动。

CFG-Bench的核心创新在于它建立了一个四层递进的认知框架,就像教孩子学习动作一样循序渐进。第一层是"物理交互",教会AI观察动作的具体执行细节,比如用哪只手、握住物体的哪个部位、以什么样的力度和方向进行操作。这就像教孩子观察大人如何正确握筷子一样。

第二层是"时间因果关系",让AI理解动作之间的先后顺序和因果联系。继续以切西瓜为例,AI需要明白为什么要先稳定西瓜再切割,以及每个步骤如何影响下一个步骤。这种理解对于机器人执行多步骤任务至关重要。

第三层是"意图理解",这要求AI能够推断动作背后的目的。当看到有人轻轻敲击西瓜时,AI需要理解这不是在切西瓜,而是在测试西瓜的成熟度。这种理解能力帮助机器人在面对新情况时做出合理的决策。

第四层是"评估判断",这是最高级的能力,要求AI能够评价动作的质量和效果。就像一个经验丰富的厨师能够判断切菜技巧的优劣一样,机器人也需要具备这种评估能力来不断改进自己的动作。

在数据收集和标注过程中,研究团队采用了极其严格的标准。他们花费了整整一个月的时间,组织十位专业标注员对视频进行细致入微的分析。每个动作的描述都要精确到具体使用哪个手指、如何施力、动作的节奏等细节。这种精细程度远超以往任何相关研究。

更有趣的是,为了确保AI真正理解而不是简单记忆答案,研究团队设计了"反事实"问题。这些问题故意包含错误信息,比如问"你是如何用脚踩踏板来刷链条的",而实际视频中是用手转动踏板。只有真正理解动作的AI才能识别出问题中的错误并给出正确答案。

当研究团队用CFG-Bench测试当前最先进的AI模型时,结果令人震惊。即便是表现最好的Gemini-2.5-Pro模型,在开放式问题上的平均得分也只有5.4分(满分10分),而人类的平均得分达到了9.05分。这个巨大差距揭示了当前AI在精细动作理解方面的严重不足。

特别值得注意的是,AI模型在不同类型任务上的表现呈现出有趣的模式。它们在识别动作的直接后果方面表现相对较好,但在理解复杂的时间序列和全局目标方面却显得力不从心。这就像一个人能看出打鸡蛋会让鸡蛋破碎,但却无法理解整个做蛋糕的流程。

研究团队还发现了一个被称为"莫拉维克悖论"的现象在AI领域的体现:对人类来说简单的物理动作识别对AI来说却极其困难,而对人类来说复杂的抽象推理对AI来说相对容易。这解释了为什么现有AI能够进行复杂的文本推理,却在理解简单的物理操作时频频出错。

为了验证CFG-Bench的实用性,研究团队进行了一个令人印象深刻的实验。他们使用CFG-Bench的数据对Qwen2.5-VL模型进行了专门训练,然后在两个不同的机器人任务上进行测试。结果显示,经过训练的模型在高层规划任务上的性能提升了106%,在低层控制任务上的性能提升了59%。这证明了精细动作理解能力的提升确实能够直接改善机器人的实际表现。

更有意思的是,经过CFG-Bench训练的AI模型在描述视频时也表现出了明显的改进。原本只能给出"机械臂接近玻璃和瓶子,机械臂拿起瓶子,机械臂倾斜瓶子并将液体倒入玻璃"这样简单描述的模型,现在能够生成"机械手定位在画面左侧,慢慢向桌上的玻璃瓶移动,然后用手指夹住瓶子的把手,稍微抬起瓶子离开桌面,接着逆时针旋转瓶子使瓶嘴对准下方的玻璃,然后倾斜瓶子将液体倒入玻璃"这样详细且准确的描述。

在分析AI模型的错误模式时,研究团队发现了几个普遍存在的问题。首先是"细节遗漏",AI经常能识别出主要动作但漏掉关键的执行细节。其次是"同时动作理解困难",AI很难理解两只手或多个身体部位同时进行的协调动作。第三是"过度简化的启发式判断",AI倾向于基于表面现象做出判断,而不是深入理解动作的真实目的。最后是"积极偏见",AI在评估动作质量时倾向于只关注最终结果,而忽视执行过程中的问题。

这项研究的意义远不止于技术层面的突破。在日常生活中,我们期待机器人能够承担更多复杂的家务劳动,比如做饭、清洁、照顾老人等。这些任务都需要精细的动作理解和执行能力。CFG-Bench为开发这样的机器人提供了重要的评估工具和训练资源。

在工业领域,精确的动作理解能力对于自动化生产线同样至关重要。传统的工业机器人只能执行预编程的固定动作,而具备了精细动作理解能力的AI系统将能够适应更复杂和变化的生产环境。

从更广阔的视角来看,这项研究代表了AI发展的一个重要方向转变。过去几年,AI主要在语言和图像识别等感知任务上取得突破,而现在正向着更深层的理解和交互能力发展。CFG-Bench正是这种发展趋势的重要体现。

研究团队也坦诚地指出了当前工作的局限性。由于资源限制,他们无法对所有先进的商业模型进行全面测试。此外,虽然数据集涵盖了广泛的日常活动,但对于某些高度专业化的技能(如外科手术或精密加工)还需要进一步扩展。另外,当前的评估方式主要依赖于语言表达,而一些AI可能具备正确的理解但无法准确表达出来。

尽管存在这些局限,CFG-Bench已经为机器人和AI领域提供了一个重要的新工具。它不仅揭示了当前技术的不足,更为未来的改进指明了方向。随着越来越多的研究团队使用这个基准测试,我们可以期待机器人在精细动作理解方面的快速进步。

说到底,这项研究解决的是一个看似简单却极其重要的问题:如何让机器真正理解人类的动作。虽然我们距离拥有真正智能的家用机器人助手还有一段路要走,但CFG-Bench为我们提供了衡量进步的清晰标准。当有一天机器人能够完美通过这些测试时,它们也就具备了在真实世界中协助人类的基本能力。

对于普通人来说,这意味着未来的机器人将不再是笨拙的自动化设备,而是真正能够理解和学习人类动作的智能伙伴。它们将能够观察我们如何完成任务,理解我们的操作意图,甚至能够根据不同情况调整自己的动作方式。这种能力的实现,正是通过像CFG-Bench这样的研究一步步积累而来的。

Q&A

Q1:CFG-Bench是什么?

A:CFG-Bench是浙江大学研究团队开发的机器人动作理解评估体系,就像为机器人设计的"动作理解教科书"。它包含1368个视频和19562组问答对,通过四层递进框架(物理交互、时间因果、意图理解、评估判断)来测试AI是否真正理解人类动作的执行细节、先后顺序、背后目的和质量评估,而不仅仅是识别"在做什么"。

Q2:现在的AI模型在CFG-Bench上表现如何?

A:表现很不理想。最好的Gemini-2.5-Pro模型在开放式问题上只得到5.4分(满分10分),而人类平均得分达到9.05分。AI模型普遍存在细节遗漏、无法理解同时进行的协调动作、过度简化判断等问题。这说明当前AI在精细动作理解方面还有巨大提升空间。

Q3:CFG-Bench对机器人发展有什么实际意义?

A:实验证明用CFG-Bench训练的AI模型在实际机器人任务上性能显著提升,高层规划任务提升106%,低层控制任务提升59%。这意味着精细动作理解能力直接影响机器人的实际表现,为开发能够胜任复杂家务、工业生产等任务的智能机器人提供了重要评估工具和训练资源。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
别再比退休金了!2026年满60岁,拿到这个数就偷着乐吧

别再比退休金了!2026年满60岁,拿到这个数就偷着乐吧

椰青美食分享
2026-06-29 19:04:57
入选国少!前足球小将核心父亲示好 董路:永远不原谅你 原因曝光

入选国少!前足球小将核心父亲示好 董路:永远不原谅你 原因曝光

念洲
2026-06-29 20:03:23
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
输球又输人!世界杯恶意犯规毁天才!西班牙新星含泪控诉乌拉圭

输球又输人!世界杯恶意犯规毁天才!西班牙新星含泪控诉乌拉圭

澜归序
2026-06-29 08:49:09
港珠澳大桥海关查获一起司机利用车辆改装暗格藏匿12.2千克燕窝进境案

港珠澳大桥海关查获一起司机利用车辆改装暗格藏匿12.2千克燕窝进境案

环球网资讯
2026-06-28 17:54:22
美国大满贯三大冷门:林昀儒一轮游,覃予萱0-3,国乒3人输球

美国大满贯三大冷门:林昀儒一轮游,覃予萱0-3,国乒3人输球

格斗社
2026-06-29 13:36:03
7月15日入伏,不出意外的话今年三伏将出现这5种现象,与往年不同

7月15日入伏,不出意外的话今年三伏将出现这5种现象,与往年不同

近史阁
2026-06-29 13:50:09
微信出现这条淡淡黄杠,说明你们的好友关系已经被解除了

微信出现这条淡淡黄杠,说明你们的好友关系已经被解除了

侃故事的阿庆
2026-06-28 09:55:21
难以置信,北京协和证实:40岁后男性最优运动,并非跑步撸铁

难以置信,北京协和证实:40岁后男性最优运动,并非跑步撸铁

华庭讲美食
2026-06-21 15:26:10
腾讯与长鑫存储达成超200亿DRAM大单 知情人士:该协议期限最长五年

腾讯与长鑫存储达成超200亿DRAM大单 知情人士:该协议期限最长五年

快科技
2026-06-29 16:44:05
红军时期,毛主席认为有两个人的才能远胜自己和朱德,曾主动让贤

红军时期,毛主席认为有两个人的才能远胜自己和朱德,曾主动让贤

新一说史
2026-06-14 06:09:58
4-2横扫张本智和!19岁国乒天才连斩5大世界名将,一战封神

4-2横扫张本智和!19岁国乒天才连斩5大世界名将,一战封神

小琴动漫
2026-05-30 14:30:26
CBA 三消息:徐昕正式签约,李春江新岗位出炉,山东报价广东新星

CBA 三消息:徐昕正式签约,李春江新岗位出炉,山东报价广东新星

kio鱼
2026-06-29 18:00:04
震惊了!坐飞机,发现了一名超像豆包的空姐

震惊了!坐飞机,发现了一名超像豆包的空姐

微微热评
2026-06-25 12:35:51
起风了!美国对台有新表态,韩国瑜走险棋,台当局抛“三个停止”

起风了!美国对台有新表态,韩国瑜走险棋,台当局抛“三个停止”

起喜电影
2026-06-27 04:50:27
斯基拉:森林为琼斯提供了5年合同,试图以3500-4000万签下他

斯基拉:森林为琼斯提供了5年合同,试图以3500-4000万签下他

懂球帝
2026-06-29 15:32:14
全国1.4亿城镇退休职工,月养老金高于5000元的人群,占比多大

全国1.4亿城镇退休职工,月养老金高于5000元的人群,占比多大

娱乐圈的笔娱君
2026-06-29 18:16:17
女子为霸占情夫,半夜将原配杀死,2019年情夫:我就是想玩一下她

女子为霸占情夫,半夜将原配杀死,2019年情夫:我就是想玩一下她

汉史趣闻
2026-06-28 08:32:52
大马丁:我的手指仍然很疼,不过对阵佛得角我不用带护具了

大马丁:我的手指仍然很疼,不过对阵佛得角我不用带护具了

懂球帝
2026-06-29 00:59:26
曼联哭晕!英格兰水货世界杯首发现原形,20 次丢球权全场最多

曼联哭晕!英格兰水货世界杯首发现原形,20 次丢球权全场最多

奶盖熊本熊
2026-06-29 05:32:50
2026-06-29 20:52:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8947文章数 565关注度
往期回顾 全部

科技要闻

杀疯了!深圳一天出两家200亿具身智能公司

头条要闻

媒体:中国再对日本出重拳 一红一黄两张牌同时打出

头条要闻

媒体:中国再对日本出重拳 一红一黄两张牌同时打出

体育要闻

他和伊朗队,再次赢得全世界的尊重

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

近20家半导体企业开启新一轮涨价潮

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

本地
亲子
艺术
手机
旅游

本地新闻

贵州小城的新目标:举办“村超”世界杯!

亲子要闻

21款湿巾20款检出锑:千亿婴儿卫生用品市场,何故越卖越不稳?

艺术要闻

震惊!他用水彩画出的“真实世界”,放大10倍后看呆了……

手机要闻

vivo黄韬:X Fold6要做用户唯一主力机

旅游要闻

美食+潮玩,2026方庄美食季邀您来!

无障碍浏览 进入关怀版