网易首页 > 网易号 > 正文 申请入驻

港中文团队发布7模态人体动作数据集,揭开大模型理解能力短板

0
分享至

来源:市场资讯

(来源:DeepTech深科技)


近日,香港中文大学信息工程系邢国良教授团队的博士生蒋思阳作为第一作者,完成了一项名为 CUHK-X 的大型多模态人体动作数据集,这个数据集能让 AI 真正看懂人在做什么、为什么这么做以及接下来要做什么。这项研究成果已被移动计算领域顶级国际会议 ACM MobiSys 2026 接收。

有了它,服务机器人可以更聪明地理解你的需求,养老院能提前预警老人摔倒风险,康复系统能分析病人的动作是否标准。他们用这个数据集测了市面上好几款主流的大模型,发现即便是最聪明的 AI,在理解人类真实动作这件事情上,平均正确率也只有四成左右,还有很长的路要走。

这项研究其实是被现实需求逼出来的,该团队之前在做边缘部署的 AI 系统时发现,现有的数据集都只停留在识别层面,比如拍一个人摔倒,AI 知道这是摔倒。不过大模型时代需要的不只是认出来,还要理解这个人是怎么摔倒的,是绊到了椅子还是被东西砸到,以及摔倒之后应该怎么办。

理解和推理这两个能力,恰恰是 AI 要走进家庭、医院、养老院这些真实场景时最需要的。市面上的主流大模型主要针对彩色照片优化,面对深度图、热成像、毫米波雷达这些非常规传感器时表现很差,根本原因就是缺少这类传感器的配对数据。

CUHK X 的数据收集走了一条反常规的路径,传统做法是先随便拍一堆视频,然后找人一帧一帧打标签,效率极低还容易出错。该团队先设计好动作场景,再用大模型把动作串成一段有逻辑的剧情,最后让参与者照着剧情演。比如刷牙洗脸梳头穿衣服这几个动作,大模型会生成一段从起床到洗漱完毕的完整描述,参与者照着演就行了。数据收集前标签就已经定好了,准确性大大提高。

整个数据集包含 40 个动作,分成了七个大类。这套动作清单是从 12 个公开数据集的 349 个动作中筛选出来的高频动作。

数据收集使用的传感器阵容相当豪华,主摄像头是一台 Goermicro Vzense NYX 650,同时输出彩色、深度和红外三种信号。热成像用的是海康威视 TB4117,毫米波雷达是德州仪器 IWR6843ISK。惯性传感器用的是五台 WitMotion WT9011DCL BT50,分别绑在双手手腕、双脚脚踝和腰部。

所有传感器通过主机的全局时钟同步,用场记板标记起始点,确保七路信号精确对齐。整个数据收集在两个室内环境中完成,覆盖了客厅、厨房、卧室和卫生间四个典型居室场景。


(来源:https://arxiv.org/pdf/2512.07136)

CUHK-X 数据集中,光是视觉类模态就包括 4,029 段视频,总时长达 19 小时 29 分钟。该团队利用这套数据开展了一系列基准测试。在传统的动作识别任务上,热成像表现最好,准确率 92.57%,彩色摄像头 90.89%,深度摄像头 90.46%,红外 90.22%,骨架数据 79.08%。毫米波雷达和惯性传感器因为信号噪声大,准确率只有 46% 和 45% 左右,说明非视觉传感器在动作识别上还有很大提升空间。

最考验 AI 水平的是理解和推理,因此该团队设计了四个理解层面和一个推理层面的的任务。

第一个是描述生成,让 AI 看一段视频,然后写出一段话描述画面里的人在干什么。测试结果显示,表现最好的模型在热成像和深度数据上也只能拿到三四十分的匹配度,和真实描述差得很远。

第二个是情境分析,让 AI 判断视频里的人是悠闲还是匆忙。目前主流模型平均正确率与随机猜测无异。

第三个是动作排序,把一段打乱顺序的视频片段重新排好,比如先拿杯子后倒水最后喝水。这个任务的挑战在于 AI 必须理解动作之间的因果链条。

第四个是动作选择,从 40 个动作里选出视频中出现的动作。这项测试平均正确率不到 25%,说明当前大模型在多动作复杂场景下几乎无能为力。


(来源:https://arxiv.org/pdf/2512.07136)

推理任务的难度则更进一步,通过让 AI 观察一段动作序列,预测下一秒会发生什么,来判断现有大模型的推理能力。该团队发现,普通的描述型大模型在这个任务上表现很差,它们只会照搬表面特征,比如看到有人在餐桌前就猜吃饭,完全不管餐具拿没拿。

不过有推理能力的模型表现好很多,它会分析上下文,看到桌子上有衣服、人在擦手、旁边放着包,就会推断出接下来很可能是要穿衣服出门。这种模型还会给出推理过程,让人知道它是怎么得出结论的。


(来源:https://arxiv.org/pdf/2512.07136)

不过,这些看似条理清晰的实验结果,并不是一蹴而就的。从设备选型到场地搭建,从志愿者招募到数据清洗,团队遇到的麻烦远比想象中多,而其中最惨痛的一次教训,来自毫米波雷达。

据介绍,毫米波雷达那次失利让整个团队刻骨铭心。在实验室里调得好好的,搬到新场地信号全乱套了,十几个小时的采集全部作废,二十多个参与者得重新叫回来。蒋思阳说这个教训很昂贵,那就是永远不要觉得在一个环境跑通了,换个地方就理所当然能跑通。


图 | 第一作者照片(来源:受访者)

另据悉,蒋思阳本科主修数学专业,硕士毕业于中国台湾大学,研究方向为硬件系统,博士就读于香港中文大学信息工程系,从事计算机系统方向的研究。

他即将博士毕业,并计划继续从事学术研究,进一步深化和完善这一数据集。下一步计划把参与人数从 30 人扩展到 100 人,加入 WiFi 信号和音频等新模态,还要去真正的养老机构做实地验证。在他看来,AI 要真正理解人,光靠识别远远不够,必须在场景里建立起完整的因果链条。CUHK-X 数据集的搭建为算法研究者提供了验证模型的平台。

参考资料:

相关论文 https://arxiv.org/pdf/2512.07136

http://aiot.ie.cuhk.edu.hk/

运营/排版:何晨龙

注:封面/首图由 AI 辅助生成

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马刺两大败因出炉,文班做错一事!福克斯毫无借口,卡斯尔也摊牌

马刺两大败因出炉,文班做错一事!福克斯毫无借口,卡斯尔也摊牌

鱼崖大话篮球
2026-05-27 12:25:22
扒底裤了!早在15年前,宁波慈溪就查出福建杨梅问题,曾禁止进入

扒底裤了!早在15年前,宁波慈溪就查出福建杨梅问题,曾禁止进入

火山詩话
2026-05-26 09:51:48
向美捐8亿被骂叛徒,无锡唐氏21代掌门回应:我的钱只认文明归属

向美捐8亿被骂叛徒,无锡唐氏21代掌门回应:我的钱只认文明归属

人生录
2026-05-26 21:16:30
她是赖昌星“色贿”的牺牲品,给杨前线做情妇生儿子,现状如何?

她是赖昌星“色贿”的牺牲品,给杨前线做情妇生儿子,现状如何?

小蒋爱唠嗑
2026-05-23 01:17:54
NBA现争议判罚:雷霆球员疑脚碰球出界仍获球权,马刺挑战被无视还吃技犯

NBA现争议判罚:雷霆球员疑脚碰球出界仍获球权,马刺挑战被无视还吃技犯

观察者网
2026-05-27 12:35:08
大头拥有大智慧!布伦森主动少拿1.13亿,亲手把尼克斯送进总决赛

大头拥有大智慧!布伦森主动少拿1.13亿,亲手把尼克斯送进总决赛

体育闲话说
2026-05-27 08:38:06
基辅遭大规模轰炸,泽连斯基坐不住了,他请求联合国马上开会

基辅遭大规模轰炸,泽连斯基坐不住了,他请求联合国马上开会

混沌录
2026-05-26 20:59:03
“最干净女演员”被富商苦追10年才嫁,如今和女儿被宠如宝

“最干净女演员”被富商苦追10年才嫁,如今和女儿被宠如宝

吃青菜长高
2026-05-26 16:31:47
朱元璋封大舅子大官,大舅子跪在地上嚎哭:只求每天有酒喝就行

朱元璋封大舅子大官,大舅子跪在地上嚎哭:只求每天有酒喝就行

兴趣知识
2026-05-27 00:42:06
发生甚么事了?怀特塞德缺席昨日总决赛,CBA官网已无其名字

发生甚么事了?怀特塞德缺席昨日总决赛,CBA官网已无其名字

懂球帝
2026-05-27 08:54:37
广东2名顾客带宠物猫进沃尔玛,一边撸猫一边用手触碰熟食,随后又放回原处,门店回应:店内禁止宠物入内,目前已上报管理层研判处置

广东2名顾客带宠物猫进沃尔玛,一边撸猫一边用手触碰熟食,随后又放回原处,门店回应:店内禁止宠物入内,目前已上报管理层研判处置

北青网-北京青年报
2026-05-26 15:31:17
“想停火?先签协议” 特朗普打起新算盘

“想停火?先签协议” 特朗普打起新算盘

上游新闻
2026-05-26 14:19:02
刚陪方媛回老家奔丧,短短5天后,60岁郭富城再迎一大噩耗

刚陪方媛回老家奔丧,短短5天后,60岁郭富城再迎一大噩耗

寒士之言本尊
2026-05-27 13:03:49
美媒集体震惊:这次访华,才真正见识到中国温度!

美媒集体震惊:这次访华,才真正见识到中国温度!

福建睿平
2026-05-18 11:56:20
夏窗第一购来了!卡里克相中冠军级中场,26岁巴西人有何魅力

夏窗第一购来了!卡里克相中冠军级中场,26岁巴西人有何魅力

里芃芃体育
2026-05-27 11:00:11
武契奇乘小飞机访华,但中方给塞尔维亚的东西,10架运20都装不下

武契奇乘小飞机访华,但中方给塞尔维亚的东西,10架运20都装不下

共工之锚
2026-05-27 00:28:49
俄罗斯向全球发出警告,一大批高科技武器,正往中国周边快速推进

俄罗斯向全球发出警告,一大批高科技武器,正往中国周边快速推进

轩逸阿II
2026-05-27 01:19:51
普京立法绝不允许后世翻案,他要为俄罗斯未来几十年定调

普京立法绝不允许后世翻案,他要为俄罗斯未来几十年定调

a入画浅相思
2026-05-27 09:35:35
糯米立大功!医生发现:坚持吃糯米一段时间,身体或迎来5个变化

糯米立大功!医生发现:坚持吃糯米一段时间,身体或迎来5个变化

橘子约定
2026-05-13 21:25:24
沪指失守4100点,超4600只个股下跌!短剧概念活跃,多股涨停,芯片股走强!机器人概念震荡调整,上纬新材跌超11%丨A股早盘

沪指失守4100点,超4600只个股下跌!短剧概念活跃,多股涨停,芯片股走强!机器人概念震荡调整,上纬新材跌超11%丨A股早盘

每日经济新闻
2026-05-27 12:13:14
2026-05-27 14:16:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3349778文章数 7626关注度
往期回顾 全部

科技要闻

韬定律:全球在卷纳米数 华为换了一把尺子

头条要闻

258亩荠菜地遭数百人哄抢造成损失约70万 种植户发声

头条要闻

258亩荠菜地遭数百人哄抢造成损失约70万 种植户发声

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

小S晒归宁宴旧照,大S穿吊带裙扎丸子头

财经要闻

ST岩石退市背后:A股“炒壳”时代终结

汽车要闻

极狐问道V9今日将正式上市 搭载华为雪鸮增程系统

态度原创

游戏
本地
时尚
教育
公开课

昂扬不灭!2026英雄联盟手游超级联赛夏季赛正式开赛

本地新闻

用剪纸的方式,打开江苏扬州

多巴胺“粉”,赫本是这样穿的!

教育要闻

江西现代职业技术学院:值得填报吗?热门专业就业现状及报考分析#搜索千校视频计划

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版