网易首页 > 网易号 > 正文 申请入驻

AI预判了你的预判 人大高瓴团队发布TTR教会AI一眼看穿你的下一步

0
分享至

本文作者均来自中国人民大学高瓴人工智能学院。其中,第一作者谭文辉是人大高瓴博士生(导师:宋睿华长聘副教授),他的研究兴趣主要在多模态与具身智能。本文通讯作者为宋睿华长聘副教授,她的团队 AIMind 主要研究方向为多模态感知、生成与交互。

对面有个人向你缓缓抬起手,你会怎么回应呢?握手,还是挥手致意?

在生活中,我们每天都在和别人互动,但这些互动很多时候都不太确定,很难直接猜到对方动作意图,以及应该作何反应。

为此,来自人大高瓴的研究团队提出了一种新的框架 ——Think-Then-React (TTR),采用预训练大语言模型(LLM)+ 运动编码器的策略,使模型能够先「思考」输入动作的意义,再推理出适合的反应,最后生成连贯的反应动作。该论文已被 ICLR 2025 接收。


  • 论文标题:Think-Then-React: Towards Unconstrained Human Action-to-Reaction Generation
  • 论文链接:https://openreview.net/pdf?id=UxzKcIZedp
  • 项目链接:Think-Then-React.github.io

图1 :Think-Then-React (TTR) 模型总览图。TTR 通过动作编码器将人类动作编码为大语言模型可读的标记,进而在预测人类反应过程中使用大语言模型识别动作,推理出合适的反应动作。推理过程中,模型不间断地进行重新思考,以避免动作的错误识别以及累计误差。


方法


统一运动编码器

TTR 方法的第一步是通过统一运动编码器处理输入的动作数据。过去的工作通常将人类动作起始姿态在空间上规范化至坐标轴原点,以保证编码器的高效利用。然而这种方式忽略了人类交互场景中的相对位置关系

为此,作者团队提出解耦空间 - 位姿编码,将人类动作的全局信息(空间中的位置与身体朝向)与局部信息(运动位姿)分别编码并组合使用,同时保证了编码系统的高效利用与交互过程中两人相对位置信息保留。

图2 :空间 - 位姿解耦编码器与传统编码器架构对比。

运动 - 文本联合预训练

为了提升模型对运动数据和语言的理解能力,作者设计了一系列运动与文本相关的预训练任务。这些任务的目标是让大语言模型能够同时处理文本和运动数据,从而在多模态的环境中进行知识迁移和任务执行。

在这个阶段,模型通过将运动数据与文本数据结合,学习到两者之间的对应关系,以便在后续的反应生成过程中能够更好地理解和生成与动作相关的反应。

图3 :TTR 预训练与微调阶段任务示意图。

思考 - 反应生成(Thinking-Reacting)

TTR 方法的核心是分阶段生成反应动作。具体来说,模型首先进入「思考」阶段(Think),在此阶段中,模型理解输入动作的含义,并判断出什么样的反应是合适的。

接下来,进入「反应」阶段(React),模型根据思考结果生成与输入动作相关的反应动作。这一过程类似于人类的决策和行动流程,在某种程度上模拟了人类对外界刺激的反应机制。

实验

反应动作生成质量测评

TTR 在不同的任务上,包括 R-Precision、分类准确率(Acc.)、Frechet Inception Distance (FID)、多模态距离(MMDist.)等方面,均取得了优异的性能。

TTR 的 FID 仅为 1.942,相较于次优方法 ReGenNet (3.988) 显著降低。此外,在 R-Precision 和分类准确率方面,TTR 也取得了更高的分数,表明其生成的反应动作更加符合输入动作的语义。

同样,在对比 TTR 与 ReGenNet 的用户研究中,受试者更偏好 TTR 生成的动作,特别是在较长时间序列的场景中,TTR 以 76.2% 的胜率胜出。

图4 :TTR 思考与预测反应(绿色)可视化样例。在样例 (a) 至 (c) 中,TTR 思考过程正确识别并推理出了相应动作,进而预测了正确的反应。在样例 (d) 中,TTR 错误地将对方动作(蓝色)识别为「摔跤」(正确动作为「拥抱」),预测了错误的反应。

消融实验

为了更进一步验证文中所提方法的有效性,作者团队进行了多项消融实验:

  • 去除思考(w/o Think):FID 从 1.942 上升到 3.828,证明了思考阶段对反应生成的重要性。
  • 去除预训练(w/o All PT.):模型性能大幅下降,表明预训练对于适应运动 - 语言模态至关重要。
  • 去除不同预训练任务:三种预训练任务(动作 - 动作、空间 - 位姿、动作 - 文本)均有正向贡献,互为补充。
  • 去除单人数据(w/o SP Data):仅依赖多人的数据仍可取得较好结果,单人数据的补充对模型表现提升不显著。


图五:多人交互数据集 Inter-X Action/Reaction 以及单人动作数据集 HumanML3D 动作特征示意图。

系统分析

  • 单人动作数据有效性


为了进一步分析单人数据贡献较小的原因,作者在同一空间中可视化了单人运动(HumanML3D)、交互动作(Inter-X Action)和交互反应(Inter-X Reaction)的运动序列,如上图所示。

具体而言,该团队使用 t-SNE 工具将运动分词序列的特征投影到二维空间。从上图可以看出,单人运动与两人运动序列几乎没有重叠。

在案例分析中,作者发现大多数交互运动是独特的,例如按摩、被拉拽等,而这些动作不会出现在单人运动数据中。同样,大多数单人运动也是独特的,例如 T 字姿势,很少出现在多人交互中。两者只有少量重叠的运动,如静止站立。

  • 重新思考时间间隔

TTR 的重新思考(re-thinking)机制可以动态调整生成的反应描述,从而减少累积误差,同时在计算成本上保持高效。

实验表明,过高与过低的重新思考频率均会导致性能下降。在保证高性能的情况下,TTR 的平均推理时间可以在单张 Tesla V100 上实现实时推理(延迟低于 50 毫秒)。

  • 动作描述质量


作者还在运动描述任务上对 TTR 模型进行了评估,结果下表所示。基线方法的结果来源于 Inter-X 论文的附录 A.1。由于基线方法均使用动作和反应作为输入,而 TTR 的思考过程仅能访问真实的动作,因此作者首先调整 TTR 的设置,使其与基线方法一致,记作 TTR∗。

从结果可以看出,得益于作者的细粒度训练和高效的运动表示,TTR∗ 在所有指标上都取得了最佳的运动描述性能。

随后在真实场景下评估 TTR,即仅能看到部分输入动作。作者分别使用 25%、50% 和完整的输入动作,让 TTR 进行动作到文本的生成。

结果表明,即使仅提供四分之一的输入动作,TTR 仍然能够准确预测对应的动作和反应描述,展现出较强的泛化能力。

  • 思考 / 动作描述


为了探究思考过程的必要性,作者比较了不同的提示对反应生成的影响。

首先,将真实提示 (w/ GT Prompt) 输入到思考过程中,结果表明,预测的反应质量显著提升。

然后,作者采用了一个增强版的思考模型 (w/ Thinking*),结果 FID 从 1.94 降至 1.88,这证明了更好的思考过程能够有效提升后续的反应生成能力。

此外,当完全去除思考过程时,模型的反应生成质量大幅下降,这表明思考与重新思考(re-thinking)过程在指导反应生成和减少累积误差方面至关重要。

总结


综上所述,该团队借用大语言模型的推理能力,设计了「先思考,后反应」的人类反应动作预测框架 Think-Then-React (TTR),并且通过解耦空间 - 位姿编码系统实现了人类动作高效编码,提升了预测反应动作质量。

与过往工作相比,TTR 模型在 Inter-X 数据集多个指标上均有明显提升,同时作者通过大量消融实验与分析实验验证了方法的有效性。

在未来,作者团队计划探索更高效的跨类别数据集利用,包括单人与多人动作数据,以实现更高的泛化性能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王欣瑜止步16强被赞打出前十水准,阿尼西莫娃赛后言论狂圈粉

王欣瑜止步16强被赞打出前十水准,阿尼西莫娃赛后言论狂圈粉

网球之家
2026-01-26 22:15:45
辛纳因澳网争议性幕后一幕遭国外球迷猛烈批评:最令人讨厌的球员

辛纳因澳网争议性幕后一幕遭国外球迷猛烈批评:最令人讨厌的球员

网球之家
2026-01-26 22:16:21
尼帕病毒令赴泰游客进退两难,有人花3万多元订了泰国行程不知该不该去,泰国旅游局:可放心去玩,机场防控仅针对印度游客

尼帕病毒令赴泰游客进退两难,有人花3万多元订了泰国行程不知该不该去,泰国旅游局:可放心去玩,机场防控仅针对印度游客

极目新闻
2026-01-26 12:31:19
张宗逊明明战功高、资历老,却没能评上大将,这事儿和惹恼两大元帅毫无关系,真正原因另有他处

张宗逊明明战功高、资历老,却没能评上大将,这事儿和惹恼两大元帅毫无关系,真正原因另有他处

清风鉴史
2025-12-24 13:59:10
黄晓明baby携子迪士尼庆生,小海绵戴老虎帽开心游玩

黄晓明baby携子迪士尼庆生,小海绵戴老虎帽开心游玩

君笙的拂兮
2026-01-26 08:20:54
王楠没想到,她养大、不让打乒乓球的儿子,如今成全家的骄傲

王楠没想到,她养大、不让打乒乓球的儿子,如今成全家的骄傲

白面书誏
2026-01-24 19:33:09
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
晚年的陈独秀,如何看透苏联的真相?

晚年的陈独秀,如何看透苏联的真相?

凭阑听史
2026-01-24 18:15:48
官宣名单!恭喜杨瀚森!入选NBA全明星新秀赛

官宣名单!恭喜杨瀚森!入选NBA全明星新秀赛

篮球教学论坛
2026-01-27 09:04:20
这是一个危险信号!小心美国突然动手

这是一个危险信号!小心美国突然动手

李荣茂
2026-01-26 18:26:36
华为技术专家,入职985母校!

华为技术专家,入职985母校!

TOP大学来了
2026-01-26 20:34:23
被拉入黑名单的5个生活用品,它们正在偷走你的健康!你还在用吗

被拉入黑名单的5个生活用品,它们正在偷走你的健康!你还在用吗

美家指南
2025-11-28 17:10:53
赵又廷有福了!高圆圆穿绿色吊带长裙与闺蜜热舞,丰满有料疑似走光

赵又廷有福了!高圆圆穿绿色吊带长裙与闺蜜热舞,丰满有料疑似走光

TVB的四小花
2026-01-25 15:04:23
杨鸣卸任,辽篮换帅!媒体人曝三大热门候选人:乌戈仅排第二

杨鸣卸任,辽篮换帅!媒体人曝三大热门候选人:乌戈仅排第二

体育见习官
2026-01-27 08:29:49
中央纪委国家监委对群众身边不正之风和腐败问题集中整治工作再动员再部署

中央纪委国家监委对群众身边不正之风和腐败问题集中整治工作再动员再部署

澎湃新闻
2026-01-26 20:45:07
李兴湖被免去副省长职务,此前已进京任职,任交通运输部副部长

李兴湖被免去副省长职务,此前已进京任职,任交通运输部副部长

上观新闻
2026-01-26 13:17:05
三星宣布再涨价100%!

三星宣布再涨价100%!

中国半导体论坛
2026-01-26 15:07:00
商务部:中方愿与美方管控分歧、推进合作,维护两国经贸关系的稳定、健康、可持续发展

商务部:中方愿与美方管控分歧、推进合作,维护两国经贸关系的稳定、健康、可持续发展

每日经济新闻
2026-01-26 17:58:27
格伊:本来利物浦接近签下我,体检几乎完成但最后转会取消了

格伊:本来利物浦接近签下我,体检几乎完成但最后转会取消了

懂球帝
2026-01-27 09:07:26
三个省级党委组织部部长调整

三个省级党委组织部部长调整

上观新闻
2026-01-26 13:11:03
2026-01-27 09:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12193文章数 142550关注度
往期回顾 全部

科技要闻

理想开始关店“过冬”,否认“百家”规模

头条要闻

牛弹琴:韩国人万万没想到在睡梦中 特朗普突然下手了

头条要闻

牛弹琴:韩国人万万没想到在睡梦中 特朗普突然下手了

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

金价狂飙 “牛市神话”未完待续

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

时尚
家居
数码
手机
军事航空

这些韩系穿搭最适合普通人!多穿深色、衣服基础,简洁耐看

家居要闻

流韵雅居,让复杂变纯粹

数码要闻

苹果发布 iOS 26.2.1:支持其2026年首款新硬件AirTag 2

手机要闻

iQOO 15、一加15、REDMI K90 PM周销量分析

军事要闻

委代总统称遭美威胁:马杜罗已死

无障碍浏览 进入关怀版