网易首页 > 网易号 > 正文 申请入驻

AI预判了你的预判 人大高瓴团队发布TTR教会AI一眼看穿你的下一步

0
分享至

本文作者均来自中国人民大学高瓴人工智能学院。其中,第一作者谭文辉是人大高瓴博士生(导师:宋睿华长聘副教授),他的研究兴趣主要在多模态与具身智能。本文通讯作者为宋睿华长聘副教授,她的团队 AIMind 主要研究方向为多模态感知、生成与交互。

对面有个人向你缓缓抬起手,你会怎么回应呢?握手,还是挥手致意?

在生活中,我们每天都在和别人互动,但这些互动很多时候都不太确定,很难直接猜到对方动作意图,以及应该作何反应。

为此,来自人大高瓴的研究团队提出了一种新的框架 ——Think-Then-React (TTR),采用预训练大语言模型(LLM)+ 运动编码器的策略,使模型能够先「思考」输入动作的意义,再推理出适合的反应,最后生成连贯的反应动作。该论文已被 ICLR 2025 接收。


  • 论文标题:Think-Then-React: Towards Unconstrained Human Action-to-Reaction Generation
  • 论文链接:https://openreview.net/pdf?id=UxzKcIZedp
  • 项目链接:Think-Then-React.github.io

图1 :Think-Then-React (TTR) 模型总览图。TTR 通过动作编码器将人类动作编码为大语言模型可读的标记,进而在预测人类反应过程中使用大语言模型识别动作,推理出合适的反应动作。推理过程中,模型不间断地进行重新思考,以避免动作的错误识别以及累计误差。


方法


统一运动编码器

TTR 方法的第一步是通过统一运动编码器处理输入的动作数据。过去的工作通常将人类动作起始姿态在空间上规范化至坐标轴原点,以保证编码器的高效利用。然而这种方式忽略了人类交互场景中的相对位置关系

为此,作者团队提出解耦空间 - 位姿编码,将人类动作的全局信息(空间中的位置与身体朝向)与局部信息(运动位姿)分别编码并组合使用,同时保证了编码系统的高效利用与交互过程中两人相对位置信息保留。

图2 :空间 - 位姿解耦编码器与传统编码器架构对比。

运动 - 文本联合预训练

为了提升模型对运动数据和语言的理解能力,作者设计了一系列运动与文本相关的预训练任务。这些任务的目标是让大语言模型能够同时处理文本和运动数据,从而在多模态的环境中进行知识迁移和任务执行。

在这个阶段,模型通过将运动数据与文本数据结合,学习到两者之间的对应关系,以便在后续的反应生成过程中能够更好地理解和生成与动作相关的反应。

图3 :TTR 预训练与微调阶段任务示意图。

思考 - 反应生成(Thinking-Reacting)

TTR 方法的核心是分阶段生成反应动作。具体来说,模型首先进入「思考」阶段(Think),在此阶段中,模型理解输入动作的含义,并判断出什么样的反应是合适的。

接下来,进入「反应」阶段(React),模型根据思考结果生成与输入动作相关的反应动作。这一过程类似于人类的决策和行动流程,在某种程度上模拟了人类对外界刺激的反应机制。

实验

反应动作生成质量测评

TTR 在不同的任务上,包括 R-Precision、分类准确率(Acc.)、Frechet Inception Distance (FID)、多模态距离(MMDist.)等方面,均取得了优异的性能。

TTR 的 FID 仅为 1.942,相较于次优方法 ReGenNet (3.988) 显著降低。此外,在 R-Precision 和分类准确率方面,TTR 也取得了更高的分数,表明其生成的反应动作更加符合输入动作的语义。

同样,在对比 TTR 与 ReGenNet 的用户研究中,受试者更偏好 TTR 生成的动作,特别是在较长时间序列的场景中,TTR 以 76.2% 的胜率胜出。

图4 :TTR 思考与预测反应(绿色)可视化样例。在样例 (a) 至 (c) 中,TTR 思考过程正确识别并推理出了相应动作,进而预测了正确的反应。在样例 (d) 中,TTR 错误地将对方动作(蓝色)识别为「摔跤」(正确动作为「拥抱」),预测了错误的反应。

消融实验

为了更进一步验证文中所提方法的有效性,作者团队进行了多项消融实验:

  • 去除思考(w/o Think):FID 从 1.942 上升到 3.828,证明了思考阶段对反应生成的重要性。
  • 去除预训练(w/o All PT.):模型性能大幅下降,表明预训练对于适应运动 - 语言模态至关重要。
  • 去除不同预训练任务:三种预训练任务(动作 - 动作、空间 - 位姿、动作 - 文本)均有正向贡献,互为补充。
  • 去除单人数据(w/o SP Data):仅依赖多人的数据仍可取得较好结果,单人数据的补充对模型表现提升不显著。


图五:多人交互数据集 Inter-X Action/Reaction 以及单人动作数据集 HumanML3D 动作特征示意图。

系统分析

  • 单人动作数据有效性


为了进一步分析单人数据贡献较小的原因,作者在同一空间中可视化了单人运动(HumanML3D)、交互动作(Inter-X Action)和交互反应(Inter-X Reaction)的运动序列,如上图所示。

具体而言,该团队使用 t-SNE 工具将运动分词序列的特征投影到二维空间。从上图可以看出,单人运动与两人运动序列几乎没有重叠。

在案例分析中,作者发现大多数交互运动是独特的,例如按摩、被拉拽等,而这些动作不会出现在单人运动数据中。同样,大多数单人运动也是独特的,例如 T 字姿势,很少出现在多人交互中。两者只有少量重叠的运动,如静止站立。

  • 重新思考时间间隔

TTR 的重新思考(re-thinking)机制可以动态调整生成的反应描述,从而减少累积误差,同时在计算成本上保持高效。

实验表明,过高与过低的重新思考频率均会导致性能下降。在保证高性能的情况下,TTR 的平均推理时间可以在单张 Tesla V100 上实现实时推理(延迟低于 50 毫秒)。

  • 动作描述质量


作者还在运动描述任务上对 TTR 模型进行了评估,结果下表所示。基线方法的结果来源于 Inter-X 论文的附录 A.1。由于基线方法均使用动作和反应作为输入,而 TTR 的思考过程仅能访问真实的动作,因此作者首先调整 TTR 的设置,使其与基线方法一致,记作 TTR∗。

从结果可以看出,得益于作者的细粒度训练和高效的运动表示,TTR∗ 在所有指标上都取得了最佳的运动描述性能。

随后在真实场景下评估 TTR,即仅能看到部分输入动作。作者分别使用 25%、50% 和完整的输入动作,让 TTR 进行动作到文本的生成。

结果表明,即使仅提供四分之一的输入动作,TTR 仍然能够准确预测对应的动作和反应描述,展现出较强的泛化能力。

  • 思考 / 动作描述


为了探究思考过程的必要性,作者比较了不同的提示对反应生成的影响。

首先,将真实提示 (w/ GT Prompt) 输入到思考过程中,结果表明,预测的反应质量显著提升。

然后,作者采用了一个增强版的思考模型 (w/ Thinking*),结果 FID 从 1.94 降至 1.88,这证明了更好的思考过程能够有效提升后续的反应生成能力。

此外,当完全去除思考过程时,模型的反应生成质量大幅下降,这表明思考与重新思考(re-thinking)过程在指导反应生成和减少累积误差方面至关重要。

总结


综上所述,该团队借用大语言模型的推理能力,设计了「先思考,后反应」的人类反应动作预测框架 Think-Then-React (TTR),并且通过解耦空间 - 位姿编码系统实现了人类动作高效编码,提升了预测反应动作质量。

与过往工作相比,TTR 模型在 Inter-X 数据集多个指标上均有明显提升,同时作者通过大量消融实验与分析实验验证了方法的有效性。

在未来,作者团队计划探索更高效的跨类别数据集利用,包括单人与多人动作数据,以实现更高的泛化性能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美伊打了2天就喊停,拜登五十步笑百步,憋了一年半突然补刀

美伊打了2天就喊停,拜登五十步笑百步,憋了一年半突然补刀

邱震海
2026-06-29 20:30:03
妻子为给情人怀上孩子打掉我的骨肉,一年后她挺着大肚子求我复婚

妻子为给情人怀上孩子打掉我的骨肉,一年后她挺着大肚子求我复婚

千秋文化
2026-06-29 20:07:20
1400万成本狂揽19亿,王晶向太劝不住,《给阿公的牛肉丸》开机了

1400万成本狂揽19亿,王晶向太劝不住,《给阿公的牛肉丸》开机了

东方不败然多多
2026-06-30 01:04:26
布雷迪:若有梅西不会总输?巴黎案例直接打脸

布雷迪:若有梅西不会总输?巴黎案例直接打脸

竞技风云录
2026-06-30 00:44:01
电影《抓特务》的票房竟然能过亿?我觉得在座的爷们姐们都有责任

电影《抓特务》的票房竟然能过亿?我觉得在座的爷们姐们都有责任

阿陆
2026-06-29 18:11:31
张佳宁母亲卖陆家嘴豪宅,3800万到手后第一件事是转给女儿

张佳宁母亲卖陆家嘴豪宅,3800万到手后第一件事是转给女儿

情感大头说说
2026-06-29 18:47:34
正常男人吃一颗伟哥是什么体验?网友们的分享让人脸红心跳加快!

正常男人吃一颗伟哥是什么体验?网友们的分享让人脸红心跳加快!

黯泉
2026-06-25 12:10:30
油价预计7月3日24时大幅调整

油价预计7月3日24时大幅调整

吉林日报
2026-06-29 13:46:18
曝“末代贼王”季炳雄近况!定居加拿大,友人戴电子脚镣与其合影

曝“末代贼王”季炳雄近况!定居加拿大,友人戴电子脚镣与其合影

裕丰娱间说
2026-06-29 08:51:58
台湾问题即将突破临界点,两大迹象表明,大陆或要准备出手了

台湾问题即将突破临界点,两大迹象表明,大陆或要准备出手了

孙錫北漂拍客
2026-06-29 09:16:32
7辆百吨王冲卡闹事后续:嚣张女子真容流出,行业更多内情被扒。

7辆百吨王冲卡闹事后续:嚣张女子真容流出,行业更多内情被扒。

小蒋爱唠嗑
2026-06-29 21:45:36
詹姆斯宣布新动向,6月30日回归骑士队

詹姆斯宣布新动向,6月30日回归骑士队

领悟看世界
2026-06-30 00:18:54
亚洲球队仅剩独苗!日本被巴西绝杀后,球员掩面哭成泪人,不甘心

亚洲球队仅剩独苗!日本被巴西绝杀后,球员掩面哭成泪人,不甘心

侃球熊弟
2026-06-30 03:06:43
孩子非现任亲生 DNA鉴定生父为女子前任 这场抚养费纠纷,一审判了

孩子非现任亲生 DNA鉴定生父为女子前任 这场抚养费纠纷,一审判了

红星新闻
2026-06-29 11:50:31
严子怡再现一枪定胜负追平刘翔一纪录 她的18岁!才过38天就夺三冠

严子怡再现一枪定胜负追平刘翔一纪录 她的18岁!才过38天就夺三冠

劲爆体坛
2026-06-29 06:43:06
人人追捧的“下饭美食”,正在悄悄毁掉当代人的脾胃

人人追捧的“下饭美食”,正在悄悄毁掉当代人的脾胃

所食所想
2026-06-29 14:00:46
马特-达蒙谈足球:在我的家里,梅西比我更重要

马特-达蒙谈足球:在我的家里,梅西比我更重要

懂球帝
2026-06-29 12:09:51
WTT美国大满贯:王楚钦3-0险翻车!挽救2局点,15-13险胜周启豪!

WTT美国大满贯:王楚钦3-0险翻车!挽救2局点,15-13险胜周启豪!

刘姚尧的文字城堡
2026-06-29 10:02:04
西媒:有传言称中国门将李昌祎通过经纪公司买通加盟塞哥维亚

西媒:有传言称中国门将李昌祎通过经纪公司买通加盟塞哥维亚

懂球帝
2026-06-29 16:24:35
12306账户关联超7个会员账号,女子半年内购票90余次“薅羊毛”

12306账户关联超7个会员账号,女子半年内购票90余次“薅羊毛”

现代快报
2026-06-29 15:31:20
2026-06-30 05:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13390文章数 142684关注度
往期回顾 全部

科技要闻

杀疯了!深圳一天出两家200亿具身智能公司

头条要闻

巴西2-1逆转日本 卡塞米罗头槌马丁内利96分钟绝杀

头条要闻

巴西2-1逆转日本 卡塞米罗头槌马丁内利96分钟绝杀

体育要闻

他和伊朗队,再次赢得全世界的尊重

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

万达广场批量易主 多位投资人正式入局

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

时尚
游戏
本地
亲子
军事航空

好特别的白色造型,太高级了

魔坛节奏丨Life带病擒Happy,Sky队后来居上晋级全能王决赛

本地新闻

贵州小城的新目标:举办“村超”世界杯!

亲子要闻

那么小的年纪却那么坚强

军事要闻

普京最新发声:俄罗斯正处于命运攸关之际

无障碍浏览 进入关怀版