网易首页 > 网易号 > 正文 申请入驻

北航、东京大学填补AI「语义鸿沟」,如何找到「状态」锚点?

0
分享至



摘要 / 导语:在具身智能与视频理解飞速发展的今天,如何让 AI 真正 “看懂” 复杂的操作步骤?北京航空航天大学陆峰教授团队联合东京大学,提出视频理解新框架。该工作引入了 “状态(State)” 作为视觉锚点,解决了抽象文本指令与具象视频之间的对齐难题,已被人工智能顶级会议 AAAI 2026 接收。

在当今的视频理解和具身智能领域,教 AI 理解 “做菜” 或 “修理电器” 等程序性活动具有重要意义。然而,当这一需求遭遇现有的图文对齐范式时,一个难以忽视的「语义鸿沟」(Semantic Gap)横亘在研究者面前。

现有的程序性视频学习方法面临数据困境:要么依赖极其昂贵的时间密集型标注,难以扩展;要么利用 WikiHow 等外部知识库进行弱监督学习,将视频帧与 “任务(Task)” 或 “步骤(Step)” 的文本描述强行对齐。

但弱监督的方式仍然存在优化空间:抽象的语言描述与具体的视觉像素之间存在断层。当文本指令是 “切橙子”(Cut oranges)时,视频中呈现的是橙子从完整状态到果肉外露的连续视觉形态变化,而非明确的动作过程。二者之间的不匹配导致模型难以准确识别和理解视频所表达的实际过程。

为了解决这一问题,北京航空航天大学陆峰教授团队,联合东京大学黄逸飞博士推出了 TSS(Task-Step-State)框架。其核心洞见在于重构了过程性知识的层级结构:引入「状态」(State)这一视觉接地层,并提出了一种渐进式 “层级展开”(Hierarchy Unfolding)的渐进式预训练策略。



  • 标题:Learning Procedural-aware Video Representations through State-Grounded Hierarchy Unfolding
  • 作者:赵静晗,黄逸飞,陆峰
  • 机构:北京航空航天大学,东京大学
  • 论文链接:https://arxiv.org/pdf/2511.20073
  • 代码仓库:https://github.com/zhao-jinghan/TSS-unfolding

在传统的弱监督训练中,模型试图直接建立视觉内容与 “任务” 或 “步骤” 描述的联系。但在视频中,“步骤” 往往是一个粗糙且抽象的动作过程,而视觉传感器捕捉到的是物体视觉状态的连续改变。这种「信息错位」导致了现有方法的局限性。

TSS 核心架构:以「状态」为锚点,层层递进

TSS 框架创新性地提出了一种三层知识结构,巧妙地利用 “状态” 填补了语义鸿沟。



传统的 “任务 - 步骤” 二元结构过于抽象。TSS 利用大语言模型(LLM)生成了第三层语义 —— 状态(State)。 TSS 将每个步骤扩展为一组状态快照(Snapshot):

  • 初始状态:橙子是完整的,橙子和刀没有接触。
  • 中间状态:刀切入橙皮,橙子不再完整。
  • 结束状态:橙子果肉外露,变为切片。

我们可以把这理解为给 AI 配了一副 “显微镜”: 原本 AI 只能听到模糊的指令 “切它”,现在 AI 能通过 TSS 框架清晰地看到物体属性的具体变化。这些状态描述是视觉可感知的(Visually-grounded),能够直接作为锚点,将抽象的步骤锁死在具体的视频帧上。



拥有了三层结构后,如何训练模型?TSS 摒弃了粗暴的 “混合训练”,提出了一种符合认知规律的渐进式 “层级展开”(Hierarchy Unfolding)策略。

这不仅是一个训练技巧,更是一种 “分析 - 综合” 的哲学: 研究团队设计了一条 Task → Step → State → Step → Task 的 U 型学习路径。

  • 向下扎根(Analysis): 从高层任务出发,一路向下学习,直到模型能精准识别最底层的 “状态”。这迫使模型将注意力集中在具体的视觉证据上。
  • 向上反哺(Synthesis): 在掌握了扎实的视觉细节后,模型带着 “状态” 的知识回归高层,重新审视 “步骤” 和 “任务”。

这种双向流动良好的利用了 TSS 框架内在的逻辑联系,其中步骤是关键状态的转变,而一系列关键状态则构成了总体的任务。

工程实现:基于大模型的「智能增强」

  • 自动化生成:核心的 “状态” 描述无需人工逐一标注,而是通过 GPT 等大模型基于现有 WikiHow 文本数据推理生成,极大降低了数据成本。
  • 轻量化微调:训练轻量级 Adapter 模块,作为预训练阶段的高效扩展组件,提升模型表征能力。

实验验证:全面超越 SOTA

研究团队在 COIN 和 CrossTask 数据集上进行了下游任务(任务识别,步骤识别,步骤预测)的测试。

实验结果表明:

  • 方法优越性: 该方法在 COIN 和 CrossTask 的三大下游任务上的性能均超越了基线模型(表 3)。
  • 核心机制有效性:引入 “状态” 层作为视觉锚点,并配合渐进式的预训练策略,是提升模型程序性视频理解能力的关键驱动力(表 2)。





为了探究 TSS 层级架构中最优的知识学习顺序,并验证底层 “状态” 信息能否反向辅助高层语义的理解,作者设计了一组对比实验(表 2)。

其中,各 Path 代表了不同的训练路径:

  • Path 1:Task only
  • Path 2:Task→Step
  • Path 3:Task→Step→State
  • Path 4:Task→Step→State→Task
  • Path 5:Task→Step→State→Step
  • Path 6:Task→Step→State→Task→Step

Task→Step→State 是自上而下的过程,而 Path-5 和 Path-6 构建了分析 - 综合的闭环,在学习底层状态后,继续向上回溯。

如表 2 所示,对比 Path-2 (Task→Step) 和 Path-5 (Task→Step→State→Step),后者在各项指标上均有显著提升。这证明了让模型学习 “状态”(即物体在动作前后的具体变化),可以反哺模型对 “步骤” 的理解,使特征表示更具视觉落地性(Visually-grounded)。

同时,Mix-Train(联合训练)的效果介于 Path-1 和 Path-2 之间(表 2),弱于该方法提出的 Path-5。这证明了 TSS 框架中的层级结构(任务 - 步骤 - 状态)存在内在逻辑,通过渐进式引导,模型能更好地建立各层级间的关联,而不是将其视为黑盒数据。

总结

在 AI Agent 需要执行复杂操作的背景下,仅仅 “听懂指令” 是不够的,必须 “看懂后果”。TSS 证明了,通过显式地建模物体状态变化,我们可以有效地弥合自然语言与物理世界之间的鸿沟。

这种 “以状态为锚点,自底向上构建理解” 的思路,为未来构建既懂高层规划、又能精准执行细节的智能系统提供了新的探索思路。目前,该论文代码已开源,欢迎社区关注与试用。

作者介绍

  • 赵静晗:北京航空航天大学硕士研究生,研究方向为视频理解等。
  • 黄逸飞:东京大学博士后,研究方向为第一视角视频、眼动、具身智能等。
  • 陆峰:北京航空航天大学教授,研究方向为眼动、第一视角视频、共身智能等。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吴君如很早就说过了,陈妍希私下就是这样穿

吴君如很早就说过了,陈妍希私下就是这样穿

八卦王者
2026-05-10 13:24:46
美称“不喜欢”伊最新回应 伊朗说不会为取悦美方而制定计划

美称“不喜欢”伊最新回应 伊朗说不会为取悦美方而制定计划

极目新闻
2026-05-11 07:56:28
震惊!网传无锡一女律师称交不起律协会费,甚至动了“卖血交费”

震惊!网传无锡一女律师称交不起律协会费,甚至动了“卖血交费”

火山詩话
2026-05-11 07:29:49
名场面爆红!文班亚马肘击里德被驱逐,哈珀震惊表情包爆红网络

名场面爆红!文班亚马肘击里德被驱逐,哈珀震惊表情包爆红网络

夜白侃球
2026-05-11 11:20:00
张雪机车发布安全隐患公告, 旅狼500RR/500F车主可享三项免费维保服务

张雪机车发布安全隐患公告, 旅狼500RR/500F车主可享三项免费维保服务

界面新闻
2026-05-11 09:20:57
他的诗人人会背,他的苦无人敢想

他的诗人人会背,他的苦无人敢想

最爱历史
2026-05-10 13:07:20
美记:詹姆斯没有给出任何承诺,G4很可能是他湖人生涯的谢幕战

美记:詹姆斯没有给出任何承诺,G4很可能是他湖人生涯的谢幕战

移动挡拆
2026-05-11 08:53:09
致武汉大学李小曼副教授:大学的败坏就是从您这种知识分子做帮凶开始的

致武汉大学李小曼副教授:大学的败坏就是从您这种知识分子做帮凶开始的

熊太行
2026-05-11 00:06:25
出售公民信息千元一条,国家反诈平台成内鬼摇钱树

出售公民信息千元一条,国家反诈平台成内鬼摇钱树

高恒说
2026-05-10 16:58:40
刘三姐“全裸演出”引争议,张艺谋惹怒全网

刘三姐“全裸演出”引争议,张艺谋惹怒全网

营销头版
2026-05-10 20:09:26
“吓死我了”!今早,大批人收到地震有关短信!广东地震局最新回应

“吓死我了”!今早,大批人收到地震有关短信!广东地震局最新回应

南方都市报
2026-05-11 11:06:04
孙颖莎拒绝沾光!让日本输得心服口服,张本美和对王曼昱成功祛魅

孙颖莎拒绝沾光!让日本输得心服口服,张本美和对王曼昱成功祛魅

三十年莱斯特城球迷
2026-05-10 19:59:48
8-3领先连丢8分,张本智和输到脸变形!赛后沮丧发声,日媒也怂了

8-3领先连丢8分,张本智和输到脸变形!赛后沮丧发声,日媒也怂了

萌兰聊个球
2026-05-11 09:08:17
人大代表建议机关事业单位双休制调整为“大周休3天,小周休2天”

人大代表建议机关事业单位双休制调整为“大周休3天,小周休2天”

细说职场
2026-05-10 10:34:41
真没想到!赵露思曼谷开唱这么敢穿,粉色内衣外搭直接杀疯了

真没想到!赵露思曼谷开唱这么敢穿,粉色内衣外搭直接杀疯了

风月得自难寻
2026-05-11 06:10:22
军事 | 俄乌冲突当真要结束?普京对泽连斯基之语有点“情调”?

军事 | 俄乌冲突当真要结束?普京对泽连斯基之语有点“情调”?

新民周刊
2026-05-11 09:08:54
看了两集央视《主角》,我想说,刘浩存把央视年代剧大门踹烂了

看了两集央视《主角》,我想说,刘浩存把央视年代剧大门踹烂了

秋姐居
2026-05-11 09:38:39
夺12连冠!随着国乒3-0日本,诞生3个不可思议,还有2个不争事实

夺12连冠!随着国乒3-0日本,诞生3个不可思议,还有2个不争事实

侃球熊弟
2026-05-11 01:44:31
张本智和:输球责任在我!林诗栋站球台庆祝,陈玘直言完了不能站

张本智和:输球责任在我!林诗栋站球台庆祝,陈玘直言完了不能站

排球黄金眼
2026-05-11 06:12:53
老板娘问我她大不大?我该怎么回答?

老板娘问我她大不大?我该怎么回答?

太急张三疯
2026-05-11 08:45:52
2026-05-11 11:35:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12963文章数 142647关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

牛弹琴:美伊又谈崩了 特朗普发飙美军出动数十艘军舰

头条要闻

牛弹琴:美伊又谈崩了 特朗普发飙美军出动数十艘军舰

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

谢霆锋没想到,王菲靠张艺谋重返巅峰

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

全球化成国内车企未来胜负手,谁是出海最强"水手"?

态度原创

亲子
本地
房产
公开课
军事航空

亲子要闻

探望缅甸孤儿院,愿世界和平,孩子们健康成长!

本地新闻

用苏绣的方式,打开江西婺源

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版