网易首页 > 网易号 > 正文 申请入驻

AAAI 2026 | 北航、东京大学填补AI「语义鸿沟」,过程感知视频理解如何找到「状态」锚点?

0
分享至

来源:市场资讯

(来源:机器之心)


摘要 / 导语: 在具身智能与视频理解飞速发展的今天,如何让 AI 真正 “看懂” 复杂的操作步骤?北京航空航天大学陆峰教授团队联合东京大学,提出视频理解新框架。该工作引入了 “状态(State)” 作为视觉锚点,解决了抽象文本指令与具象视频之间的对齐难题,已被人工智能顶级会议 AAAI 2026 接收。

在当今的视频理解和具身智能领域,教 AI 理解 “做菜” 或 “修理电器” 等程序性活动具有重要意义。然而,当这一需求遭遇现有的图文对齐范式时,一个难以忽视的「语义鸿沟」(Semantic Gap)横亘在研究者面前。

现有的程序性视频学习方法面临数据困境:要么依赖极其昂贵的时间密集型标注,难以扩展;要么利用 WikiHow 等外部知识库进行弱监督学习,将视频帧与 “任务(Task)” 或 “步骤(Step)” 的文本描述强行对齐。

但弱监督的方式仍然存在优化空间:抽象的语言描述与具体的视觉像素之间存在断层。当文本指令是 “切橙子”(Cut oranges)时,视频中呈现的是橙子从完整状态到果肉外露的连续视觉形态变化,而非明确的动作过程。二者之间的不匹配导致模型难以准确识别和理解视频所表达的实际过程。

为了解决这一问题,北京航空航天大学陆峰教授团队,联合东京大学黄逸飞博士推出了 TSS(Task-Step-State)框架。其核心洞见在于重构了过程性知识的层级结构:引入「状态」(State)这一视觉接地层,并提出了一种渐进式 “层级展开”(Hierarchy Unfolding)的渐进式预训练策略。


  • 标题:Learning Procedural-aware Video Representations through State-Grounded Hierarchy Unfolding

  • 作者:赵静晗,黄逸飞,陆峰

  • 机构:北京航空航天大学,东京大学

  • 论文链接:https://arxiv.org/pdf/2511.20073

  • 代码仓库:https://github.com/zhao-jinghan/TSS-unfolding

在传统的弱监督训练中,模型试图直接建立视觉内容与 “任务” 或 “步骤” 描述的联系。但在视频中,“步骤” 往往是一个粗糙且抽象的动作过程,而视觉传感器捕捉到的是物体视觉状态的连续改变。这种「信息错位」导致了现有方法的局限性。

TSS 核心架构:以「状态」为锚点,层层递进

TSS 框架创新性地提出了一种三层知识结构,巧妙地利用 “状态” 填补了语义鸿沟。


传统的 “任务 - 步骤” 二元结构过于抽象。TSS 利用大语言模型(LLM)生成了第三层语义 —— 状态(State)。 TSS 将每个步骤扩展为一组状态快照(Snapshot):

  • 初始状态:橙子是完整的,橙子和刀没有接触。

  • 中间状态:刀切入橙皮,橙子不再完整。

  • 结束状态:橙子果肉外露,变为切片。

我们可以把这理解为给 AI 配了一副 “显微镜”: 原本 AI 只能听到模糊的指令 “切它”,现在 AI 能通过 TSS 框架清晰地看到物体属性的具体变化。这些状态描述是视觉可感知的(Visually-grounded),能够直接作为锚点,将抽象的步骤锁死在具体的视频帧上。


拥有了三层结构后,如何训练模型?TSS 摒弃了粗暴的 “混合训练”,提出了一种符合认知规律的渐进式 “层级展开”(Hierarchy Unfolding)策略。

这不仅是一个训练技巧,更是一种 “分析 - 综合” 的哲学: 研究团队设计了一条 Task → Step → State → Step → Task 的 U 型学习路径。

  • 向下扎根(Analysis): 从高层任务出发,一路向下学习,直到模型能精准识别最底层的 “状态”。这迫使模型将注意力集中在具体的视觉证据上。

  • 向上反哺(Synthesis): 在掌握了扎实的视觉细节后,模型带着 “状态” 的知识回归高层,重新审视 “步骤” 和 “任务”。

这种双向流动良好的利用了 TSS 框架内在的逻辑联系,其中步骤是关键状态的转变,而一系列关键状态则构成了总体的任务。

工程实现:基于大模型的「智能增强」

  • 自动化生成:核心的 “状态” 描述无需人工逐一标注,而是通过 GPT 等大模型基于现有 WikiHow 文本数据推理生成,极大降低了数据成本。

  • 轻量化微调:训练轻量级 Adapter 模块,作为预训练阶段的高效扩展组件,提升模型表征能力。

实验验证:全面超越 SOTA

研究团队在 COIN 和 CrossTask 数据集上进行了下游任务(任务识别,步骤识别,步骤预测)的测试。

实验结果表明:

  • 方法优越性: 该方法在 COIN 和 CrossTask 的三大下游任务上的性能均超越了基线模型(表 3)。

  • 核心机制有效性:引入 “状态” 层作为视觉锚点,并配合渐进式的预训练策略,是提升模型程序性视频理解能力的关键驱动力(表 2)。



为了探究 TSS 层级架构中最优的知识学习顺序,并验证底层 “状态” 信息能否反向辅助高层语义的理解,作者设计了一组对比实验(表 2)。

其中,各 Path 代表了不同的训练路径:

  • Path 1:Task only

  • Path 2:Task→Step

  • Path 3:Task→Step→State

  • Path 4:Task→Step→State→Task

  • Path 5:Task→Step→State→Step

  • Path 6:Task→Step→State→Task→Step

Task→Step→State 是自上而下的过程,而 Path-5 和 Path-6 构建了分析 - 综合的闭环,在学习底层状态后,继续向上回溯。

如表 2 所示,对比 Path-2 (Task→Step) 和 Path-5 (Task→Step→State→Step),后者在各项指标上均有显著提升。这证明了让模型学习 “状态”(即物体在动作前后的具体变化),可以反哺模型对 “步骤” 的理解,使特征表示更具视觉落地性(Visually-grounded)。

同时,Mix-Train(联合训练)的效果介于 Path-1 和 Path-2 之间(表 2),弱于该方法提出的 Path-5。这证明了 TSS 框架中的层级结构(任务 - 步骤 - 状态)存在内在逻辑,通过渐进式引导,模型能更好地建立各层级间的关联,而不是将其视为黑盒数据。

总结

在 AI Agent 需要执行复杂操作的背景下,仅仅 “听懂指令” 是不够的,必须 “看懂后果”。TSS 证明了,通过显式地建模物体状态变化,我们可以有效地弥合自然语言与物理世界之间的鸿沟。

作者介绍

  • 赵静晗:北京航空航天大学硕士研究生,研究方向为视频理解等。

  • 黄逸飞:东京大学博士后,研究方向为第一视角视频、眼动、具身智能等。

  • 陆峰:北京航空航天大学教授,研究方向为眼动、第一视角视频、共身智能等。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
有色劝降书来了!杨德龙看黄金1万美元,李蓓:持有黄金将错失大机会

有色劝降书来了!杨德龙看黄金1万美元,李蓓:持有黄金将错失大机会

金石随笔
2026-01-27 00:13:36
不查不知道一查吓一跳,坐拥北京60亩马场的于谦,私下到底有多壕

不查不知道一查吓一跳,坐拥北京60亩马场的于谦,私下到底有多壕

小熊侃史
2026-01-20 07:40:05
掀桌!高市早苗直接谈台海之战,一语惊人,白宫和五角大楼全沉默

掀桌!高市早苗直接谈台海之战,一语惊人,白宫和五角大楼全沉默

现代小青青慕慕
2026-01-27 14:34:30
TA:巴黎未激活德罗600万欧解约金,巴萨将获得约820万欧转会费

TA:巴黎未激活德罗600万欧解约金,巴萨将获得约820万欧转会费

懂球帝
2026-01-27 16:21:21
听劝!深圳地铁全网呼唤的“谨防袈裟”回来了!

听劝!深圳地铁全网呼唤的“谨防袈裟”回来了!

南方都市报
2026-01-27 12:32:58
苹果客服回应降价iPhone Air疑为库存机:产品不是先订单后生产 时间会有出入

苹果客服回应降价iPhone Air疑为库存机:产品不是先订单后生产 时间会有出入

快科技
2026-01-27 17:02:05
阿根廷2002韩日世界杯阵容这么豪华 为啥3场2球4分!小组赛就出局

阿根廷2002韩日世界杯阵容这么豪华 为啥3场2球4分!小组赛就出局

体坛八点半的那些事儿
2026-01-26 19:48:30
1949年蒋撤因机超重2.3吨弃十块黑石,实是传承2700年的无价文物

1949年蒋撤因机超重2.3吨弃十块黑石,实是传承2700年的无价文物

唠叨说历史
2026-01-23 11:42:28
上海网友逛公园捡石块形似新石器时代石斧?专家:据照片判断为磨制石器

上海网友逛公园捡石块形似新石器时代石斧?专家:据照片判断为磨制石器

上游新闻
2026-01-26 21:01:04
丹麦网友众筹1万亿美元收购加州,想实现“牛油果自由”!美网友:俄勒冈州能加入吗

丹麦网友众筹1万亿美元收购加州,想实现“牛油果自由”!美网友:俄勒冈州能加入吗

红星新闻
2026-01-26 17:52:54
福建省启动2026年独生子女奖励申报!发放标准、条件、材料,看看

福建省启动2026年独生子女奖励申报!发放标准、条件、材料,看看

云鹏叙事
2026-01-27 08:53:13
李亚鹏,这个人真不能细究,越挖越发现,他这个人,才真配享太庙

李亚鹏,这个人真不能细究,越挖越发现,他这个人,才真配享太庙

复转这些年
2026-01-21 23:19:37
阿尔特塔“应激反应”,阿森纳比曼城到底差了多少?

阿尔特塔“应激反应”,阿森纳比曼城到底差了多少?

暮雨咋歇着
2026-01-27 17:11:52
国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

霹雳炮
2026-01-19 22:24:13
“火烈鸟”导弹4发全中!空袭力度加强,俄军对地攻击导弹疑不足

“火烈鸟”导弹4发全中!空袭力度加强,俄军对地攻击导弹疑不足

鹰眼Defence
2026-01-26 17:27:05
技校到底能有多乱?网友的评论真的震惊到我了

技校到底能有多乱?网友的评论真的震惊到我了

夜深爱杂谈
2026-01-20 18:54:02
四川一医院原党委书记被“双开”!

四川一医院原党委书记被“双开”!

芦山生活网
2026-01-27 15:30:09
@辽宁人,又要下雪了!范围很大↘

@辽宁人,又要下雪了!范围很大↘

沈阳生活圈i
2026-01-27 15:51:17
日乒内讧!张本智和丢冠后不服气,公开炮轰松岛辉空,真的输不起

日乒内讧!张本智和丢冠后不服气,公开炮轰松岛辉空,真的输不起

球盲百小易
2026-01-27 02:41:11
澳州杨姑娘现身了,但谎言才刚刚开始

澳州杨姑娘现身了,但谎言才刚刚开始

深度报
2026-01-26 22:47:46
2026-01-27 17:59:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2057560文章数 5300关注度
往期回顾 全部

科技要闻

马化腾3年年会讲话透露了哪些关键信息

头条要闻

企业30年燃气特许权被单方取消 两级法院判定政府违法

头条要闻

企业30年燃气特许权被单方取消 两级法院判定政府违法

体育要闻

带着母亲遗愿战斗12年,交易添头成了队魂

娱乐要闻

张雨绮被曝代孕,春晚被拒,代言跑路

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

健康
数码
手机
房产
公开课

耳石脱落为何让人天旋地转+恶心?

数码要闻

Dynabook发布《攻壳机动队STAND ALONE COMPLEX》联名笔记本

手机要闻

曝三星计划产100万台Galaxy Wide Fold,将与苹果iPhone Fold竞争

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版