网易首页 > 网易号 > 正文 申请入驻

北航、东京大学填补AI「语义鸿沟」,如何找到「状态」锚点?

0
分享至



摘要 / 导语:在具身智能与视频理解飞速发展的今天,如何让 AI 真正 “看懂” 复杂的操作步骤?北京航空航天大学陆峰教授团队联合东京大学,提出视频理解新框架。该工作引入了 “状态(State)” 作为视觉锚点,解决了抽象文本指令与具象视频之间的对齐难题,已被人工智能顶级会议 AAAI 2026 接收。

在当今的视频理解和具身智能领域,教 AI 理解 “做菜” 或 “修理电器” 等程序性活动具有重要意义。然而,当这一需求遭遇现有的图文对齐范式时,一个难以忽视的「语义鸿沟」(Semantic Gap)横亘在研究者面前。

现有的程序性视频学习方法面临数据困境:要么依赖极其昂贵的时间密集型标注,难以扩展;要么利用 WikiHow 等外部知识库进行弱监督学习,将视频帧与 “任务(Task)” 或 “步骤(Step)” 的文本描述强行对齐。

但弱监督的方式仍然存在优化空间:抽象的语言描述与具体的视觉像素之间存在断层。当文本指令是 “切橙子”(Cut oranges)时,视频中呈现的是橙子从完整状态到果肉外露的连续视觉形态变化,而非明确的动作过程。二者之间的不匹配导致模型难以准确识别和理解视频所表达的实际过程。

为了解决这一问题,北京航空航天大学陆峰教授团队,联合东京大学黄逸飞博士推出了 TSS(Task-Step-State)框架。其核心洞见在于重构了过程性知识的层级结构:引入「状态」(State)这一视觉接地层,并提出了一种渐进式 “层级展开”(Hierarchy Unfolding)的渐进式预训练策略。



  • 标题:Learning Procedural-aware Video Representations through State-Grounded Hierarchy Unfolding
  • 作者:赵静晗,黄逸飞,陆峰
  • 机构:北京航空航天大学,东京大学
  • 论文链接:https://arxiv.org/pdf/2511.20073
  • 代码仓库:https://github.com/zhao-jinghan/TSS-unfolding

在传统的弱监督训练中,模型试图直接建立视觉内容与 “任务” 或 “步骤” 描述的联系。但在视频中,“步骤” 往往是一个粗糙且抽象的动作过程,而视觉传感器捕捉到的是物体视觉状态的连续改变。这种「信息错位」导致了现有方法的局限性。

TSS 核心架构:以「状态」为锚点,层层递进

TSS 框架创新性地提出了一种三层知识结构,巧妙地利用 “状态” 填补了语义鸿沟。



传统的 “任务 - 步骤” 二元结构过于抽象。TSS 利用大语言模型(LLM)生成了第三层语义 —— 状态(State)。 TSS 将每个步骤扩展为一组状态快照(Snapshot):

  • 初始状态:橙子是完整的,橙子和刀没有接触。
  • 中间状态:刀切入橙皮,橙子不再完整。
  • 结束状态:橙子果肉外露,变为切片。

我们可以把这理解为给 AI 配了一副 “显微镜”: 原本 AI 只能听到模糊的指令 “切它”,现在 AI 能通过 TSS 框架清晰地看到物体属性的具体变化。这些状态描述是视觉可感知的(Visually-grounded),能够直接作为锚点,将抽象的步骤锁死在具体的视频帧上。



拥有了三层结构后,如何训练模型?TSS 摒弃了粗暴的 “混合训练”,提出了一种符合认知规律的渐进式 “层级展开”(Hierarchy Unfolding)策略。

这不仅是一个训练技巧,更是一种 “分析 - 综合” 的哲学: 研究团队设计了一条 Task → Step → State → Step → Task 的 U 型学习路径。

  • 向下扎根(Analysis): 从高层任务出发,一路向下学习,直到模型能精准识别最底层的 “状态”。这迫使模型将注意力集中在具体的视觉证据上。
  • 向上反哺(Synthesis): 在掌握了扎实的视觉细节后,模型带着 “状态” 的知识回归高层,重新审视 “步骤” 和 “任务”。

这种双向流动良好的利用了 TSS 框架内在的逻辑联系,其中步骤是关键状态的转变,而一系列关键状态则构成了总体的任务。

工程实现:基于大模型的「智能增强」

  • 自动化生成:核心的 “状态” 描述无需人工逐一标注,而是通过 GPT 等大模型基于现有 WikiHow 文本数据推理生成,极大降低了数据成本。
  • 轻量化微调:训练轻量级 Adapter 模块,作为预训练阶段的高效扩展组件,提升模型表征能力。

实验验证:全面超越 SOTA

研究团队在 COIN 和 CrossTask 数据集上进行了下游任务(任务识别,步骤识别,步骤预测)的测试。

实验结果表明:

  • 方法优越性: 该方法在 COIN 和 CrossTask 的三大下游任务上的性能均超越了基线模型(表 3)。
  • 核心机制有效性:引入 “状态” 层作为视觉锚点,并配合渐进式的预训练策略,是提升模型程序性视频理解能力的关键驱动力(表 2)。





为了探究 TSS 层级架构中最优的知识学习顺序,并验证底层 “状态” 信息能否反向辅助高层语义的理解,作者设计了一组对比实验(表 2)。

其中,各 Path 代表了不同的训练路径:

  • Path 1:Task only
  • Path 2:Task→Step
  • Path 3:Task→Step→State
  • Path 4:Task→Step→State→Task
  • Path 5:Task→Step→State→Step
  • Path 6:Task→Step→State→Task→Step

Task→Step→State 是自上而下的过程,而 Path-5 和 Path-6 构建了分析 - 综合的闭环,在学习底层状态后,继续向上回溯。

如表 2 所示,对比 Path-2 (Task→Step) 和 Path-5 (Task→Step→State→Step),后者在各项指标上均有显著提升。这证明了让模型学习 “状态”(即物体在动作前后的具体变化),可以反哺模型对 “步骤” 的理解,使特征表示更具视觉落地性(Visually-grounded)。

同时,Mix-Train(联合训练)的效果介于 Path-1 和 Path-2 之间(表 2),弱于该方法提出的 Path-5。这证明了 TSS 框架中的层级结构(任务 - 步骤 - 状态)存在内在逻辑,通过渐进式引导,模型能更好地建立各层级间的关联,而不是将其视为黑盒数据。

总结

在 AI Agent 需要执行复杂操作的背景下,仅仅 “听懂指令” 是不够的,必须 “看懂后果”。TSS 证明了,通过显式地建模物体状态变化,我们可以有效地弥合自然语言与物理世界之间的鸿沟。

这种 “以状态为锚点,自底向上构建理解” 的思路,为未来构建既懂高层规划、又能精准执行细节的智能系统提供了新的探索思路。目前,该论文代码已开源,欢迎社区关注与试用。

作者介绍

  • 赵静晗:北京航空航天大学硕士研究生,研究方向为视频理解等。
  • 黄逸飞:东京大学博士后,研究方向为第一视角视频、眼动、具身智能等。
  • 陆峰:北京航空航天大学教授,研究方向为眼动、第一视角视频、共身智能等。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
纸质定期存单,银行老员工提醒,千万要验这5处,一定记好

纸质定期存单,银行老员工提醒,千万要验这5处,一定记好

花小猫的美食日常
2026-01-31 18:47:46
库里一瘸一拐瞬间曝光!科尔透露膝盖已不适7天:未确定是否做MRI

库里一瘸一拐瞬间曝光!科尔透露膝盖已不适7天:未确定是否做MRI

颜小白的篮球梦
2026-01-31 17:46:57
深圳官宣!2025GDP近3.9万亿增长5.5%,二产增573亿三产增1357亿

深圳官宣!2025GDP近3.9万亿增长5.5%,二产增573亿三产增1357亿

三农老历
2026-01-31 20:48:31
天呀,杜海涛竟然现成这样了,沈梦辰对他是真爱啊

天呀,杜海涛竟然现成这样了,沈梦辰对他是真爱啊

草莓解说体育
2026-01-07 01:43:18
什么神仙组合?!英国首相斯塔默与好莱坞影后裴淳华一起来了

什么神仙组合?!英国首相斯塔默与好莱坞影后裴淳华一起来了

上观新闻
2026-01-31 12:59:07
联合国“崩”了吗?191国收到信,古特雷斯下台前的最后“闹剧”

联合国“崩”了吗?191国收到信,古特雷斯下台前的最后“闹剧”

眼界看视野
2026-01-31 22:24:40
德国那位军事专家说得够直白:美国不是怕中国,是怕打了也白打

德国那位军事专家说得够直白:美国不是怕中国,是怕打了也白打

扶苏聊历史
2026-01-28 18:04:09
奔驰官宣全新 S 级,号称「最全面最智能」!能打过尊界 S800?

奔驰官宣全新 S 级,号称「最全面最智能」!能打过尊界 S800?

电动星球News
2026-01-30 15:07:48
重庆邮电大学的“堕落街”,放假后居然空得让人心疼…

重庆邮电大学的“堕落街”,放假后居然空得让人心疼…

小鬼头体育
2026-01-31 13:47:37
“上午立春春节暖,下午立春倒春寒”,2026立春在几点?有啥说法

“上午立春春节暖,下午立春倒春寒”,2026立春在几点?有啥说法

老特有话说
2026-01-28 16:44:22
看了《太平年》很多人都不明白,赵匡胤为啥在跟赵光义喝酒时暴亡

看了《太平年》很多人都不明白,赵匡胤为啥在跟赵光义喝酒时暴亡

观察鉴娱
2026-01-30 09:40:35
被戴8次绿帽子,3次被捉奸在床,这就是我们“玉女”守卫的爱情?

被戴8次绿帽子,3次被捉奸在床,这就是我们“玉女”守卫的爱情?

素衣读史
2026-01-30 17:15:38
56亿即将解冻中天电视回归,郑丽文成最大赢家赖清德破防

56亿即将解冻中天电视回归,郑丽文成最大赢家赖清德破防

九客说事
2026-01-31 22:45:03
两性关系:不管你信不信,男性过了68岁,基本都有这七个常见状态

两性关系:不管你信不信,男性过了68岁,基本都有这七个常见状态

健康科普365
2026-01-28 11:04:57
16分8板!34岁老将还在进步,他是山东队魂,诠释一人一城的故事

16分8板!34岁老将还在进步,他是山东队魂,诠释一人一城的故事

理工男评篮球
2026-01-31 23:32:10
52岁复出屠榜?这位阿姨才是真正的业界钢铁侠!

52岁复出屠榜?这位阿姨才是真正的业界钢铁侠!

素然追光
2026-01-06 05:50:03
罗马诺:弗拉泰西去森林只等国米批准;国米不愿外租邓弗里斯

罗马诺:弗拉泰西去森林只等国米批准;国米不愿外租邓弗里斯

懂球帝
2026-02-01 01:11:08
北京一景区!45人遇险!

北京一景区!45人遇险!

美丽大北京
2026-01-31 22:30:07
女子刚买新能源车,70公里充了3次电,4S店:没问题,就电没充满

女子刚买新能源车,70公里充了3次电,4S店:没问题,就电没充满

奇思妙想草叶君
2026-01-30 23:41:29
哈里-威尔逊近11场英超造10球,但9次联赛对曼联0球0助攻

哈里-威尔逊近11场英超造10球,但9次联赛对曼联0球0助攻

懂球帝
2026-02-01 00:50:20
2026-02-01 02:47:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12225文章数 142559关注度
往期回顾 全部

科技要闻

SpaceX申请部署百万卫星 打造太空数据中心

头条要闻

新年"打虎"不停歇 三天落马两个正部级

头条要闻

新年"打虎"不停歇 三天落马两个正部级

体育要闻

新时代得分王!东皇37+三双刷7纪录怒吼释放

娱乐要闻

李维嘉、吴昕、汪涵现身魏文彬追悼会

财经要闻

白银,暴跌!黄金,40年最大跌幅!

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

时尚
亲子
数码
教育
手机

10个瞬间,回顾这一年

亲子要闻

儿童祛疤膏全攻略!2026年10款温和高效儿童祛疤膏实测推荐榜

数码要闻

苹果发布2026新春影片《碰见你》:iPhone 17 Pro镜头下的温暖奇遇

教育要闻

一年一度“花式”期末考,成都的小学今年做了哪些探索?又有哪些特别?

手机要闻

高通最强芯!骁龙8E5鸡血版来了:三星全球首发

无障碍浏览 进入关怀版