网易首页 > 网易号 > 正文 申请入驻

具身龙虾,上车理想

0
分享至

来源:市场资讯

(来源:量子位)

别人家的“龙虾”还在盯着屏幕玩电脑,理想已经把“龙虾”带上车了!

最近,理想发布了全新的流式视频理解与具身智能统一的Agent框架——

StreamingClaw。


在保持与OpenClaw框架完全兼容的基础上,StreamingClaw原生支持实时的多模态流式交互。

这意味着,系统在面对视觉输入时,不再将其视为死板的离线视频文件,而是像人类感知世界一样,实时捕获流数据(Stream)并进行即时推理。

比如,这只虾不仅能在驾驶中盯着你,检测可疑动作(哈欠、玩手机)并主动预警。

还能在你取车的时候,主动跟你打招呼。

与此同时,StreamingClaw还引入了自主多代理调度机制。

依托主-从代理的紧密协同,它不仅能自主完成复杂的任务规划与逻辑决策,更深度集成了丰富的工具及技能库,在现实场景中实现了指令驱动的具身智能。

在StreamingClaw的加持下,机器人与终端设备实现了极低延迟的“边看、边记、边行动”:

比如,它可以实时上识别你手持的物品,帮你解题。

不难看出,在这些复杂场景中,StreamingClaw的核心硬实力在于实时推理与瞬时响应。

而支撑这只“理想龙虾”在物理世界灵活行动的,正是一整套围绕“流式架构”展开的系统设计。

不同于大模型等对延迟(相对)不敏感的场景,在具身智能、AI硬件及智能座舱等领域,系统往往需要在毫秒级完成感知—决策—执行的闭环:

然而,现有的视频Agent在处理实时感知(流式感知)时往往面临着延迟较高的问题。

之所以这样是因为,传统方法通常将视频视为完整文件处理。长视频的计算量呈指数级爆炸,难以实时响应;

同时,模型难以持续追踪长时程信息,导致决策草率、频繁遗忘,甚至直接任务失败。

针对这些问题,以往的研究尝试通过视觉压缩或Token精简来缓解负载,但同时也导致了细节丢失,无法准确定位等问题。

更致命的是,传统模型大多是被动触发:你不问,它不动,缺乏对环境风险的主动感知。

StreamingClaw通过“增量计算”改写了这一逻辑。

它不再机械地重复处理历史画面,而是将环境的细微变化视为增量信号进行推理更新。

这意味着,它不仅能“看”得更准、记”得更久,还能在思考过程中自主调用工具,实现从感知到物理干预的真正闭环。

这就是所谓的流式推理,与处理现成文件的“离线模式”不同,其要求AI必须像观看直播一样,在数据不断涌入的同时即时分析,不允许任何严重滞后。

接下来,我们具体来看StreamingClaw是怎么做到的。

总体来看,StreamingClaw是一个高度协同的多代理(Multi-agent)架构。它通过一套标准化的流水线,打破了不同硬件之间的壁垒:


首先,无论是智能眼镜、自动驾驶芯片还是具身机器人,所有多模态流式输入都会通过时间戳对齐与共享流式缓存*进行标准化处理,确保AI拥有统一的“时间尺度”。

其次,核心大脑StreamingReasoning(主代理)负责实时感知与规划;StreamingMemory与StreamingProactivity(从代理)则分别提供长效记忆支撑与主动交互决策。

最后,代理生成的决策指令会直接驱动工具箱与技能库。

从简单的视频剪切到复杂的具身动作序列,执行结果会即时反馈至代理,形成一套完整的“感知—决策—执行”闭环。

这种架构让StreamingClaw不仅能听懂指令,更能通过自主规划与工具调用,真正深入现实场景解决问题。

流式推理::StreamingReasoning

流式推理(StreamingReasoning)主要针对具有连续输入输出的流视频理解场景。

其核心目标是在极低延迟的约束下,实现对现实世界的实时感知、理解与推理。


在实时流式推理方面,系统会将输入的视频流拆分为细粒度片段,并通过动态滑动窗口严格控制上下文范围,从源头上避免无效信息的堆积。

在此基础上,结合经过剪枝优化的流式KV-Cache机制,StreamingReasoning可以持续进行高效的增量解码,使整体推理过程始终紧贴视频流节奏运行,而不会出现延迟堆积。

在此之上,系统引入了自规划调度能力,充当整个流程的“总指挥”。

它能够动态解析用户指令,并自主规划任务路径。在面对复杂任务时,系统会根据需要选择调用层级化记忆进行检索,或转而触发主动交互决策;

而在常规场景下,则保持直接、低延迟的流式多模态推理,使整体交互过程始终顺畅自然。

流式存储:StreamingMemory

StreamingMemory存储真正的多模态向量,通过层级记忆演化(HME)机制,以应对复杂的流视频理解任务。


具体来说,在记忆机制上,系统以视觉为核心,将多模态信息组织为可持续增长的增量式记忆节点,避免原始数据的简单堆叠。

这些记忆进一步从碎片演化为更高层级的“行动”和“事件”,使检索对象从画面本身转向可用于决策的结构化经验。

在此基础上,系统通过命令驱动的并行时间遍历实现高效检索,在长时序信息中快速定位关键内容,同时保证鲁棒性。

同时,统一的接口设计打通跨代理记忆,使不同Agent既能共享关键经验,又能进行差异化管理,从而支撑更高效的协同。

从代理:StreamingProactivity

StreamingProactivity面向未来事件预测、推理与主动交互设计,其目标既可以由用户预先设定,也可以在流式过程中持续演化。

当请求被识别为主动交互时,主代理会将其转化为持续在线的监控任务,例如追踪行为、判断事件或监控风险。

一旦满足触发条件,系统即刻生成通知或解释性响应,形成“感知—推理—触发—反馈”的闭环,避免反复查询。


这一机制主要覆盖两类场景,一类是时间感知交互,强调对状态随时间演化的持续跟踪;

另一类是事件定位交互,聚焦关键事件在时间流中的精确识别,常见于异常检测与自动标注等任务。

在实现上,系统分为免训练适配与训练适配两种路径。


免训练适配无需额外训练,通过将触发条件结构化为可监控节点,在流式过程中匹配视觉信号并即时生成响应;同时支持目标在线更新,形成持续演化的主动交互闭环。

训练适配则将状态变化建模为视觉语言信号,引入场景专用触发Token,使感知与任务解耦,并在单次推理中完成多事件识别与响应生成。

该方案在复杂场景下具备更高精度、更强泛化能力,同时显著降低并发任务下的推理开销。

整体来看,StreamingProactivity实现了全天候在线的主动交互,使系统能够持续感知变化并触发响应。

为了真正让AI影响物理世界,StreamingClaw还提供了高效工具与技能接口,从而完成了“感知—决策—执行”闭环的最后一个环节。

除了标准的工具组合外,研究还引入了专为视频理解和流式交互定制的专业工具。

比如,Video Cut工具可以在关键片段中精准裁剪时间戳,将内容送入大型多模态模型进行“显微级分析”,再输出精简文本结果。


总体而言,StreamingClaw面向流式视频场景,基于多模态大模型实现感知、理解与语音输出,但当前仍以“视觉+文本”为核心输入范式,对音频输入、精细时序对齐及跨模态联合推理的支持仍有限。

未来,系统将演进为统一的全模态代理框架,打通视频、图像、音频与文本的输入输出,实现真正的感知-执行闭环;

同时强化长时程建模、空间理解与跨模态对齐能力,并持续优化低延迟部署与记忆、工具调用机制,以支撑更真实世界的具身交互。

[1]https://jackyu6.github.io/StreamingClaw-Page/

[2]https://arxiv.org/pdf/2603.22120

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
油价下跌180°大拐弯!92号汽油一夜升温?4月7日调价!全国92、95号汽油报价!92号油价...

油价下跌180°大拐弯!92号汽油一夜升温?4月7日调价!全国92、95号汽油报价!92号油价...

新浪财经
2026-04-05 17:43:23
又赔了两架C-130!最后时刻,美军抢走第2名飞行员,伊朗功亏一篑

又赔了两架C-130!最后时刻,美军抢走第2名飞行员,伊朗功亏一篑

头条爆料007
2026-04-05 16:13:58
马来西亚的“保护费”,比亚迪凭什么交?

马来西亚的“保护费”,比亚迪凭什么交?

民间胡扯老哥
2026-04-05 21:52:01
刚刚官宣!江苏多地中小学秋假时间定了,家长群已经炸锅了!

刚刚官宣!江苏多地中小学秋假时间定了,家长群已经炸锅了!

教师吧
2026-04-06 08:49:19
广州数学天才少女,斯坦福辍学创业,25岁拿下超14亿融资,公司估值110亿

广州数学天才少女,斯坦福辍学创业,25岁拿下超14亿融资,公司估值110亿

21世纪经济报道
2026-04-05 20:00:37
永州一车辆侧翻致3死2伤,村民称事发地山路陡峭,当地政府工作人员:扫墓途中小轿车发生意外

永州一车辆侧翻致3死2伤,村民称事发地山路陡峭,当地政府工作人员:扫墓途中小轿车发生意外

极目新闻
2026-04-06 00:19:40
和撒贝宁同居四年,却转身投入富豪怀抱,如今两人境遇天差地别

和撒贝宁同居四年,却转身投入富豪怀抱,如今两人境遇天差地别

大眼妹妹
2026-04-05 21:52:46
王楚钦决赛击败松岛辉空,夺得生涯首个世界杯单打冠军

王楚钦决赛击败松岛辉空,夺得生涯首个世界杯单打冠军

澎湃新闻
2026-04-05 22:14:27
上海年近八旬老夫妻被撞!全身多处骨折,还是全责!又是这种车,83岁邻居也因此受伤

上海年近八旬老夫妻被撞!全身多处骨折,还是全责!又是这种车,83岁邻居也因此受伤

新民晚报
2026-04-05 16:42:09
刚从老挝回来,说点不中听的:老挝的真实面目,可能让你很意外

刚从老挝回来,说点不中听的:老挝的真实面目,可能让你很意外

复转这些年
2026-04-04 07:58:21
碗底见人品!魏建军于东来吃顿饭打脸全网

碗底见人品!魏建军于东来吃顿饭打脸全网

生活魔术专家
2026-04-06 04:47:18
黄晓明发文道歉:作为父亲,深感愧疚

黄晓明发文道歉:作为父亲,深感愧疚

观察者网
2026-04-06 07:39:05
离谱!“姬”、“姫” 看似一样,只错一笔,意思却完全不同!

离谱!“姬”、“姫” 看似一样,只错一笔,意思却完全不同!

新浪财经
2026-04-05 17:42:54
伊朗总统连续两天,喊话美国停火休战,特朗普要的他给不了

伊朗总统连续两天,喊话美国停火休战,特朗普要的他给不了

第一军情
2026-04-06 11:50:03
韩媒:濒临崩盘的中国乒乓球“躲过”耻辱;日媒:团体赛击败中国不是梦

韩媒:濒临崩盘的中国乒乓球“躲过”耻辱;日媒:团体赛击败中国不是梦

去山野间追风
2026-04-06 10:40:48
别去唤醒装睡的人,你的善良一文不值

别去唤醒装睡的人,你的善良一文不值

涛哥锐评
2026-03-31 15:09:36
小米免费送10万个SU7定制直饮杯:小米之家、小米商城可领

小米免费送10万个SU7定制直饮杯:小米之家、小米商城可领

快科技
2026-04-05 10:34:40
清明徒步大军堵死南太行,一打听全是穷游,纯粹找罪受,消费不动

清明徒步大军堵死南太行,一打听全是穷游,纯粹找罪受,消费不动

眼光很亮
2026-04-06 11:45:49
意大利国宝女明星莫妮卡贝鲁奇

意大利国宝女明星莫妮卡贝鲁奇

小椰的奶奶
2026-04-06 01:42:53
“麻豆传媒·关停”:黄色产业,居然也有寒冬!?

“麻豆传媒·关停”:黄色产业,居然也有寒冬!?

辰星杂谈
2026-04-04 13:38:22
2026-04-06 12:20:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2763305文章数 6448关注度
往期回顾 全部

科技要闻

前同事被蒸馏成Token,AI能否偷走职场经验

头条要闻

媒体:美军拯救大兵有奇怪之处 未展示飞行员获救照片

头条要闻

媒体:美军拯救大兵有奇怪之处 未展示飞行员获救照片

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

乔任梁离世10年 父母曝舞台光鲜的背后

财经要闻

118吨!这家央行,大幅抛售黄金!

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

时尚
亲子
房产
游戏
家居

伊姐清明热推:电视剧《暴锋雨》;电影《我,许可》......

亲子要闻

40+妈妈产后,不焦虑不内卷、真实做法

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

Xbox大作稳了!《腐烂国度3》内部测试好玩到爆炸

家居要闻

温馨多元 爱的具象化

无障碍浏览 进入关怀版