![]()
编辑|冷猫
据统计,今年国内具身智能领域融资总额已突破 370 亿元。
工信部与国务院国资委联合启动「人形机器人与具身智能实景实训专项行动」,央广网直接把今年定义为「商业化落地关键年」。一级市场的钱、二级市场的故事,全都在喊同一个方向:落地、落地、落地。
但问题来了,具身智能到底应该怎么落地?
大家都比较认可的观点是,具身智能应该去攻克人类做不到的事,应该去替代人类做一些高危、繁重、重复,人不想干也不该干的活。
6 月 22 日,第四届中国国际供应链促进博览会在北京开幕,首次设立人工智能专区。
一家名为若愚科技的深圳公司首次亮相,带来了搭载自研「若愚九天机器人大脑」的特种防爆机器人「若愚揽月 01」。展台前人群不断,「若愚揽月 01」在「若愚九天」机器人大脑的驱动下,于模拟油气场站中自主完成了语音指令接收、环境感知导航、设备状态识别到精准操作的完整作业闭环,直观呈现了具身智能大脑从「理解任务」到「执行动作」的全链路能力。
![]()
而早在两个月前,全球首个面向加油场景的「具身智能大脑系统」解决方案,就已经面向普通车主提供全流程自主加油服务了。开盖、取枪、加注、收枪、关盖,全套工序独立完成,不需要人工介入。这在行业里是一个稀缺样本。
![]()
视频链接:https://mp.weixin.qq.com/s/AzNxtEcdVRlzcYgfuWxkUA
国内首张防爆资质
若愚科技是一家务实的公司。
若愚科技从一开始就扎进了具身智能在特种场景中的应用:加油站、油气场站、港口码头等等。他们认为,具身智能技术要想真正产生社会价值,应该先去解决那些人类从业者面临高安全风险的场景,让他们脱离危险繁重的作业环境。
但想法归想法,要让机器人真正「进得去」这些场景,第一道关卡就足够劝退大多数公司:防爆认证。
在加油站、油气场站、化工厂等易燃易爆环境中,机器人自身绝对不能成为潜在的点火源。这对产品硬件在设计之初就提出了极其严苛的要求。比如说:从电路层面就要做本质安全设计,限制回路能量,确保即便发生故障也不足以引燃环境气体;机械结构要满足隔爆要求,承受内部爆炸而不损坏外壳;所有连接点要做增安处理,防止正常运行中产生火花风险;关键部件还要通过浇封手段隔绝危险接触等等。
2026 年 3 月,若愚科技自研的「若愚揽月 01」拿下了这张入场券:Ex db eb ib mb IIB T4 Gb 整机防爆认证与 Ex db IIB T5 Gb 协作机械臂防爆认证。若愚科技因此成为国内首家取得轮式人形机器人防爆资质的企业。
![]()
在整个具身智能向行业应用迈进的今天,这张防爆认证或许是含金量最高的「成绩单」。
具身智能能去哪里
加油场景:全球首个具身智能大脑系统解决方案落地
2026 年 4 月,「若愚揽月 01」进驻佛山一座加油站,开始面向普通车主试运营。
这个场景对机器人的挑战集中在「精细操作的连贯性」上。车主下单后,机器人要连续完成十多个动作:掀外盖、拧内盖、从枪座上摘下油枪、瞄准油口插入、等待加满、拔枪、挂回枪座、盖内盖、合外盖。每个动作的容差只有几毫米,任何一步卡住都意味着整条链中断。而且不同车型的油箱位置、盖板结构、开启方式千差万别,机器人不可能靠固定程序跑通所有情况。
「若愚九天」机器人大脑在这套流程里做的事情比逐步下发指令复杂得多:每一步动手之前,它会先推演接下来三到五步的成功概率。比如当前车型的油箱盖开启角度偏小,大脑预判到后续取枪角度受限,就会在摘枪之前先调整机器人的站位。
![]()
这是一个已经落地验证的场景,无需改造加油站现有设施,机器人直接适配现有布局;单台机器人不绑定固定工位,可以在相邻油岛之间来回作业;对车主停车精度的容忍度也做了专门优化,不需要停得很正也能完成加注。车主端的体验也变得更简单,随到随加,无需下车。
油气场站:链博会上的中石油展台首秀
场站巡检的痛点和加油站完全不同。加油站考验的是精细操作,场站考验的是「长时间自主巡逻 + 多种异常识别 + 现场即时响应」的综合能力。巡检员每天走固定路线,这份工作枯燥、危险,而且对注意力的要求极高,人连续巡检几个小时后遗漏率会显著上升。
若愚科技正在开发的巡操一体化方案,让「若愚揽月 01」承担这类工作。操作员可以直接用语音下达任务,机器人将语音转化为结构化的自然语言指令,由「若愚九天」大脑理解意图并拆解为具体任务序列。整个过程中,大脑同时融合激光雷达、摄像头、力觉传感器等多源信息,驱动感知、识别、规划、执行形成连贯闭环,让机器人能针对不同巡检任务灵活调整策略。
链博会现场,「若愚揽月 01」在模拟管路环境中演示了完整的巡检闭环,是这套方案的首次公开亮相。
![]()
港口场景:多机器人协同的探索
这个场景最特殊的地方在于,它天然需要多台机器人协同。
扭锁是集装箱之间的机械连接件,每个箱角四个,装卸船时需要逐一安装或拆除。若愚科技的方案是把整条作业链交给机器人:从料箱里取出锁具、运送到指定箱角、对位安装,卸船时再反向操作。
与其他场景的关键区别在于,一条船上百个扭锁,靠一台机器人逐个拆装效率远远不够。这要求「若愚九天」机器人大脑同时调度多台机器人分布在不同工位上并行作业。这些调度决策都由同一颗大脑统一规划。这也是若愚科技强调的「一颗大脑驱动多具身体」在实际场景中最直观的体现。
三个场景背后有一条共同的产业逻辑:加油站验证了精细操作能力,场站验证了长程自主能力,港口验证了集群协同能力。
每多跑一天真实作业,现场产生的传感器数据、失败案例、边界工况就会进入训练管线,反过来让「若愚九天」机器人大脑更快地适应下一个新场景。若愚科技把它叫做「场景数据飞轮」,广泛应用后将开启更高效的进化迭代。
「若愚九天」,解决多个难题
目前大多数具身智能系统的架构是「流水线式」的,视觉模块负责看,语言模块负责理解,动作模块负责执行。
这种架构处理短序列、低干扰的简单任务还行,一旦遇到十几步连续操作、环境高度动态、容错率极低的场景,中间任何一步的微小偏差都会像多米诺骨牌一样向后传导。传统流水线架构在这种量级的任务面前,几乎不可能保证端到端的稳定性。
若愚科技自研的「若愚九天」机器人大脑,把感知、规划、执行三个模块端到端整合进同一个系统内,依托大语言模型与三维解码器耦合的创新架构,让视觉、语言、空间、动作、力觉等多源信息在一个模型里完成深度融合处理。这意味着,具身智能「看见」「理解」「动手」三件事,在同一个神经网络里同时发生。
架构设计上,「若愚九天」大脑采用「大脑 - 小脑」分层协同的思路。大脑层负责高层任务规划与决策,基于扩散模型模仿学习和 3D 可供性感知技术,处理智能体交互、长序列任务分解和环境避障等认知层面的工作。小脑层则聚焦于执行精度,把大脑输出的规划指令转化为关节级的精细运动控制,确保操作毫米级到位。
世界模型驱动的预测能力
在加油站场景中,具身智能面对的任务链极长:停车引导、识别油箱位置、开外盖、开内盖、取枪、对准油口、插入、加注、拔出、收枪、关内盖、关外盖。任何一步的微小偏差都会向后传导。
「若愚九天」机器人大脑引入世界模型能力,可以对环境未来状态、任务进程及动作结果进行持续预测与推演。简单理解,就是让机器人在真正动手之前先「脑中过一遍」,预判各种可能出现的状况。如果模型预测到「以当前角度取枪,后续插入油口的成功率很低」,它会在动手之前就调整策略,而非执行到一半才发现问题。
这种能力在长序列任务中尤其关键。加油不是一个「抓取 - 放置」的简单操作,它是一整条有前后因果关系的动作链。世界模型让具身智能具备了「看三步走一步」的前瞻能力。
用一个比喻来理解:一个老司机加油,不管油箱盖开得顺不顺利,脑子里始终清楚最终要达到什么状态,中间的每一步都围绕这个终态来调整。让具身智能从「线性执行」变为「终态对齐」。
第一,生成目标观测。 系统接收到任务指令和当前摄像头画面后,先去预测「任务完成后,世界应该变成什么样」。例如加油任务结束后,油枪应该归位、油箱盖应该合上。这个预测出来的「终态画面」就是目标观测,它为后续所有推理过程提供了一个明确的语义锚点。
第二,合成中间过渡帧。 有了目标之后,系统再倒推中间应该经历哪些视觉状态。如果起点是「油箱盖关着」、终点是「油枪归位、油箱盖合上」,那中间就需要依次出现「油箱盖打开」「油枪取出」「油枪插入油口」等过渡画面。这些合成出来的中间观测帧,为动作生成提供了逐步对齐的视觉参考。
这套机制让机器人在动手之前就对整个任务过程有了完整的视觉想象,后续的动作规划都围绕这条「想象的轨迹」展开,从而大幅降低了长序列执行中的累积偏差。
目标驱动的分层精炼框架(H-GAR)
「若愚九天」机器人大脑搭载了一套目标驱动的分层观测 - 动作精炼框架(H-GAR),先锁定终态,再逐层向前精炼动作。
![]()
(a)现有方法通常采用目标无关、整体式的预测范式。(b) H-GAR 引入了目标条件观测合成器和交互感知动作优化器,从而实现了以目标为锚定的预测,并显式建模观测与动作之间的交互。
具体而言,H-GAR 的工作流程分为三步:
![]()
H-GAR 架构图
- 第一步:粗粒度动作草案。基于历史画面和任务指令,系统首先生成一组粗略的动作序列。这些动作描述了一条从当前状态到目标的「大致路径」,类似于人类加油时脑子里的粗略计划,知道大概要做哪些步骤,是执行前的准备。
- 第二步:目标条件观测合成(GOS 模块)。拿到粗粒度动作后,系统在目标观测的引导下合成中间视觉帧。这一步的关键在于:合成的画面不是随便生成的,而是同时受到目标终态和粗动作的双重约束。这确保了中间过渡帧既符合动作逻辑,又对齐了最终目标。
- 第三步:交互感知动作精炼(IAAR 模块)。最后一步将粗动作升级为精细的可执行指令。IAAR 从两个方向获取反馈来精炼动作:一是中间观测帧提供的视觉上下文,让动作与实际场景对齐;二是历史动作记忆库,它记录了此前执行过的精细动作,确保当前生成的动作与历史轨迹保持时序一致性。当记忆库超过容量阈值时,系统采用相似度淘汰策略,合并最相似的相邻动作来保持记忆多样性。
若愚科技团队联合多家机构,已将这套框架的核心理论以论文形式发表于 AAAI 2026,在仿真基准和真实机器人操作任务上均取得了当前最优的表现。在 Libero-10 多任务基准上,H-GAR 取得高达 94% 的成功率;在真实世界实验中,长链任务(如物体放置、抽屉操作)的阶段完成率也显著高于对比方法。
- 论文地址:https://arxiv.org/pdf/2511.17079
视觉 - 力觉融合的闭环纠偏
真实场景里意外几乎是常态。油箱盖可能打开角度不对,车主停车位置可能偏移预期,甚至油口周围可能有异物遮挡。在实验室里一百次能成功九十九次的动作,放到户外真实环境可能打个七折。
「若愚九天」机器人大脑的解法是引入多模态闭环纠偏机制:实时融合视觉变化与力觉反馈,识别真实操作状态。举个例子,当机器人试图将油枪插入油口时,如果视觉告诉它「位置看起来对了」但力觉反馈显示「阻力异常」,系统会综合判断当前操作是否安全有效,自主决定是微调角度重试,还是退回上一步重新定位。
「一个大脑,多个身体」的通用架构。 最后一个关键设计决定了这套技术体系的扩展性。
「若愚九天」机器人大脑采用轻量化通用架构,同一颗大脑可以高效驱动多类型、多数量的机器人协同作业。目前若愚科技已自主研制了双臂重载、单臂重载、双臂轻载等多品类机器人本体,配套自研高负载防爆灵巧手,形成多构型产品矩阵。
这意味着什么?在加油场景积累的感知能力、规划策略、纠偏经验,可以直接迁移到其他场景的机器人本体上,不需要为每种构型从头训练一套系统。大脑的智慧是通用的,身体可以根据场景需求灵活适配。这大幅降低了多机型适配改造的成本与部署周期。
尾声:知行合一
让具身智能走向特种场景,是一件需要有长期主义精神的事情。
若愚科技从立项之初就选择了具身大脑和本体一起做的完整链路。我们相信,这并非出于「什么都想干」的贪心,而是想要深耕特种场景的必选项。
要进入特种行业,机械结构设计必须从底层考虑安全性,必须要有研发具身本体的能力。而在特殊场景下执行任务,具身大脑更是不可或缺。大脑与本体的深度耦合已经超越了加分项,它就是准入条件。
正是这种选择,让若愚科技形成了行业中少见的完整闭环:同一个团队既掌握从感知到决策的全链路算法,又能独立完成满足防爆标准的结构设计与制造。「若愚九天」机器人大脑从诞生起就和本体共同生长。
当具身智能行业集体站在商业化落地的十字路口,那些最早跑通「大脑 - 本体 - 数据」闭环的玩家,大概率会在接下来的竞争中占据先手。
支撑这套体系的,是一支学术积累深厚、产业经验丰富的创始团队。
公司由哈尔滨工业大学(深圳)孵化,依托哈深资产经营有限公司进行成果转化。董事长聂礼强,哈工深信息学部主任,达摩院青橙奖获得者。创始人兼 CEO 孙腾,90 后人工智能博士,成果发表于 IEEE TPAMI 等国际顶级期刊和会议。COO 江隆业,前奥比中光科技集团高级副总裁,产业化落地经验十分丰富。首席科学家张民,是哈工深特聘校长助理、计算与智能研究院院长,2026 年 3 月斩获吴文俊人工智能科技进步奖特等奖。
源自于哈工大的基因决定了这个团队的气质,信奉技术要落到实处。不去做锦上添花的事,去做那些真正把人从危险中释放出来的事。让具身智能进入这些危险场景,才是技术该去的地方。
若愚科技已累计完成种子轮、天使轮和天使 + 轮数亿元融资,投资方包括东方精工、昆仲资本等。截至 2026 年 6 月,围绕核心技术申报国内专利 40 余项。先后获得深圳市创新型中小企业、国家高新技术企业认证,入选深圳市「机器人 +」典型案例及 36 氪「2026 最具价值成长企业 100」。
具身智能技术的终极承诺,或许正在于替换人去承受那些不该由血肉之躯承受的风险。在那些容错率为零的特种现场,若愚科技的具身智能已经站在了第一线。
整个特种作业板块,只是「若愚九天」机器人大脑率先验证能力的第一站。
特种场景的价值在于,它对感知精度、决策鲁棒性和执行安全性的要求极高,能在极端工况中充分锤炼智能的上限。未来,若愚科技将在此基础上,向更广泛的领域拓展。
「若愚九天」想要打造机器人时代的智能内核。机器人的形态会随场景变化,但驱动它们感知环境、理解任务、协调行动的那颗大脑,是跨越所有场景的通用基础设施。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.