3月13日,证券时报记者从大晓机器人获悉,该公司已开源开悟世界模型3.0(Kairos 3.0)-4B系列具身原生世界模型。
Kairos 3.0-4B是全球首个可端侧驱动具身智能本体控制的世界模型,也是行业内首个在THOR端侧平台达成 1:1.5(视频生成时间:视频时长)实时生成的具身世界模型。该模型部署于Jetson Thor T5000端侧平台,算力可达517 TFlops,不仅能在3D仿真环境中精准生成机械臂运动形态、完成运动轨迹的预测与规划,更可依托THOR端侧平台实现机器人本体的真实驱动与作业执行,让机器人真正从“会表演”走向“能干活”。
依托端侧部署,该模型可直接输出机器人从上肢到手指再到下肢的全方位控制指令,省去中间转译环节,让机器人“想到即可做到”。
在家庭场景Demo中,机器人实现全流程自主作业:先有序整理桌面上的杯子与纸巾盒,规划合适位置摆放物品,随后自主进入洗衣机,捡拾衣服、打开洗衣机、完成衣物投放与清洗操作;接着穿过客厅进入厨房,开启冰箱取出牛奶,打开壁橱取出麦片,并打开抽屉取出碗与勺子,将麦片和牛奶倒入碗中,自主完成早餐制备。
当前,具身智能行业深陷数据稀缺且割裂的困境,传统生成式模型仅侧重视频生成,缺乏对物理世界的深度认知,因此面临长时序交互不足、部署算力成本高昂、状态预测物理一致性差等行业瓶颈。
作为业内首个实现“多模态理解—生成—预测”一体化的开源具身原生世界模型,Kairos 3.0-4B并非在大语言或视觉模型后简单附加运动接口,而是从架构底层为机器人在真实世界的运行进行设计,以自然界基本物理规律与因果规律为认知根基,构建起跨本体的统一世界理解框架,彻底打破传统具身智能“行为模仿”的技术局限,将模型能力升级至“物理级深度理解”的维度。
Kairos 3.0-4B还在长时序视频生成能力上实现突破。Kairos智能体可将用户复杂交互指令进行层级化解析与结构化拆解,依托模型对序列间的时空演化、物理规则、场景动态及交互逻辑精细化预测,补全连续世界信息,并通过自我反思机制实现闭环迭代优化,最终生成长达7分钟的具身动态交互视频。
据悉,Kairos 3.0-4B还在行业内率先实现云侧1:1实时推理,推理速度较Cosmos 2.5提升72倍,刷新全球具身世界模型性能纪录。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.