网易首页 > 网易号 > 正文 申请入驻

千寻Spirit v1.5模型登顶 RoboChallenge,终结 Pi0.5领跑时代

0
分享至

来源:市场资讯

(来源:量子位)

事情开始变得有趣起来了。

刚刚,来自千寻智能的具身智能基础模型Spirit v1.5,在RoboChallenge真机评测榜上,以总分,成功率50.33%的成绩,超越美国明星公司Physical Intelligence的Pi0.5(π0.5),登顶榜首。


基于多样化的预训练数据采集范式,Spirit v1.5在插花、把水果放进篮子、挂牙刷杯等多项任务中,拿下第一,刷新榜单纪录。


经此一役,Spirit v1.5不仅是RoboChallenge自去年10月上线以来,首个击败baseline模型Pi0.5的国产具身模型,同时也是首个在RoboChallenge上成功率超过50%的具身智能模型

在此之前,RoboChallenge榜单上,模型间的竞争已逐渐进入白热化阶段,Pi系列基线模型不断被逼近。

而现在,Spirit v1.5直接越过Pi0.5,拿下榜首。

这种密集、连续的刷榜节奏,多少有点让人想起当年AlexNet、VGG、GoogLeNet、ResNet刷新ImageNet的那段时间——

基准在被不断打破,模型天花板被一再抬高。

也正如当年CV的开源景象,Spirit v1.5同步开源了基模权重、推理代码以及使用样例,方便后续的研究者复现和进一步探索。

而正是在这被誉为具身智能「ImageNet」的RoboChallenge上,开源模型正以可验证、可复现的方式,持续推动具身能力向前发展。

开源具身模型能力,全球领先

截至2026年1月12日,Spirit v1.5在RoboChallenge上取得了当前最优的性能,超越了Pi0.5等之前的全球领先开源模型。

在RoboChallenge的Table30任务中,Spirit v1.5表现堪称 “碾压级”,不仅在下列多项任务中夺得第一:

还在贴胶带(stick tape to box)、清扫垃圾(sweep the rubbish)、开关灯(turn on light switch)等任务上实现绝对领先。

其中 “寻找绿盒” 任务堪称高光时刻——Spirit v1.5直接将成功率拉至90%


演示画面中,它能快速从一堆彩色方块中锁定绿色目标,稳稳放入指定篮子,整个过程干脆利落,没有丝毫拖泥带水。

在水果入篮任务中,Spirit v1.5更是以80%的成功率,领先Pi0.5整整一倍。


在演示中,Spirit v1.5能够轻松地拿起香蕉,放进篮子(下图经5倍加速)。


而在插花任务中,虽然两款模型成功率均 50%,但实际执行中,Spirit v1.5的稳定性碾压Pi0.5,没有出现极端的失败案例。

在演示中,Spirit v1.5基本上可以稳稳地将鲜花放入花瓶。

而Pi0.5有时则会出现突然卡死的情况,从而导致任务中断。

在最考验技术功底的贴胶带任务中,即便Spirit v1.520%的成功率不算特别突出,但对比Pi0.5仅10%的表现,仍实现了翻倍领先。

贴胶带属于典型的闭环触觉接触任务(机器人手指 / 夹爪间隙极小),对机械臂协同与触觉感知要求极高,机器人经常会出现空抓的现象。

在演示中,Spirit v1.5凭借双机械臂精准配合,能流畅完成撕胶、贴盒全流程。

而相比之下,Pi0.5虽然能很快的定位到胶带的位置,但却难以感知到是否撕到胶带,频频出现了空贴的现象。

透过上述任务我们不难看出,Spirit v1.5在复杂长指令任务中的稳定发挥,意味着其已经进化为一个具备出色逻辑推理与空间感知能力的“具身大脑”。

而这份实力的认证,正来自具身智能领域的标杆级 “试炼场”——RoboChallenge。

RoboChallenge由Dexmal原力灵机联合Hugging Face发起,是首个在真实物理环境中,由真实机器人执行操作的大规模、多任务基准测试。

它的Table30任务集,通过30个高频桌面及周边日常场景,从VLA难点、机器人形态、任务流程与物体属性等维度考察模型真实世界通用操作能力。

考试机型覆盖ARX5、UR5e、ALOHA、Franka、UR5等;测试任务涵盖抓取、放置、堆叠、打开、按压、分类等复杂动作。

除上述任务设置外,RoboChallenge它的核心创新,在于Remote Robot Paradigm(远程机器人范式)

参赛者在本地运行模型,只需通过HTTP接口向机器人发送控制指令,机器人被视作一个可远程调用的“外设”。


这一设计显著降低了参赛门槛,同时避免了复杂环境配置带来的不确定性,使不同团队的算法能够在同一套真实硬件条件下接受统一评测。

所有参赛者均可通过官方页面查看比赛实况,全程保障赛事的公平与透明。

不过,由于推理发生在用户侧,模型的具体实现仍主要依赖参赛者自律与社区共识——

例如是否始终保持与所声明方案的一致性,是否在多任务通用型模型(multi-task generalist model)的设定下,避免针对单一任务的特殊化调优。


(注:RoboChallenge区分任务特定与通用型两种训练协议:前者针对单一任务单独训练,后者用少量混合数据训练一个多任务统一模型。榜单中带有/multi 后缀的模型,如Pi0.5/multi,遵循的正是这一更具挑战性的通用型设定。)

也正是在这一背景下,Spirit v1.5此次选择同步开源,其意义不仅在于成绩本身,也契合了RoboChallenge鼓励通过可复现、可验证的方式,共同推动具身智能基准向前发展的初衷。

那么,Spirit v1.5具体是怎么做到的呢?

数据多样性成制胜法宝

Spirit v1.5的核心创新,主要体现在预训练阶段的数据策略上。

它将具身模型的预训练数据,从高度精选、强控制的「干净数据」,转向多样化、开放式、弱控制的数据采集范式。

这里所说的「干净数据」,通常指动作模式相对单一、物体摆放位置与视角高度固定的精选数据集。

例如Open X-EmbodimentAgibotRoboCOIN等具身模型训练的主流数据集。

△Open X-Embodiment

这类数据的优势在于:数采成本低、学习难度可控;

但代价同样明显——动作模式的多样性被显著压缩,模型对真实世界不确定性的适应能力因此受限。

针对这一问题,Spirit v1.5采取了相反的策略。

在数据采集阶段,它鼓励数采员只围绕任务目标行动,而不强制遵循固定的动作流程。

例如,在为假人头部化妆时,采集员并不会严格复现某一套标准操作,而是以更接近真实人类行为的方式自由完成任务。

这样做的结果是采集来的数据不再是单任务、单目标的单成功轨迹。

而是在自然执行过程中,连续覆盖了抓取、插入、整理、双臂协作、异常处理等大量原子技能,并以真实世界的时序关系串联在一起。

这种开放式采集显著扩大了动作分布,使模型在预训练阶段“见过更多可能性”,从而具备更强的迁移与泛化能力。

在工程层面,这一策略同样带来了可观收益:人均有效采集时长提升约200%,对算法专家深度介入的需求降低约60%

而在实验验证中,这种以多样性为核心的数据策略,同样得到了印证。

一方面,在RoboChallenge Table30的真机评测中,Spirit v1.5已经在整体能力层面证明了该范式是成立的(相关结果已在前文展开)。

另一方面,在消融实验中,研究团队在预训练数据规模完全一致的前提下,对比了两种策略:

结果显示,多样化预训练的模型在新任务上的微调效率显著更高:在达到相同性能时,所需迭代次数减少约40%


进一步扩大多样化数据规模后,模型的验证误差仍在持续下降,并未出现明显的早期饱和现象。


这些发现表明,对具身模型而言,任务多样性比单一任务的演示数量更为关键

模型真正学到的,并非某个任务的最优动作序列,而是一套可迁移的通用策略,使其能够用更少的步骤适应新任务。

由此,使用高多样性、弱控制的数据进行预训练不仅可行,而且显著优于文献中常见的利用“干净”数据的做法。

也正因为并非针对单一任务优化,Spirit v1.5更适合作为一个通用具身智能的基础模型被复用。

对学界而言,它提供了一条不同于Pi系列且更优的开源技术路径。

对产业团队而言,这种以真实世界多样性为起点的预训练方式,显著降低了新场景的迁移与适配成本。

随着模型权重与代码同步开源,Spirit v1.5在RoboChallenge上的成绩不再只是一次展示,而成为一个可验证、可复现、可继续推进的起点。

Spirit v1.5背后的团队:千寻智能在做什么

最后,再把视角拉回到Spirit v1.5背后的团队——千寻智能(Spirit AI)

成立于2024年1月的千寻智能,是一支非常“年轻”的队伍,却已经成长为国内少数具备AI+机器人全栈、生产力级技术能力的具身智能公司。

简单概括,千寻的路线非常明确——通用人形机器人+具身大模型(VLA)一体推进,因此常被外界称为“中国版 Figure”。


创始人兼CEO韩峰涛:机器人行业连续创业者,曾任珞石机器人联合创始人兼CTO,在机器人行业拥有十余年经验,主导交付过超2万台工业机器人。

联合创始人兼首席科学家高阳:清华交叉信息研究院助理教授,“伯克利归国四子之一”,师从具身智能权威学者Pieter Abbeel,其提出的ViLa算法被Figure采用。

在融资方面,2025年千寻智能狂揽超15亿元融资,6月PreA+轮由京东领投6亿元,浙江省科创母基金、华泰紫金等新势力跟投,顺为资本、华控基金等老股东更是继续跟投。

在商业落地方面,其通用人形机器人 “小墨”(Moz1)已于2025年底在宁德时代电池产线规模化落地,精细作业成功率突破99%,用工业级场景完成了一次硬核验证。


而在技术路径上,从Spirit v1攻克柔性物体长程操作,到开源「边想边做」的OneTwoVLA,再到如今基于多样化真实数据采集的Spirit v1.5——

千寻始终在做一件事:把具身智能从“实验效果”,推进到“可复现、可量产、可落地”的工程体系中。

而这次Spirit v1.5在RoboChallenge上的登顶,并不仅仅意味着一次榜单上的领先。

它更像是千寻具身智能模型快速迭代周期中,一次在同一公开基准下完成的、具有标志意义的性能对标:

在真实机器人、真实任务、统一评测条件下,对现有的技术路线进行了一次阶段性验证。

从结果来看,Spirit v1.5在泛化性、稳定性与鲁棒性等系统层面的能力,已经出现了整体跃迁,而不仅是单点任务的“刷分”。

更重要的是,这一成绩并未停留在展示层面。

Spirit v1.5同步开源模型权重、推理代码和使用样例,使得这一结果可以被复现、被检验、也可以被后续研究继续推进。

正如当年ImageNet之于计算机视觉,只有在一个可复现、公正、开放的基准之上,模型能力的进步才具备真正的参考价值。

而模型的开源也进一步方便后续研究者的快速迭代优化与创新探索。

在被不少研究者视作具身智能「ImageNet」的RoboChallenge上,这次登顶既是一次能力确认,也是一种明确表态——

千寻选择将技术进展放入开源体系之中,与社区一起,把具身智能的天花板持续往前推。

正如千寻首席科学家高阳针对Spirit v1.5在开源模型赛道斩获全球第一时说所的:

开源地址:

Code: https://github.com/Spirit-AI-Team/spirit-v1.5

Model: https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5

Blog:https://www.spirit-ai.com/en/blog/spirit-v1-5

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
德黑兰已没有退路,将在阿曼被逼签下那份“保命契约”?

德黑兰已没有退路,将在阿曼被逼签下那份“保命契约”?

子桑说
2026-02-06 17:44:45
若连碗面都要靠官媒压阵才能卖出,那不吃也罢——横竖都是预制的

若连碗面都要靠官媒压阵才能卖出,那不吃也罢——横竖都是预制的

星星会坠落
2026-01-30 13:12:25
深圳一豪宅突现“砸盘”式抛售!鼎益丰爆雷牵连甚广,谁在裸泳?

深圳一豪宅突现“砸盘”式抛售!鼎益丰爆雷牵连甚广,谁在裸泳?

云中浮生
2026-02-06 22:06:16
中国工商银行安徽省分行原副行长梁延国被开除党籍

中国工商银行安徽省分行原副行长梁延国被开除党籍

界面新闻
2026-02-06 17:03:24
惊出一身冷汗!21岁女生说有性生活史,医生开完阴超,B超室紧急叫停…(医护必看避坑指南)

惊出一身冷汗!21岁女生说有性生活史,医生开完阴超,B超室紧急叫停…(医护必看避坑指南)

医脉圈
2026-02-05 12:07:13
比蔚来盈利更珍贵的是李斌的沉默

比蔚来盈利更珍贵的是李斌的沉默

汽车十三行
2026-02-06 21:17:04
为啥普通人家的房子“宁空不租”,房东说:空着,比租出去还省钱

为啥普通人家的房子“宁空不租”,房东说:空着,比租出去还省钱

装修秀
2026-02-04 11:25:03
奇怪的现象:凡是情绪稳定、睡眠好、不焦虑的人,都有共同的特点

奇怪的现象:凡是情绪稳定、睡眠好、不焦虑的人,都有共同的特点

木言观
2026-01-19 06:35:07
央视肖晓琳:退休5个月,在美国儿子家逝去,临终26字遗言太深刻

央视肖晓琳:退休5个月,在美国儿子家逝去,临终26字遗言太深刻

古事寻踪记
2026-02-06 07:06:55
小米新车正式亮相!真的太帅了

小米新车正式亮相!真的太帅了

花果科技
2026-02-06 21:27:24
谁都敢输!国乒新星惨遭世界第120印度小哥逆转出局 亚洲杯7战2胜

谁都敢输!国乒新星惨遭世界第120印度小哥逆转出局 亚洲杯7战2胜

念洲
2026-02-06 22:05:44
飞机上大妈霸占座位,空姐劝阻遭辱骂,机长一句话让她面红耳赤

飞机上大妈霸占座位,空姐劝阻遭辱骂,机长一句话让她面红耳赤

今天说故事
2025-08-07 16:14:09
恶魔医生王福建退休在家被抓!判刑后还狡辩没做错,儿子也不清白

恶魔医生王福建退休在家被抓!判刑后还狡辩没做错,儿子也不清白

社会日日鲜
2026-02-06 05:59:39
半路出家!这位39岁的新任央视春晚主持人是什么来头?

半路出家!这位39岁的新任央视春晚主持人是什么来头?

新民周刊
2026-02-05 19:10:09
重庆巴蜀中学10万班费背后的教育乱象:“自愿公开”为何难服众?

重庆巴蜀中学10万班费背后的教育乱象:“自愿公开”为何难服众?

社会论道
2026-02-06 15:13:41
TVB小花含泪道歉承认说谎!自爆单亲家庭长大!回应母亲在夜总会工作!

TVB小花含泪道歉承认说谎!自爆单亲家庭长大!回应母亲在夜总会工作!

我爱追港剧
2026-02-07 00:04:42
西红柿立大功!医生研究发现:老人吃西红柿,或能缓解4种症状

西红柿立大功!医生研究发现:老人吃西红柿,或能缓解4种症状

医学原创故事会
2026-01-21 21:50:30
韩媒:SK海力士给每位员工发约30倍月薪的“年终奖”

韩媒:SK海力士给每位员工发约30倍月薪的“年终奖”

随波荡漾的漂流瓶
2026-02-06 15:55:12
1980年代集邮热潮,排队买邮票的队伍比球场观众还多,为何后来邮票不值钱?

1980年代集邮热潮,排队买邮票的队伍比球场观众还多,为何后来邮票不值钱?

寄史言志
2026-01-23 23:02:07
宝玉和袭人同房多次,为何一直都没怀孕?黛玉一句调侃道出真相

宝玉和袭人同房多次,为何一直都没怀孕?黛玉一句调侃道出真相

谈史论天地
2026-02-06 17:30:03
2026-02-07 06:23:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2139842文章数 5382关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜抢C风波 杨幂工作室9字讨说法

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

宝马"本命年"关键词:20款新车与"新世代"耐力赛

态度原创

手机
家居
游戏
教育
军事航空

手机要闻

荣耀600被曝光:6.57英寸+9000mAh±电池,友商拿什么打!

家居要闻

现代轻奢 温馨治愈系

T2总裁回应GTA6争议:给他爱新DLC力证老作热度不减

教育要闻

高考服务处所别错过!3类关键功能解析

军事要闻

美国“肯尼迪”号核动力航母完成首次海试

无障碍浏览 进入关怀版