2026年,大模型在疯狂烧token,具身机器人却在经历"无token可烧"的窘境。4月16日,智元旗下觅蜂发布了一套让人"走到哪采到哪"的轻量化采集设备,试图把数据变成像水电一样即取即用的基础设施。
50万小时 vs 100万亿:数据鸿沟有多深
![]()
「GPT-5用了100万亿tokens的训练语料。1token约等于0.75个英语单词,如果一个正常人一分钟能说150个词,这个语语料级就等于一个人要说100亿个小时才能说完。」觅蜂科技董事长兼CEO姚卯青在发布会上算了一笔账。
具身智能的数据规模却小得可怜。姚卯青透露,今天全世界的高质量机器人训练数据汇聚在一起,可能也只有50万小时的规模。
差距的根源在于获取难度。大模型能"读书"——互联网上的文本、图片、视频唾手可得。具身智能却必须去真实的三维世界里摸爬滚打,每一个动作数据都要靠实体交互产生。
行业已经尝试过真机遥操、仿真数据等多种路径,但始终困在高成本和增速慢的泥潭里。数据匮乏,成了卡住全行业的硬瓶颈。
480克的夹爪:把采集设备做成"可穿戴"
觅蜂的解法是无本体采集(Object-free/Body-less Data Collection)——不依赖昂贵的实体机器人,直接让人手戴传感器完成操作记录。
这次发布的MEgo Gripper夹爪,重量只有480克,支持电池快换快拆,全无线设计。参数层面,它支持1080P 60fps全通道录制,轨迹重建精度达到1毫米,"拿起一张纸的力度都可以被还原",时间同步精度控制在亚毫秒级。
另一款MEgo View头戴设备更复杂:7个高清摄像头,车规级九轴惯性测量单元(IMU),融合头部超300度视野与手腕局部相机,同时捕捉广域环境和手部操作细节。输出数据包括RGB图片、IMU、位姿、音频等全感官信息。
两款设备都强调"无线"和"快换",核心逻辑只有一个:降低人的移动门槛,让采集者能"走到哪采到哪"。
数据治理引擎:从 raw 到 ready 的一站式加工
硬件只是入口。觅蜂同步推出了MEgo Engine数据治理引擎,处理采集后的预处理、提取、评估全流程,还能直接评估数据在机器人上的表现。
这意味着客户拿到的不是原始素材,而是可直接用于训练的标注数据。姚卯青的目标很明确:「让高质量数据像水电一样即取即用。」
产能规划上,觅蜂计划在2026年实现千万小时级数据产能,2030年达成百亿小时级——从50万小时到百亿小时,跨度超过2000倍。
一个尴尬的身份:智元的子公司,竞争对手的供应商
觅蜂的定位是To B数据服务平台,目标客户包括其他机器人公司。这带来一个直接的问题:智元的竞争对手,凭什么买你的数据?
姚卯青的回应分两层。协议层面,所有用户数据交易都有严格约束,交易模式分为"使用权"和"所有权"两种,过去大部分客户选择购买使用权;对于极少数购买所有权的客户,觅蜂会进行严格的资产转移,并在本地销毁数据。
更关键的是组织隔离。「智元并不是需要所有数据,它也没法获取觅蜂的数据。」姚卯青强调,「智元现在向觅蜂获取数据的唯一途径,就是市场化下订单。智元不存在免费从觅蜂获取数据的途径。」
发布会上,觅蜂与京东云、百度云、阿里云、猎聘及贵州大数据集团完成战略签约,合作方向覆盖数据生态、场景协同、算力支撑。
"美团骑手"模式:数据采集团众包化?
硬件轻量化之后,人的组织方式也在变化。姚卯青在采访中描述了一种未来工作形态:「大家可以兼职来做,但同时也要经过驿站的培训才能上岗。」
这与美团骑手的逻辑相似——平台提供标准化工具和培训,个体以灵活就业方式参与。如果成真,意味着机器人数据生产将从专业实验室走向分布式网络,边际成本可能大幅下降。
当然,这种模式能否跑通,取决于数据质量标准和验收体系的建立。毕竟机器人训练对数据精度的要求,远高于普通众包任务。
为什么这件事值得盯紧
觅蜂的发布,本质上是在具身智能领域复刻大模型的"数据基础设施"路径。当行业还在争论真机 vs 仿真、自研 vs 外采时,它试图用轻量硬件+治理引擎+众包网络的组合,把数据生产本身变成一门可规模化的生意。
如果2026年的千万小时目标兑现,机器人行业将迎来第一波真正意义上的"数据富矿"。届时,模型能力的差距可能不再取决于算法天才,而取决于谁能更快调用这些水电般的基础设施。
对于从业者来说,现在该问的不是"要不要用第三方数据",而是"我的数据 pipeline 能不能跟上这个速度"。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.