18岁创业者开源史上最大工厂视觉数据集，押注机器人从人类学习|编程|元数据|计算机|python

18岁创业者开源史上最大工厂视觉数据集，押注机器人从人类学习

2025-11-18 19:34:41　来源: DeepTech深科技

北京举报

分享至

不久前，年仅 18 岁的创业者 Eddy Xu 在社交媒体上宣布，其创办的 Build AI 正式开源 Egocentric-10K 数据集，这是一个包含 10,000 小时第一人称视角视频的数据集，记录了 2,153 名工厂工人在真实车间环境中的实际操作场景。数据集总容量达 16.4 TB，包含超过 10.8 亿帧画面，已在 Hugging Face 平台发布，采用 Apache 2.0 许可证，允许商业使用和修改。

图丨相关推文（来源：X）

Eddy Xu 在推文中写道：“历史上最大的第一人称视角数据集，机器人学习的数据扩展时代已经到来。”

Egocentric-10K 的视频全部来自真实工厂车间，而非实验室环境。工人们佩戴头戴式摄像设备，在日常工作中记录下从零件加工、分拣、组装、包装到检验的完整流程。数据统计显示，96.42% 的工作涉及至少一只手的操作，76.34% 需要双手协同，91.66% 包含主动的物体操纵动作。这些数字明显高于此前公开的同类数据集——例如 Ego4D 的手部可见率为 67.33%，EPIC-KITCHENS 则为 90.37%。

图丨与其他数据集的比较（来源：X）

视频以全高清 MP4 格式存储，按工厂和工人分类组织。每个视频片段都附带 JSON 格式的元数据，包括工厂编号、工人编号、视频时长、分辨率、帧率等信息。数据集采用 WebDataset 格式，支持流式加载和部分下载，研究者可以根据需要选择特定工厂或工人的数据进行训练。

Build AI 的创始人 Eddy Xu 的成长轨迹相当传奇。2021 年，还在读初三的他就带领 Great Neck 的机器人团队 1569A OMEGA 参加 VEX 机器人世界锦标赛，在 2 万支参赛队伍中获得第 32 名。这支队伍在队员家的地下室里运营，没有家长或专业教练指导，也没有资金赞助。

图丨Eddy Xu（来源：X）

后来 Eddy Xu 进入 Miller School of Albemarle，在那里他成为计算机编程课程的学生助教，开发了工程设计软件供学校的混凝土独木舟团队使用。他自学 Java 和 Python，在高中阶段就通过了 AP 计算机科学考试。

除此之外，他还有一些系列创业经历：筹集 12 万美元建立竞技机器人团队并赢得全国签名锦标赛，在 DECA 商业世界锦标赛的 20 万名竞争者中胜出，3 个月内出售一家拥有 17.8 万用户的教育科技初创公司。

2025 年初，他在哥伦比亚大学就读时开发了一款基于 Meta 智能眼镜的 AI 国际象棋系统。这个项目使用计算机视觉识别棋盘，结合象棋引擎实时提供最优走法，一度在社交媒体上引发热议。

图丨Eddy Xu 开发的 AI 眼镜（来源：X）

今年，Eddy Xu 从哥伦比亚大学辍学创办 Build AI。他在个人网站上写道：“我拒绝了超过 2,500 万美元的股权邀约来创办 Build。团队中的其他人也离开了学术界、顶级实验室和他们自己的公司加入进来。”而他为公司定下的使命也相当宏伟：“构建物理超级智能，为所有人带来富足”。

Build AI 在 9 月获得了 500 万美元融资，由 Abstract Ventures、Pear VC 和 HF0 三家早期投资机构共同领投，ZFellows 和 Alex Botez （正是使用 Xu 开发的国际象棋眼镜的那位棋手）作为天使投资人参与。

根据其官网描述，Build AI 是第一家“围绕扩展经济上有用的自我中心人类数据而专注打造的公司”，具体来说，其主要策略就是“制造记录设备并在全球企业中部署”。

所谓第一人称视角或自我中心视觉（egocentric vision），指的是从执行者自身视角捕捉的视觉信息。与传统的固定机位第三人称拍摄不同，这种视角记录了手部操作的细节、视线的移动轨迹以及身体与环境的互动方式。Meta 的研究项目 EgoMimic 已经证明，使用 Project Aria 智能眼镜收集的人类第一人称操作数据，能够显著提升机器人的任务成功率并实现场景泛化。

另一家知名的人形机器人公司 Figure AI 也采取了这种收集数据的方法。Figure AI 在今年 9 月宣布了“Project Go-Big”计划，通过与资产管理巨头 Brookfield 合作，在超过 10 万个住宅单元中收集人类日常活动的自我中心视频，用于训练其人形机器人 Figure 03。Figure AI 声称已实现“零样本人类到机器人迁移”，机器人仅通过观看人类视频就能学会执行导航任务，无需任何机器人专用训练数据。这种方法被 Figure 形容为“互联网规模的人形机器人预训练”。

除了依靠人类视频之外，业内也所采用的另一条线路则是从真实机器人交互中直接收集数据。我们不久前报道的 Generalist AI 即是这条路线的代表，其 GEN-0 模型据称使用了超过 27 万小时的机器人操作数据进行预训练，以每周 1 万小时的速度增长。

两种路径各有优劣。人类视频数据丰富且易于大规模采集,但存在实施差距(Embodiment Gap)，人类的身体结构与机器人截然不同,如何将人类的动作映射到机器人上是个难题。机器人自身数据虽然不存在映射问题,但采集成本高昂,规模扩展困难。

Xu 曾表示，Build AI自成立以来已经“收集了比历史上任何公司都多的自我中心数据”，但关于这些数据的可用性等核心问题，我们目前尚不得而知。

正如其官网所表示的，这是一个“具有重大技术风险和低成功概率”的研究性押注。网站写道：“如果我们是对的，我们既能推进机器人研究，也能从根本上改善数十亿人的生活。”公司强调团队由独角兽创始人、机器人竞赛世界冠军和学术研究者组成，价值观是“紧迫感、雄心和技术卓越”。

目前，Egocentric-10K 数据集的完整版本和 3 万帧的评估子集都已在 Hugging Face 上公开。研究者可以使用 Python 的 datasets 库直接加载，也可以选择特定工厂或工人的数据进行实验。Build AI 表示，这个数据集的规模和质量还在持续增长中。

参考资料：

1.https://build.ai/

2.https://huggingface.co/datasets/builddotai/Egocentric-10K

3.https://x.com/eddybuild/status/1987951619804414416

4.https://www.eddy.build/

5.https://www.humanoidsdaily.com/feed/build-ai-open-sources-10-000-hours-of-factory-worker-video-to-scale-robot-learning

运营/排版：何晨龙

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.