不久前,年仅 18 岁的创业者 Eddy Xu 在社交媒体上宣布,其创办的 Build AI 正式开源 Egocentric-10K 数据集,这是一个包含 10,000 小时第一人称视角视频的数据集,记录了 2,153 名工厂工人在真实车间环境中的实际操作场景。数据集总容量达 16.4 TB,包含超过 10.8 亿帧画面,已在 Hugging Face 平台发布,采用 Apache 2.0 许可证,允许商业使用和修改。
![]()
图丨相关推文(来源:X)
Eddy Xu 在推文中写道:“历史上最大的第一人称视角数据集,机器人学习的数据扩展时代已经到来。”
Egocentric-10K 的视频全部来自真实工厂车间,而非实验室环境。工人们佩戴头戴式摄像设备,在日常工作中记录下从零件加工、分拣、组装、包装到检验的完整流程。数据统计显示,96.42% 的工作涉及至少一只手的操作,76.34% 需要双手协同,91.66% 包含主动的物体操纵动作。这些数字明显高于此前公开的同类数据集——例如 Ego4D 的手部可见率为 67.33%,EPIC-KITCHENS 则为 90.37%。
![]()
图丨与其他数据集的比较(来源:X)
视频以全高清 MP4 格式存储,按工厂和工人分类组织。每个视频片段都附带 JSON 格式的元数据,包括工厂编号、工人编号、视频时长、分辨率、帧率等信息。数据集采用 WebDataset 格式,支持流式加载和部分下载,研究者可以根据需要选择特定工厂或工人的数据进行训练。
Build AI 的创始人 Eddy Xu 的成长轨迹相当传奇。2021 年,还在读初三的他就带领 Great Neck 的机器人团队 1569A OMEGA 参加 VEX 机器人世界锦标赛,在 2 万支参赛队伍中获得第 32 名。这支队伍在队员家的地下室里运营,没有家长或专业教练指导,也没有资金赞助。
![]()
图丨Eddy Xu(来源:X)
后来 Eddy Xu 进入 Miller School of Albemarle,在那里他成为计算机编程课程的学生助教,开发了工程设计软件供学校的混凝土独木舟团队使用。他自学 Java 和 Python,在高中阶段就通过了 AP 计算机科学考试。
除此之外,他还有一些系列创业经历:筹集 12 万美元建立竞技机器人团队并赢得全国签名锦标赛,在 DECA 商业世界锦标赛的 20 万名竞争者中胜出,3 个月内出售一家拥有 17.8 万用户的教育科技初创公司。
2025 年初,他在哥伦比亚大学就读时开发了一款基于 Meta 智能眼镜的 AI 国际象棋系统。这个项目使用计算机视觉识别棋盘,结合象棋引擎实时提供最优走法,一度在社交媒体上引发热议。
![]()
图丨Eddy Xu 开发的 AI 眼镜(来源:X)
今年,Eddy Xu 从哥伦比亚大学辍学创办 Build AI。他在个人网站上写道:“我拒绝了超过 2,500 万美元的股权邀约来创办 Build。团队中的其他人也离开了学术界、顶级实验室和他们自己的公司加入进来。”而他为公司定下的使命也相当宏伟:“构建物理超级智能,为所有人带来富足”。
Build AI 在 9 月获得了 500 万美元融资,由 Abstract Ventures、Pear VC 和 HF0 三家早期投资机构共同领投,ZFellows 和 Alex Botez (正是使用 Xu 开发的国际象棋眼镜的那位棋手)作为天使投资人参与。
根据其官网描述,Build AI 是第一家“围绕扩展经济上有用的自我中心人类数据而专注打造的公司”,具体来说,其主要策略就是“制造记录设备并在全球企业中部署”。
所谓第一人称视角或自我中心视觉(egocentric vision),指的是从执行者自身视角捕捉的视觉信息。与传统的固定机位第三人称拍摄不同,这种视角记录了手部操作的细节、视线的移动轨迹以及身体与环境的互动方式。Meta 的研究项目 EgoMimic 已经证明,使用 Project Aria 智能眼镜收集的人类第一人称操作数据,能够显著提升机器人的任务成功率并实现场景泛化。
另一家知名的人形机器人公司 Figure AI 也采取了这种收集数据的方法。Figure AI 在今年 9 月宣布了“Project Go-Big”计划,通过与资产管理巨头 Brookfield 合作,在超过 10 万个住宅单元中收集人类日常活动的自我中心视频,用于训练其人形机器人 Figure 03。Figure AI 声称已实现“零样本人类到机器人迁移”,机器人仅通过观看人类视频就能学会执行导航任务,无需任何机器人专用训练数据。这种方法被 Figure 形容为“互联网规模的人形机器人预训练”。
除了依靠人类视频之外,业内也所采用的另一条线路则是从真实机器人交互中直接收集数据。我们不久前报道的 Generalist AI 即是这条路线的代表,其 GEN-0 模型据称使用了超过 27 万小时的机器人操作数据进行预训练,以每周 1 万小时的速度增长。
两种路径各有优劣。人类视频数据丰富且易于大规模采集,但存在实施差距(Embodiment Gap),人类的身体结构与机器人截然不同,如何将人类的动作映射到机器人上是个难题。机器人自身数据虽然不存在映射问题,但采集成本高昂,规模扩展困难。
Xu 曾表示,Build AI自成立以来已经“收集了比历史上任何公司都多的自我中心数据”,但关于这些数据的可用性等核心问题,我们目前尚不得而知。
正如其官网所表示的,这是一个“具有重大技术风险和低成功概率”的研究性押注。网站写道:“如果我们是对的,我们既能推进机器人研究,也能从根本上改善数十亿人的生活。”公司强调团队由独角兽创始人、机器人竞赛世界冠军和学术研究者组成,价值观是“紧迫感、雄心和技术卓越”。
目前,Egocentric-10K 数据集的完整版本和 3 万帧的评估子集都已在 Hugging Face 上公开。研究者可以使用 Python 的 datasets 库直接加载,也可以选择特定工厂或工人的数据进行实验。Build AI 表示,这个数据集的规模和质量还在持续增长中。
参考资料:
1.https://build.ai/
2.https://huggingface.co/datasets/builddotai/Egocentric-10K
3.https://x.com/eddybuild/status/1987951619804414416
4.https://www.eddy.build/
5.https://www.humanoidsdaily.com/feed/build-ai-open-sources-10-000-hours-of-factory-worker-video-to-scale-robot-learning
运营/排版:何晨龙
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.