网易首页 > 网易号 > 正文 申请入驻

OpenAI 投资的机器人公司高管:具身智能会像 ChatGPT 一样突然到来

0
分享至

2022 年,谷歌高级研究科学家 Eric Jang 离开 Google Robotics,以副总裁的身份加入 1X Technologies 负责 AI 工作。2023 年 3 月,1X 获得了一轮由 OpenAI 创业基金领投的 2350 万美元融资,成为了 OpenAI 投资的第一家硬件公司。事实上,双方早在 2022 年就已经展开了合作,当时双方决定共同为机器人开发 AI 模型。

1X 是少数真正专注于结合「大模型软件」和「机器人硬件」的公司。他们希望用基于 ChatGPT 的自然语言来直接控制机器人。

OpenAI 投资的机器人公司 X1 在最近展示了旗下产品 EVE 之后,一直在 X 平台比较活跃的 1X AI 副总裁 Eric Jang 写了一篇文章,公开了其对 AI 和机器人技术发展方向的一些预测。

关于 1X 的机器人研发跟传统机器人公司的不同,Eric Jang 是这么解释的:

  1. 我们采取了端到端的神经网络方法来发展自主性技术,我们现在的能力扩展不再受制于我们编写代码的速度。视频中展示的所有技术都无需编程,它们只是通过我们的机器人运营团队采集和训练的数据自主学习的成果。

  2. 1X 是第一个让数据收集系统自我培训的的机器人公司。这样大大缩短了模型的成型时间,因为数据收集人员能够迅速获得关于他们所收集数据质量的反馈,以及他们实际上需要多少数据来完成机器人任务。我预计,这种模式将成为未来机器人数据采集的主流方式。

许多 AI 研究人员仍然认为通用机器人还需要几十年的时间。但请记住,ChatGPT 的发生几乎就在一夜之间。」他在文章中写道,「我认为,这也将发生在机器人技术上。一旦发生这种情况,计算本身将彻底改变。」

最终,所有 AI 软件看起来就像机器人软件。

文章编译自 Eric Jang 的 Blog,Founder Park 有所增删。

01

AGI 与具身智能可能会同时发生

在和 AI 研究者和工程师讨论职业规划时,他们很少将机器人学作为首选。我推测,许多技术人员可能会因为看到机器人企业过往糟糕的回报率,而对这个行业的前景持谨慎态度。如今,有很多更受资本青睐、更易获得投资的机器学习应用领域,比如 chatbots、GenAI、助理 agents、AI 搜索引擎、AI 教师、编程 copilot、推动科学发展以及重新定义计算机交互界面等。

机器学习在纯软件环境中部署起来更加容易,因为数字世界是可预见的。你可以把一些数据从一个地方移动到另一个地方,并确信它们会完整无损失地到达目的地。你可以通过网络对某台服务器发起一个 API 调用,并假设它就是行的。即便遇到失败,也是在预料之中的情况,因此你可以采取相应的处理措施。

然而,在机器人领域,机器人外界的所有信息都是未知的。传感器获取的数据,由于你的操作,都是未知的。你不知道你自己在何方,周围的环境如何,一旦发生接触会有什么后果,即使你按下了开关,灯泡是否真的亮了,或者你是否真的按过开关。甚至连分辨乘坐下降的电梯和被吊起的起重机这样简单的判断也是困难的,因为在这两种情况下,惯性测量单元 (IMU) 传感器的反应几乎是一样的。一丝不确定的因素,很快就会放大,最终你的机器人可能摔倒在地而拼命挣扎,因为会误以为还有机会保持平衡。

EVE 和 NEO 两款机器人产品|图片来源:1X 官网

随着我们的 AI 软件系统开始参与到现实世界的活动中,例如提供客户服务或者帮用户叫 Uber,它们会遭遇到目前机器人学领域所面临的相同工程难题:一个程序与混乱源头的交互越久,我们对于程序行为正确性的保证就越少。即使你没有在打造一个真正的机器人,你的代码库最终也会与现代机器人软件的架构非常相似。我花费了大量的时间来打造可扩展的数据加载器和日志记录系统,并且确保在记录数据时,我能够将它们全部按照时间上的因果关系重新排序,供 Transformer 处理。这些听起来是不是很熟悉?

类别

机器人面临的挑战

LLM面临的挑战

日志记录和搜索:如何存储、索引和查询大量自主收集的数据?

高效地对视频序列进行独立同分布 (i.i.d) 抽样以供给大量 GPU 是棘手的。Token 太多了。如何从大量的视频中提取较少的 Token?

在训练视频生成模型时遇到相同的存储、索引、I/O 问题。Token 不够。我们可以在哪里获得更多?

校准置信度:如何知道模型是否能够正确处理给定情况?

如何知道机器人是否会执行任务?

LLM 如何知道它是否能够对问题做出事实回应?

模拟和搜索:我们能否在实际采取行动之前了解(潜在的危险)后果?

模拟缺乏足够的保真度来准确建模许多真实世界现象。基于原始传感器数据(例如,图像)学习世界模型很难。

大语言模型不能足够好地进行归纳或演绎推理,以至于我们不能像对待 AlphaGo 那样,仅仅通过增加计算量和推理就能解答所有问题。

自我提升:如何从现实世界的互动中自我提升?

构建数据引擎

因为评估是模糊的,所以优化也是。

这些问题虽然困难重重,但还是有解决办法的。即便大多数 AI 企业和实验室不必操心执行器硬件、电磁干扰或机械臂快速移动的安全风险,但机器人技术与研究工程的能力对于未来所有软件的发展来说,都将是不可或缺的一部分,不只是那些用来控制机器人的软件。

如果你认同 LLM 背后的工程和基础设施挑战与机器人技术面临的挑战是一致的,那么我们应该预期,无实体的 AGI(生成式AI)和机器人 AGI 会在大致相同的时间发生。

硬件设施已经就绪,而且在过去的十年间发表的众多研究论文中,我们已经看到了所有必需的技术元素。

02

更多发散想法机器人智能也会突然到来

尽管许多 AI 研究者依旧认为,实现通用机器人技术还需数十年时间,但我们要记住,ChatGPT 就是突然之间冒出来的。我相信机器人技术也将经历类似的快速发展。

这样的变革一旦到来,整个计算领域都将经历翻天覆地的变化。我们可以把所有的物质世界想象成是一台巨大计算机的内存,而通用人形机器人则成为与现实世界进行交互的接口。想象一下,如果任何一个拿着笔记本电脑的孩子都能种下整片森林,或者建立一座工厂,或者在一夜之间清理干净旧金山的所有垃圾,这将是多酷的事情?

1X、Figure AI 的机器人技术路线更具可行性

要实现机器人技术在全球范围内广泛应用,我们可以采取三种不同的策略。

第一种是纯软件方案,你负责打造一个能控制各类机器人的「超级大脑」,然后所有的机器人硬件制造商都会争先恐后地寻求接入你的大脑 API。如果你能开发出一个无人能敌的模型,那么你就能获得丰富的软件收益,并且获取到大量的数据。OpenAI 发布的 GPT-4 就是这种策略的一个佳例。但这种方法的缺点在于,硬件合作方可能不愿意分享他们的数据,他们的客户同样不愿意,这使得整个信息流通过程变得缓慢。

第二个策略是从一个具体的领域着手,将硬件和软件垂直整合起来,然后逐步扩展。比如制造能自动割草的机器人、自动化的叉车,或者在工作站里拣选包裹的机器手臂。这种策略的优势在于,大多数机器人公司都是通过这种方式来提供价值的,但缺点在于,他们往往难以跳出自己的专业领域,走向全面的通用化。

最后一个策略是采用通用的硬件和软件来应对各种通用的使用场景。这种方法的难点在于,目前还没人能够成功实现,但如果做到了,市场潜力将是无穷无尽的。像 1X、Figure 和特斯拉这样的企业,就是选择了这条道路。

对基础模型的通用性能要求越来越高

大语言模型公司,比如 OpenAI、Anthropic 和 Google,会在一个大型模型(如 GPT-4 基础版)上投入巨额计算资源进行一次训练,训练完成后,再对这个模型进行后续的处理,使其能够执行助手任务或理解图像 Token 等其他功能。随着这些基础模型的训练成本呈指数级增长,所有的研究者(无论你身处哪个机构)都将面临同样的工程挑战:仅有的资源只够训练一次最大的模型。所有后续的训练能力都必须基于这个基础模型,而且因为很难提前预知具体的下游任务会是什么样子,你必须让这个基础模型准备好应对所有可能的任务。

换句话说,你的基础模型的训练目标应该是为了完整地生成数据模型,如自回归的下一个 Token 预测器(比如 GPT)或者扩散过程(比如 Sora 这样的视频生成模型),或者两者的结合。如果你将宝贵的基础模型预算投入到条件密度建模问题上,比如「从视频中预测所有机器人的行为」,那么这个模型可能并不适合你未来可能关心的许多其他任务。随着基础模型的成本不断上升,这一点正成为现实。

最有可能成功的是计算成本最低的公司

虽然我们目前正身处人 AI 的淘金热潮,但如何将价值 1000 万美元的 GPU 成本转化为价值超过 100 万美元的额外利润,这一点仍不明确(除了像挖矿这类特殊行业)。这正是我目前主要在研究的问题。

在过去两年里,任何一家筹集了 1000 万到 1 亿美元资金,打算从零开始打造自家的大型神经网络的初创企业,最终都会面临巨额的资本支出——而这些资源在当今的人工智能初创企业中几乎是触手可及的。我并不是说,为了实现通用人工智能(AGI)而大胆扩展模型不是一个好策略;我只是觉得,最有可能成功的是那些拥有最低计算成本的企业。如果你是一家在高成本的资本环境中扩大模型规模的初创公司,你必须对自己的 scaling laws 和相关性能指标保持高统一。

许多初创公司都希望模仿谷歌通过 Rankbrain 将数十亿的研发投资转化为数倍的回报,但他们也忽视了这需要先建立谷歌搜索引擎这一基础。因此,我认为,绝大多数成功的初创公司将是那些能够灵活驾驭开源模型权重的公司。

现在是自动驾驶创业的最佳时机

我预测在未来几个月内,当前一代自动驾驶汽车公司将会有很多人离职。同时,现在是创办一家全新自动驾驶汽车公司的最佳时机。

很多 Hacker News 的评论者对我在两年前的博客文章中提到的 FAANG 公司的薪酬数字持怀疑态度。自从 ChatGPT 火爆以及 OpenAI、DeepMind、Anthropic 等公司展开激烈的人才争夺战以来,这些薪酬数字变得更加离谱。我曾与一些博士生交谈,他们竟然要求七位数的年薪。这让我想起了 2016 年,那时 John Schulman 在 OpenAI 的 27.5 万美元年薪在我看来已经是个天文数字。

参考资料:

https://evjang.com/2024/03/03/all-roads-robots.html

https://mp.weixin.qq.com/s/VM3-tewpWNSBfig3YuXiUQ

https://mp.weixin.qq.com/s/SeDrBQ-mq_zvnO_lsfC1yw

如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。

转载原创文章请添加微信:geekparker

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
天丧予!颜渊活了41岁,张雪峰也活了41岁

天丧予!颜渊活了41岁,张雪峰也活了41岁

雪中风车
2026-03-28 21:52:39
奢靡淫逸的白马会所:性交易泛滥,让富婆挥金如土,最终一夜覆灭

奢靡淫逸的白马会所:性交易泛滥,让富婆挥金如土,最终一夜覆灭

浮光惊掠影
2026-02-20 23:15:25
英国女医生网恋湖北小伙,辞掉工作到中国奔现,见面22天就结婚!

英国女医生网恋湖北小伙,辞掉工作到中国奔现,见面22天就结婚!

阿讯说天下
2026-03-28 06:11:42
大清洗!图赫尔必弃 4 名英格兰国脚,世界杯绝不能带

大清洗!图赫尔必弃 4 名英格兰国脚,世界杯绝不能带

澜归序
2026-03-29 03:33:33
小米冷清、智己没人、零跑排队:实探十家门店,谁在闷声发财?

小米冷清、智己没人、零跑排队:实探十家门店,谁在闷声发财?

雷科技
2026-03-28 20:13:50
许家印遭受最大亏损的三个项目分别是什么?

许家印遭受最大亏损的三个项目分别是什么?

混沌录
2026-03-21 15:41:07
中国1-1战平朝鲜,安东尼奥野兽言论惹风波

中国1-1战平朝鲜,安东尼奥野兽言论惹风波

范动舍长
2026-03-29 07:03:48
张雪峰猝死事件发酵!网传内蒙一公司老板开会,出资全员急救培训

张雪峰猝死事件发酵!网传内蒙一公司老板开会,出资全员急救培训

火山詩话
2026-03-26 10:42:17
这是目前为止,我见过腰最细的女生,没有之一

这是目前为止,我见过腰最细的女生,没有之一

草莓解说体育
2026-03-03 19:15:05
一场本该属于C罗的投票,梅西却赢到让所有人闭嘴

一场本该属于C罗的投票,梅西却赢到让所有人闭嘴

耀阳体育
2026-03-29 04:46:57
两会通道背后的故事|古老民族技艺 织就锦绣生活

两会通道背后的故事|古老民族技艺 织就锦绣生活

新华社
2026-03-27 22:11:12
直到看见蒋万安给儿子们起的名字,就知道他骨子里的身份瞒不住

直到看见蒋万安给儿子们起的名字,就知道他骨子里的身份瞒不住

历史人文2
2026-02-23 10:29:02
一个磁场很干净的女人,身上都有这4种特征,你占了几个

一个磁场很干净的女人,身上都有这4种特征,你占了几个

十点读书
2026-03-27 19:13:07
疯了?内娱天后张靓颖,万人演唱会当众承认 do 脸翻车

疯了?内娱天后张靓颖,万人演唱会当众承认 do 脸翻车

橙星文娱
2026-03-27 13:34:54
调查发现:每天饭后要午睡的人,不出5个月,身体或有这3种改变

调查发现:每天饭后要午睡的人,不出5个月,身体或有这3种改变

蜉蝣说
2026-03-24 10:00:30
张雪峰40天闪婚真相曝光,细节惊人牵涉第三人

张雪峰40天闪婚真相曝光,细节惊人牵涉第三人

无处遁形
2026-03-29 04:31:18
广东1男子卖猪肉35年,一贫如洗,却被网友称为“最富有的人”

广东1男子卖猪肉35年,一贫如洗,却被网友称为“最富有的人”

小怪吃美食
2026-03-28 10:31:51
迈阿密国际创史无前例壮举:新主场看台正式命名为“梅西”

迈阿密国际创史无前例壮举:新主场看台正式命名为“梅西”

星耀国际足坛
2026-03-28 23:54:02
江苏空姐爱上大17岁头等舱乘客,婚后赠上海房产给丈母娘

江苏空姐爱上大17岁头等舱乘客,婚后赠上海房产给丈母娘

生命之泉的奥秘
2026-03-28 11:25:23
俄罗斯突然“关闸”!40%的贸易流说断就断,全球买家慌了

俄罗斯突然“关闸”!40%的贸易流说断就断,全球买家慌了

国际阿尝
2026-03-29 05:51:45
2026-03-29 08:28:49
FounderPark incentive-icons
FounderPark
关注AI创业,专注和创业者聊真问题
1184文章数 160关注度
往期回顾 全部

科技要闻

华为盘古大模型负责人王云鹤确认离职

头条要闻

上海爷叔在家"打伞做饭" 自嘲掏空三代400万买了个啥

头条要闻

上海爷叔在家"打伞做饭" 自嘲掏空三代400万买了个啥

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

陈牧驰陈冰官宣得子 晒一家三口握拳照

财经要闻

卧底"科技与狠活"培训:化工调味剂泛滥

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

数码
本地
游戏
房产
公开课

数码要闻

2025中国耳机全渠道销量下降6.9% 线上销量占据9成份额

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

《异替》现已登陆Steam

房产要闻

首日430组来访,单日120组认筹!海口首个真四代,彻底爆了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版