具身智能进入GPT-3倒计时，我们距离贾维斯时刻还有多远？｜对话自变量机器人CEO王潜|算法|模态|大模型

分享至

编者按：AGI（通用人工智能）起于大语言模型（LLM），将终于具身智能。

以大语言模型的突破为契机，通过赋予 AI具体的物理实体（如机器人和自动化设备等），使其能够和现实世界交互，具身智能成了AI通往物理世界的钥匙。

不同于快速收敛的大语言模型，具身智能的战线长的多，涉及的模态空前复杂，需要同时具备多模态感知、具身决策与规划和操作执行能力。

在这片AI的新大陆上，来自UC Berkley、斯坦福、北大、清华等顶尖院校的创业者们扎堆涌入。在他们的设想中，具身智能的终极形态是机器人能够灵活处理各种各样的复杂任务，适应工业、居家生活、医疗、养老等不同场景，像钢铁侠的AI智能管家贾维斯一样为人类服务。

资本亦蜂拥而至。尤其是在今年，具身智能成为当之无愧的风口赛道。红杉中国、高瓴资本、蓝驰创投……各类型的投资机构都希望能在早期阶段就押中这一新兴领域的未来头部。

在这个智能体与物理世界深度融合、边界不断拓展的领域，机遇与挑战相互交织，技术迭代如闪电般迅速。籍此年关之际，《科创板日报》对过去一年具身智能赛道的发展情况、热点项目进行了梳理，以期留下关于过去的记录，也提供未来的参照。同时，我们将始终保持敏锐的洞察力，持续追踪并深入报道浪潮中的先行者，记录下他们或曲折、或惊艳的探索与蜕变历程。

本期，《科创板日报》记者对话自变量机器人（X Square）的创始人兼CEO王潜，邀请他分享在具身智能浪潮下的思考和洞察。

近期刚完成新一轮融资的自变量机器人（X Square）是赛道内值得关注的玩家。这家成立仅一年的中国初创企业直接对标海外明星项目Physical Intelligence（估值达到20亿美元），从创立之初就选择了端到端统一大模型技术路线。公司正在训练的 Great Wall 操作大模型系列的 WALL-A模型，据称是目前世界上参数规模最大的端到端统一具身智能大模型。

王潜本硕毕业于清华大学，是全球最早在神经网络中引入注意力机制的学者之一。博士期间，他在美国顶级机器人实验室参与了多项 Robotics Learning 的研究，方向覆盖了机器人多个前沿领域。

PART1|具身智能的GPT-3还有多远

科创板日报：今天具身的技术路线还远没有收敛，围绕 RL(强化学习)和模仿学习，小模型VS大模型的讨论一直在持续，自变量为什么从创立之初就选择了端到端的统一大模型路线？

王潜：在机器人这条路上，主流的技术路线我都尝试过，对各种技术路径的瓶颈都很清楚。我自己从 2016 年开始做端到端的机器人模型，在2019年到2021年逐渐看清楚了统一大模型这个大方向的必然性。

首先，机器人的manipulation（操作）所面临的物理交互非常复杂，虽然很多团队本能会觉得这是一个CV（计算机视觉）问题，将物体的形态和环境的三维空间结构进行重建来解决。但做到这里只是解决了manipulation问题的一半而已。

也有很多团队下意识地选择了非端到端的路线，通过模型分层分步的方法来做，表面上，这种方法似乎进展更快。但后续就会发现难度远超预期。manipulation 和语言、图像任务有着本质区别，其核心在于物理交互过程的复杂性：真正的难点在于处理机器人和物理世界的接触过程。

这决定了任何分层分步的方法都很难彻底解决manipulation问题，每分出一个步骤，都可能在中间引入一些不可控的噪声，或是丢失一些信息。这样，随着多个子模型或分层步骤的叠加，问题逐步累积，最终导致manipulation任务的失败。

在大模型出来前，强化学习被业界认为是最有机会的路线。当时主流想法是进行大规模的 simulation（仿真），然后通过模拟到现实的路径实现应用。但在机器人manipulation这个领域，这条路线存在明确局限，其所能达到的效果上限较低，而且很难再有进一步突破。核心问题还是回到手部的操作，物理世界交互的复杂性导致模拟器和现实世界存在巨大差距。

另一方面，如果完全依赖现实世界的数据来训练模型，为每个任务单独构建一个模型，随着任务复杂性的增加，所需的数据量也会指数级增长。那么，面对无限种类的任务，实际上需要无限的数据量，总体成本和难度不可控。

到2020年左右，GPT-2在向GPT-3进化的过程中，随着模型学习任务数量不断增长，其能力持续提升，已经能够看到一些少样本学习现象的出现。

ChatGPT 是NLP（Natural Language Processing 自然语言处理）领域的Foundation model（通用模型），可以通过零样本的方式，由一个模型完成所有任务。第一次有了用有限的数据量做无限种类的任务的可能性，这对机器人操作（manipulation）这个领域来说具有决定性意义，解决了长期以来最大的难题——数据不够的问题。

Foundation model实际上是一条能够明确跨越数据障碍的路径。

科创板日报：在那个节点，你做了什么？

王潜：当时我就意识到，未来具身智能的技术栈和之前完全不同，团队一定是大模型背景的人为主。过去小模型背景的同学会更多关注如何为每个任务设计特定的模型结构，但无法实现泛化。与之相反，大模型的人则重视的是如何通过工程化方式实现模型的scaling-up，直至达到完全通用

我自己已经有了机器人的技术储备，需要和大模型背景的顶尖专家搭配。所以就积极和他们接触，在这样的背景下认识了联合创始人王昊。双方算得上是一拍即合，王昊长期深耕在大模型领域，他一直在思考，大模型如何在真实世界落地。

相比于纯虚拟的大模型，通过机器人让AI在真实世界落地是更实际的一条路线。不止是王昊，我还与很多研究大模型的同行进行交流，能明显感觉到大家的热情和对这一领域发展的期待。

（背景补充：联合创始人兼 CTO 王昊博士毕业于北京大学，在粤港澳大湾区数字经济研究院（IDEA 研究院）期间担任封神榜大模型团队负责人，发布了国内首个多模态大模型「太乙」，首批百亿级大语言模型「燃灯 / 二郎神」及千亿级大语言模型「姜子牙」，模型累计下载量数百万。）

科创板日报：基于端到端的统一大模型路线，公司的进展如何？

王潜：我们的“端到端”包括两个维度，一是从机器人获取原始的感知数据（如视觉传感器数据、触觉传感器数据等）开始，直接将这些数据输入到模型中，由模型学习并输出机器人的决策和操作动作，中间没有任何分层分步的处理步骤。

第二个维度，是实现了不同任务的统一，所有的任务放在同一个模型中训练，推理也用同一模型进行操作。对于一切操作任务，在单一模型即可解决所有问题，因此称之为「统一」模型。

海外的明星创业公司Skild AI、Physical Intelligence（PI）等目前都在走这条路线。从目前公开的信息（比如学术界的论文、公司公布的进展）来看，在全世界范围内，我们应该都是属于第一梯队的，领先国内的竞争对手大概半年左右时间。

现在我们正在训练的Great Wall系列（GW）的WALL-A模型，是目前世界上参数规模最大的端到端统一具身大模型，在处理长序列复杂任务，以及泛化性、通用性等方面的能力都超越了现有已知模型。

科创板日报：在规划的路径上，公司接下来会突破哪些瓶颈？

王潜：我个人认为，当下的具身智能几乎可以类比到GPT-2所处的时间点。不管是我们自己的模型，还是PI最近发布的π0模型，它们现在的能力和配置，大致相当于GPT-2在大语言模型发展阶段所达到的水平。

按照现在的进度，明年年底或者后年年初，预计就能实现一个类似GPT-3级别的具身智能大模型。

用泛化性来理解，我把泛化性分为四个层次。最基础的泛化性，是对诸如光照变化、摄像头位置变化、物体位置改变等基础条件的泛化；

第二层是改变整个环境背景，例如之前是在桌面上操作，现在拿到厨房的玻璃台上，是不是也能完成操作；

到了第三个层次，就需要具备推理、归纳的能力。举例来说，以前只操作过一个杯子，能不能推广至各种各样完全不同的杯子上面去。任务是一样的，但被操作的物体是机器人此前没见过的，它还能不能完成？这明显要比前两层难很多；

在第四个层次，给机器人一个从未做过的任务，它能否想办法去完成。举一个相对极端的例子，比如给机器人一个九连环，它之前从来没有解过九连环，是否能尝试解开。

现在我们和PI的模型，在前三个层次上都体现出了很好的通用性、泛化性的能力，当然远没有达到完美的程度。在第四层上，PI目前还没有发布相关信息，但我们的模型已经有一点点能够自己发现新办法的迹象了。

只有达到足够的泛化性、通用性，才能在真实场景中解决问题，这是具身智能真正区别于以往机器人的核心。

科创板日报:随着技术的成熟，在商业侧做了哪些准备？

王潜：目前我们观察下来，实现前三个层次的泛化性基本意味着可以在一个半封闭的或者是一个半开放的场景里去替代掉很多繁琐的体力劳动。在商业化层面，也就具备了落地的可能。

我们早期还是要以to B为主，尤其是服务业的场景，会从里面优先挑选一些，在技术上可以达到的、其他各方面维度都比较好的场景优先去落地。

目前已经在和潜在的客户群接触，大家的预期还是比较乐观。我们的最终目标是要让它进入千家万户，从B端走向C端。

科创板日报：按照这个节奏，现在产品从demo到量产验证还有多久？

王潜：硬件具有特定的迭代周期，同时产品打磨也遵循其客观规律。这意味着，做出一个产品的demo并不是特别难，花费时间也不会很长。但一款非常成熟的产品，仍需要很长时间去打磨，去验证，包括需要在客户场景里实际去落地测试，再基于对方的反馈重新调整。我们的节奏是硬件和模型同步迭代。

PART2|具身智能的未来在中国

科创板日报：现在全球范围内的具身智能公司都处于相对早期，你曾经很明确地表示具身智能的未来在中国，是什么支持你做成这样的判断？

王潜：今天的大模型创业，和上一代AI阶段已经完全不一样了。那个时候是算法驱动的，每家公司都需要大量的算法人员，去解决模型海量的corner case。以前自动驾驶动辄大几千人的团队，但当大家开始做端到端模型之后，用人哲学就不是这样了。

现在是数据驱动的时代，相较于过去对算法研发的广泛投入，现在更需要通过大量工程化手段来实现大模型的优化和落地，只要把尽可能多的算力集中在最高效的几个人身上。目前海内外头部的大模型公司里，核心的算法团队一般是小几十个人，个别可以达到大几十个人规模，都很精简。

这样的趋势下，中国相对于美国而言，在工程师的人才密度上也具备优势。国内高质量的人才供应完全可以满足行业需求。

比起昂贵的算力成本，用相对有竞争力的价格招募高质量的人才，是非常值得的事情。具身智能大模型的技术栈和以往非常不一样，无论是纯做机器人，还是纯做大模型，投身具身大模型领域都存在技术跃迁的问题。我们希望吸引创新型人才，逐步培养他们的交叉技术能力，让人才随着公司一起发展。

另外，国内的产业生态也更完善。中国在供应链上的优势可能领先了美国一个数量级。例如数据收集工作，中国的成本基本上是美国的1/10。大语言模型公司可以通过把数据的工作外包到东南亚、肯尼亚等地区去控制成本。但机器人领域的数据采集需要一定的专业性，无法轻易外包出去，这又是和语言模型很不一样的地方。

之前学术界已经尝试过多次，以异地外包、众包的方式降低成本。但最终的结论是，这样得来的数据在质量上很难达到要求。如果要满足质量要求，最好还是在本地完成。

那么，中国的综合成本一定是全世界最好的，成本叠加效率，美国很多时候可能比中国就不只差一个数量级了，要慢更多的时间。像我们在深圳，定制一个零件几天就搞定了，在美国就需要几个月甚至更久。具身智能是个软硬件结合的领域，硬件上的效率差距，也会造成极大影响。

科创板日报：提到生态，现在国内的具身智能创业公司扎堆涌现，你们也参与了华为(深圳)全球具身智能产业创新中心，对于现在的产业生态怎么理解？

王潜：我觉得这是一件好事情，能看到大家有各自擅长的地方，想法也不同。我们最擅长的就是模型，包括手部的操作，目前全部精力集中在这一方向。对于一些其他的零部件，如移动底盘等，我们还是非常希望能和合作伙伴一起去完善。

机器人的市场空间足够大，产业链还在逐步成熟的过程中，我们希望和生态伙伴一起推动行业的良性发展。

这一波热潮中，有认真做事的公司，同时也存在泡沫。部分玩家确实存在过度包装以获取资本流量的现象，而对于技术发展及落地与否并不真正关心，这确实会影响行业良序发展。

科创板日报：基于生态的理解，你们是不是未来有机会去赋能其他公司的产品？

王潜：是的，我们一直在和合作伙伴尝试生态共建。机器人包含的子领域众多，每个子领域都有极强的专业性。例如对于硬件设计，可能需要专门针对某个环境的特殊要求进行定制化设计，甚至为了调整一个零件，就需要耗费两年之久进行反复调试。这种情况明显不适合我们去做。

国内的生态更适合共生模式，不同公司基于自身的禀赋，擅长做哪些事情、哪些场景，以及哪些技术，然后共同发挥优势，形成一个产业的生态，一起走下去。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.