对话千寻智能高阳：科学家创业不太“靠谱”，但创业就像一场游戏|机器人|智能涌现|人工智能|超级智能|高阳(作家)

分享至

智能涌现制图

具身智能创业，要做苹果，而不是安卓。

文｜邱晓芬

编辑｜苏建勋

不管是刚刚结束的WAIC（世界人工智能大会），还是本周要开幕的WRC（世界机器人大会），如何在展会上识别一个机器人的真正实力？

具身智能公司“千寻智能”的联合创始人高阳，提供了这样几个tips：

对于号称能叠衣服的机器人，你可以尝试把衣服团成一团，随意丢在桌上，观察它是否能继续完成动作；或者是再给它裤子、外套，看它能否具备跨品类的泛化能力；

在机器人操作时，可以观察其动作是否足够丝滑流畅，而不是一卡一卡，这代表了思维和动作的协调性……

给我们提出指引的高阳，是当前具身智能领域炙手可热的创业者之一——从美国加州大学伯克利分校博士毕业后，他选择回国成为清华大学交叉信息研究院助理教授。

2023年，他又与前珞石机器人CTO韩峰涛一起，创办了具身智能公司千寻智能——韩峰涛硬件经验丰富，过往操盘过数万台机器人量产出货，高阳则有AI的研究基础，学术和产业界的搭配，使得千寻智能成为这波具身智能浪潮里的当红公司。

成立19个月的时间里，他们累计融资超10亿人民币。资方名单中，有华为哈勃、京东、宁德时代、顺为资本等等。

从高校的“象牙塔”迈入商业世界，高阳也要直面刻板印象对“科学家创业”的偏见，但他并不回避。

“科学家创业，某种程度上并不靠谱”，在他看来，科学家是追求真理、兴趣驱动的工作，而创业则着意于商业成功。“我在不断承认自己的局限性，我知道我不擅长什么，尝试去弥补”。

高阳将创业比喻为“一种游戏”，而那些与投资人、客户的交流，都是游戏里升级打怪的过程。他见过上百位投资人，开始的时候由于技术讲解得太晦涩，“把人讲睡着了”，但高阳能在得到反馈后迅速调整，“现在和投资人打交道就变得更熟练了，这是我喜欢的成长的过程。”

在这位年轻创业者的办公室里——他的电脑显示器上还贴着卡皮巴拉小公仔，高阳与《智能涌现》交流了他从科学家转到创业者的心路历程，以及对于具身智能技术路径的一些看法，以下是交流实录（略经摘编）

做具身智能领域的苹果，不是安卓

智能涌现：机器人领域，你和韩总的对搭档算是一个不错的组合：一位是软件方向的科学家，一位是硬件经验很足的企业家。你当时挑选合伙人的标准是什么？

高阳：我当时想了蛮久的，关于具身智能到底应该怎么去卖给客户。我到今天为止一个比较obvious的结论是，得做软硬一体，得做具身智能领域的苹果，不能做安卓。

因为技术初期，跨本体能力一定是比较弱的，把软件和硬件一起做好，在无数的行业初期都是这样的。比如个人电脑最开始，像IBM，它做硬件也做软件，可能过了三四十年，大家才逐渐软硬去分工。

我自己做软件做的很多，但硬件基本没有做过，所以我觉得把硬件和软件两方面都做得很强，在这个企业的前30年特别重要。

另一方面，其实很多做硬件的人不拥抱变化，或者说他们没有意识到变化。但是韩总在非常早的时候就意识到这个变化，跟我是想到一块去了。

智能涌现：您2023年是看到了什么，才有了这种机器人创业的想法？

高阳：主要是看到ChatGPT对于学习范式的转变。原来ChatGPT出来之前，我自己都不信openAI天天搞的这些玩意儿，包括Berkeley很多很senior的教授都觉得这是扯淡，但是就直到他们做出来了GPT-3.5，我们就反思了一下，觉得自己之前想错了。你顺这个逻辑去推演，具身智能它是一个必然的现象，只是需要一定的时间。

智能涌现：你们2023年就决定机器人一定是软硬一体的，但是现在也有头部机器人公司对大脑依然是忽视的，您怎么看？

高阳：头部公司有他自己的逻辑，他的逻辑在于，他非常擅长去做硬件，靠卖给教育客户已经能活得很好，可以通过这个上市了。他最佳的solution就是，先稳固教育市场，不要被别人抢了，因为现在有很多其他公司在尝试去做这一块生意。等上市之后，他慢慢去做别的事情，一个公司很难同时做很多事情，尤其是当教育市场已经有了激烈的竞争。

智能涌现：如果我做一个非人型的硬件，它是一个新形态的本体，这里面会不会有只做本体的公司的成长空间？

高阳：本体的设计跟AI的需求是强相关的。我举个例子，我做了一个本体，比如我伸长胳膊的时候，逆解失败了，导致我拿不到桌上这个东西，这种问题很常见，如果不把这个硬件和AI联合开发的话，你是没有办法意识到这个问题的。

智能涌现：如果只是从这个行业来看，它的市场空间容纳不下第二个这种公司了？

高阳：我觉得很难容纳。

从科学家到做管理，是一种“游戏”

智能涌现：当时吴翼老师让你从Berkeley回来的时候，你就打算创业，我记得你曾经提到，你觉得回来做科研会更有挑战？

高阳：当时就是想回国做研究，那时候没有现在这种技术变革的机会。当时我另一个选择是，在美国去大厂里面做research engineer。但那种路线就是别人给你plan好了，就这么一点点事，你把它做好就行了。

但是做教授的话，相当于实验室可能刚开始，什么东西都没有，也没有人，你要把所有东西都从头build起来，是从0到1的挑战。所以我大概是从2023年后半年开始创业，那时候是我回国的第三年左右。

智能涌现：我感觉你不只是在科研的角度去考虑事情，好像是从business的角度去思考。

高阳：对于怎么把技术做到让每个人去使用，我非常感兴趣，所以我就开始去思考商业层面上，怎么能把机器人做好，然后再推导出来要软硬一体，然后再去选择谁跟我一起来创业。

智能涌现：您为什么认为管理是一种技术？因为技术会比较一板一眼，比较理性，但是管理也是有一些感性的成分。

高阳：管理不是一个严格意义上的技术，它可能是技术和艺术之间的中间的状态，但是管理是有迹可循的，但是又不像理工科一样只要follow这一套就没问题了，它还是需要一些灵机应变的地方。

智能涌现：您之前提到，科学家创业不是特别靠谱。那你自己去实践的时候，怎么去补充起这些额外的能力？

高阳：我先讲一下为啥不靠谱。科学家追求真理，是兴趣驱动的工作。但是创业的话，最重要目标是做出来一个产品，很多时候不是关乎于真理，而是关乎怎么去服务好客户，不同客户可能有很多不一样的需求指标和维度。

在这个过程之中，你要用公司的形态去达到这个目标，里面也有很多专业的技术，比如怎么去搭建团队、把这个公司当做一个成长的人去培养。

我肯定不能说我100%会成功，只能说我在不断去承认自己的局限性。我知道我不擅长什么，然后我再尝试去弥补。

智能涌现：具体到您个人，您就是怎么完成科学家身份到创业者身份的转变？

高阳：我觉得就是承认自己的局限性，去开放学习创业这一套，去用商业公司的成功去drive整个东西，而不仅仅是对真理的探索。

智能涌现：你享受这个过程吗？

高阳：我觉得我还挺享受的，它是一个挺有意思的游戏，也有很多lesson。其中一个lesson就是，我最开始跟投资人讲的偏事实向，我讲的很精确，但是大家很困，很无聊。

然后我意识到好像不能这么讲，需要用一个更加形象生动的方式去给他们讲明白。类似于这种lesson有很多。

智能涌现：这个过程你也享受？

高阳：客观世界里，这是我所需要完成的。只要我想做好这件事情，我就得经历。

智能涌现：你见了多少投资人？你有统计过吗？

高阳：没统计过，但可能有一两百个，然后每一个人，你都得给他们讲一讲。

智能涌现：这个过程中，你会如何不断修正自己和投资人接触的方式？

高阳：我觉得反馈非常重要，否则你不知道自己什么方面做的不好。现在和投资人打交道就变得更熟练了，这是我喜欢的成长的过程。

智能涌现：你觉得这对于你来说，会是一个比较大的挑战吗？

高阳：我觉得还好，它可能就像任何一项技术一样，它只不过是一个特殊的技术。

判断VLA好坏的秘诀：亲自去感受

智能涌现：现在这个阶段，用Transformer做预训练已经是共识，但不知道在各家工程化的后期，效果会有明显的高下之分？

高阳：我觉得就是您可以去WRC现场看一看，可能理论说了千千万，大家还得自己去体验一下。比如，你能不能跟它有一些交互？你把衣服团一团扔给他，看机器人能不能重新叠好。

智能涌现：这可以成为我们看机器人看展的一个指引。

高阳：因为机器人是一个很庞大的系统，所以你很难搞清楚谁更好。我觉得就是最好方法就是你自己去体验，看看各家的模型到底能干啥。

智能涌现：大家今年都在说VLA，怎么去判断各家VLA效果的好坏?

高阳：一个是算法。比如有一些VLA没有办法去分解任务，像千寻的VLA有一个快慢系统，可以把动作做得很流畅，没有快慢系统的机器人，动作就会生硬、卡顿。

另一方面是数据。大模型需要消耗很多数据去训练，我们自己做的模型会用互联网上的人类视频数据进行预训练。而一些VLA无法在人类的视频上做预训练，性能就会比较差一些。

从技术角度来讲就是这两点。算法有什么样的特点，用什么样的数据去训练，数据的清洗处理配比，这些都会影响效果。

如果从观感来讲，就是机器人能做多复杂的任务。比如，有一些模型只能做比较简单的任务，我们叫pick and place。但是像千寻的模型，就可以做复杂如叠衣服的动作，你可以跟他进行一些捣乱，他可以完成得非常好。

智能涌现：千寻的Spirit v1的VLA模型，是基于您原来的那两项研究（ViLa和CoPa）衍生出来的吗？

高阳：不仅是那两项，是很多研究演化出来的，包括one two VLA，都是在千寻的模型里面做了一些工程化。

智能涌现：你们的one two VLA，跟一般的VLA，不同点是什么？

高阳：如果你跟他说稍微复杂一点的事，比如把手机放抽屉里，可能需要三个步骤——手机拿起来、打开抽屉放进去、再关上。一般的VLA做不了，one two VLA就可以自己去决策，什么时候把任务分解成更小的任务，然后去完成，但是如果你跟它说一个很简单的任务，它就不会继续去分解。

智能涌现：您之前有一个判断，认为四年之后会到Robot GPT3.5的阶段。这个阶段，它有什么样的特点？

高阳：Robot GPT3.5这个阶段，基本上你跟他说任何的事情，他有七八成都能给你完成，比如说进家庭，去门外给我拿瓶水。但他可能不是100%的时候都 work，可能只有70%。

智能涌现：现在行业针对VLA路线，也做出了很多的反思，您认为它可修订的的部分还有哪些？

高阳：我同意陈建宇（星动纪元创始人）之前说的，VLA中的“L”的部分的确现在太多了，因为这个模型其实不需要理解那么复杂的语言。VLA在具体的技术上确实还有很多可以提升的空间。

智能涌现：那具体怎么提升？

高阳：落到实处的话，其实有很多方面。在数据层面，比如如何更好利用互联网上的人类视频数据。因为现在机器人已经广泛利用的是互联网图文数据，但是千寻智能已经在利用互联网人类视频的数据，因为人类视频直观上和机器人做的任务是相关的。

其次，用遥操作数据如何对VLA进行持续有效的监督微调，如何让VLA在物理世界进行强化学习？因为监督微调是人类给他采集数据，强化学习是机器人自己进行的。

其次，在架构层面上，就像陈老师提到的，如何把L减得更少，还有，动作的tokenizer怎么设计得更好，这也是可以不断去探索和改进的。

智能涌现：快慢系统也算是我们独创的技术点吗？这个是什么时候完成的？

高阳：对，这个大概4个月前。

智能涌现：快慢系统做出来之后，比如动作上，它会有哪些比较大的提升？

高阳：你看有一些机器人做事情的时候，一卡，一卡，就是因为模型没有快慢系统。

像我们那个模型，我们叠衣服有一步是甩一下，这个动作要很快，如果不快，这个衣服根本甩不起来，你一停的话它就没有那个劲。

智能涌现：今天大家还在讨论世界模型，在千寻智能的研发版图里，有考虑到这个吗？

高阳：我觉得世界模型的成本，的确是比较高的。当下具身智能对于世界模型的训练没有那么迫切，但我觉得最后它一定是需要的，它是RL（强化学习）里不可或缺的一环。我们现阶段对于世界模型有一些小规模的训练和使用，但没有特别大规模。

智能涌现：分层的路径，您觉得可行吗？

高阳：我觉得分层最后是要被淘汰的。相当于，你用人类的智慧，把这个任务分解到更小。分层的方式，可能在一些任务上短期的效果还不错，但长期来讲一定是不scalable的，因为每做一个新的任务，都要手工去做一些事情。但是如果是端到端的话，就相当于你只要给模型补充数据就可以了。

智能涌现：在您的视野里，机器人领域还有哪些非共识缺口？

高阳：我的脑子里面有很多我自己闭环的东西，但是比如访问器的重要性、机器人第一波落地场景还有很多非共识。包括VLA算法也是正在一个高速发展的过程，但是基本框架已经定下来，算法的一些细节还在快速的发展。

大规模数采工厂，现阶段价值不大

智能涌现：您怎么看现在一些机器人公司建数采工厂的现象？会不会存在一个问题是，这家采的数据不一定能用到另外一家的不同硬件上？

高阳：我觉得大规模的数采工厂，在现在这个阶段是没有太大价值的，主要的原因是因为，大家的机器人形态还在不断变化，机器人形态变了，之前的数据就没办法100%迁移，它会打比较大的折扣。

另一方面，按我们自己这个算法来讲，你其实不需要那么大规模的数采工厂，我觉得最重要的事情是把预训练做好，其次才是数采。我觉得现在可能有一点点本末倒置。

智能涌现：我感觉好像也有一些厂商把这种当做商业模式？

高阳：我觉得它短期的确是可以有一定的商业收入。美国很多做人工智能的公司，他们是人力太贵，没有办法建数采工厂，所以他们会买一些数据。但是长期来讲，我觉得这个模式我觉得很难奏效，因为跨本体的难题还没解决。

智能涌现：但是他们买的这些数据，用在自己不适配的本体上，这些数据还有价值吗？

高阳：有价值，但是会打个折扣。

智能涌现：感觉现在机器人的demo有些同质化，为什么都是比如叠衣服、开电器门的场景？

高阳：首先，叠衣服是一个大家公认的最难的任务，因为衣服的形状千变万化，你很难去给它预编程，其实从Demo里你就能看出来大家模型能力的区别，所以大家比较喜欢做这个。

然后，开冰箱、洗衣机门，大家在日常生活里会有这种任务，就可以让大家imagine future。

智能涌现：你们互联网的数据大概会占多少？不同的数据，各自的作用是什么？

高阳：按量算的话，95%以上。互联网数据是非常广泛的场景，它起到预训练的作用，主要的意义就是提供数据多样性，学术上来讲就是希望模型泛化。泛化的本质原因就是，机器人见过的数据足够多样。

做遥操的话，相当于把泛化性和物理世界的精确操作连接起来。因为机器人只看别人做，自己没做过，就很难去做任何事情，摇操作是提供精确性。

智能涌现：泛化怎么体现呢？

高阳：比如说机器人拿了我的手机，我的是折叠机，但原来训练的是用 iPhone，它可以不用去采集折叠机的数据，就能够去识别它的形态、重量。

智能涌现：这种机器人领域普遍的泛化性表现如何？

高阳：还是比较初级的阶段。但是我们发现用了互联网数据之后，机器人的泛化性提升率还是非常大的，比如你换了一个物体，能有60%-80%的提升。最后预训练和摇操作数据混在一起，两者会互相帮助。

从自动驾驶到机器人的“伯克利四子”

智能涌现：“伯克利四子”，你们四位研究方向和背景都很类似，那具体在研究思路上有哪些差异点？

高阳：陈建宇老师是MPC，他刚回国的时候做的是safety RL，就是控制论，他后来开始做人形机器人，关于行走、跑步。

我自己更多是偏操作类型的，用机器人的手进行干活什么的，是模仿微调和强化微调这个体系。

许华哲老师他主要做的更多是3D policy，就是比如通过点云，去做一些操作和识别，比如它的DP3，就是通过3D相机拍摄场景去实现操作。

智能涌现：你们私下会比对，谁的方向会更接近终局吗？

高阳：大家都是自由的去选择研究的方向，每个人的想法肯定还是有一些区别。学术上，我觉得很难去说服彼此。

智能涌现：那你们私下会去交流管理这件事情吗？

高阳：大家刚成为教授或者刚刚创业的时候，都会面临管理上的学习过程，这些我们交流的很多。

智能涌现：印象深刻的一次交流，你们四个得出了什么管理上的结论？

高阳：我记得有一次我跟许华哲讨论，他们是怎么招人的，我们是怎么招人的，彼此吐槽觉得招到特别好的人很不容易。以及我们也会讨论怎么面试别人。

智能涌现：Deepseek招人的逻辑是，团队里会有大量年轻的角色，你们也是类似的逻辑吗？

高阳：LM 和 VLM，和 Robotics 还是不太一样，但是基本的画像可能都是比较年轻的、比较聪明的，或许不见得有那么多的工作经验。其实我们需要的人并不是很多，但我们需要比较强的人。

智能涌现：强，怎么理解？

高阳：比较典型的画像是，比较好的学校的硕士或者博士毕业。他可能在Robotics领域发表过几篇论文，但并没有在公司里工作过，但是已经有过 research的经验。

智能涌现：为什么不需要有很强的工作经验？是因为你自己曾经在公司工作过的体验不太好吗？

高阳：并不是，只是因为机器人的技术变化太快了。对于算法岗，如果是公司里工作三五年，那么他可能是更久之前读的书，那个时候的技术和现在肯定完全不一样，他所受的教育和现在我们需要的东西可能就不是特别匹配了。我们需要年轻人，是因为他在当下接触到的技术就是最前沿的。

智能涌现：从你们四位的背景上来说，都是从原来自动驾驶版图迁移过来的。从大的逻辑上来看，自动驾驶和机器人领域，重叠的部分、以及后期需要你做增量的部分，分别是什么？

高阳：重叠的部分是，这两个问题的本质是相似的，都是说我看到了一个场景，要做出一个动作，然后这个动作要么就是，机器人往前走了或者抓了东西，或者就是自动驾驶车往前走了或者刹车。

但这两个领域也有很多不一样的点，比如，自动驾驶的本体是ready的，不需要造，有二三十家车企能把汽车造得很好。但是人形机器人本体仍然是处在高速发展的阶段。

还有，自动驾驶的安全性要求极高，但是人形机器人相对而言，某些场景的安全性要求没有那么高，它的场景错误容忍度会更高很多。

end

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.