对话陈佳玉：从核聚变到机器人，是攀登AI珠峰的过程|算法|人工智能

分享至

本科毕业于北大工学院，早期研究聚焦于自动驾驶；博士后期间在卡内基梅隆大学，利用强化学习解决核聚变反应堆控制问题。陈佳玉的科研生涯，始终围绕着复杂系统的智能控制展开。

2025 年，陈佳玉开启了全新的阶段：他同时担任博导与原力无限资深研究科学家，研究对象从核聚变转向了通用家用机器人。他试图结合学术界的理论深度与产业界的工程资源，寻找通往通用智能的路径。

在本次专访中，陈佳玉回应了关于“天才少年”标签、中美科研环境差异以及具身智能落地路径等话题。他认为，标签并不重要，重要的是能否精准地定义研究问题，并在有限的资源下找到最优解。

核聚变与机器人，在数学本质上是一样的

DeepTech：回望你的学术生涯，从自动驾驶到强化学习理论，再到核聚变控制，最后回归具身智能。每一次方向转变背后的逻辑是什么？

陈佳玉：我刚开始做科研是从技术角度出发的。起初做自动驾驶的感知，后来做决策，自然而然地接触到了强化学习。博士阶段，我希望能把这个方向做深，于是转向了偏理论和算法的设计，暂时与具体应用解绑。

到了博后阶段，我又想把算法重新落地到应用层面。无论是核聚变里的等离子体控制，还是具身智能里的机器人控制，本质上都是用强化学习去求解复杂的控制问题。一旦锁定了强化学习这个方向，我就一直在沿着它做。

DeepTech：为什么对强化学习这么情有独钟？

陈佳玉：强化学习起源于认知科学，后来经由 Richard Sutton 引入计算机科学。它的学习过程是非常类人的（Human-like）。如果说人工智能的终极目标是发展类人智能，我认为强化学习研究的问题比其他范式更本质。

同时，它也是一个非常综合的学科，涉及到控制理论、统计学、优化理论，对数理基础要求很高。这一点我也比较喜欢。

DeepTech：可以理解为你比较喜欢挑战难题、追求本质意义上的问题吗？

陈佳玉：关于挑战难题，这可能是我刚读博时的一个误区，认为最难的东西必定是最有用的东西。但我现在的 Philosophy 是不要单纯为了做难的问题而做难的问题。如果单纯为了挑战最难的问题而做研究，其实有点太自我了。我现在更倾向于从需求出发，从实用主义出发，用一个有用的技术，解决大家最想解决的问题，这才是做工程、做企业需要着力的点。

关于本质，我认为这也跟你想做的研究的最终目标有关系。我们最终要发展类人智能，所以我认为强化学习是一个有前景的方向，这是本质的。当然，做研究和做企业不同。做研究是追求用最简洁的方式解决最本质的问题。因为解决了本质问题，影响的点会很多，所以本质也是有用的一个方面。

DeepTech：你在 CMU 做核聚变控制是非常硬核的物理科学，现在做人形机器人拿水杯是日常生活场景。这两类问题在数学本质和决策逻辑上有什么异同？

陈佳玉：方法论是一样的。无论是基于真实交互数据，还是基于模拟器建模，从数学本质上讲，它们都可以建模成一个马尔可夫决策过程（MDP）。

拿到一个控制问题，你都需要定义三个项：观测是什么？动作是什么？如何评价动作的好坏？

核聚变过程和机器人拿水，都是高维、非线性的连续控制问题。传统控制方法很难解决，而强化学习的优势恰恰在于此。所以，它们底层的解题思路是通用的。

DeepTech：在这些阶段的经历中，对你影响比较大的人物是谁？

陈佳玉：最重要的人物是我的两位导师，Vanita Gawva 和Joshua Tendell。

我的博士导师 Vanita Gawva 习惯把所有问题映射到数学领域，用统计学或优化理论去解释。这让我学会从数学原理去思考算法的可行性，看透问题的本质。

我的博后导师 Joshua Rendell 则相反，他是一个在应用和工程上做得极好的人。从他身上我学到，解决工程问题最重要的是迭代，是根据需求不断调整。

我现在做研究，实际上是在尝试结合这两者：既要在理论上寻求突破，又要具备工程头脑，通过快速迭代去解决实际问题。

DeepTech：可否举一个具体场景，说明你如何结合两位导师身上学到的知识？

陈佳玉：我们正在计划做一些关于持续性强化学习的东西。持续性强化学习，是让人工智能具有持续学习新任务的能力，也就是让其在学习新任务的时候不忘掉旧任务，同时依托从旧任务中提取出的知识进行更好的学习。这是一个更类人的学习过程。

但它目前还只停留在理论阶段。要攻克这个问题，你既要在理论方面做出突破，同时在应用的时候又要应用很多工程上的技术。我们正在做的就是这样的事情，既在做持续性强化学习的算法，进行理论上的突破，同时又想尽快把它应用到机器人上。这个应用过程就会涉及很多工程上的迭代，这就是理论和工程的结合。

通用机器人是 AI 的珠穆朗玛峰

DeepTech：你现在一方面在港大做教职，一方面加入原力无限这家创业公司。为什么选择这种双栖模式？

陈佳玉：对于我来说，这两者是高度耦合的。我在公司也是做研究，方向和我在港大做的完全一致：通用家用机器人。

在香港做通用家用机器人研究面临三个独特的困境：第一是钱。买设备、买显卡、雇员工，这是千万级别的投入，光靠申请中期的 Funding 很难拿到；第二是地。在香港找一个 150 平米的实验室是非常非常难的事情。第三是算力。而在产业界，这些场地、人力、算力的支持都能得到解决。我们在原力无限成立了联合实验室，我负责的是原型机的研究，不涉及量产和推广。这本质上是研究能力和研究资源的互补。

DeepTech：为什么是原力无限？

陈佳玉：我觉得这是一个天时地利人和的选择。做具身智能研究，最大的痛点往往是缺乏真实的落地场景。原力无限最吸引我的，是它已经构建了一个从商业到技术的正向循环。FORCE 系列、MASTER COFFEE 系列以及轮式人形 AstroDroid AD-01 机器人在市场上的成功，证明了这家公司懂产品、懂商业，这为我们探索更前沿的通用智能提供了坚实的后盾。

此外，这个团队身上有一股Doer（实干家）的气质。在这里，不管是建设实验室还是攻克算法难题，决策链路非常短，执行效率非常高。这种纯粹的工程文化让我感到非常舒适。

更重要的是，我们达成了深度的技术共识。公司管理层对我给予了无保留的信任，我们都坚信：具身智能的未来在于一脑多身，在于通用的物理世界模型。所以我们为了同一个愿景——定义下一代具身智能——成为并肩作战的创业合伙人。这些都让我觉得，这就是我要找的地方。

DeepTech：为什么一定要做家用机器人？

陈佳玉：机器人学更像是人工智能技术的一个实验场。如果你想做一个通用的机器人，几乎要集齐 AI 领域所有的技术：CV、NLP、大模型、强化学习、控制理论、人机交互等等。而具身智能被认为是人工智能领域的珠穆朗玛峰，特别是人形机器人。

从落地场景看，商业场景天花板不高，而工业场景更需要追求效率的专用机器；唯独家庭场景，大家不希望洗碗搞个机器、洗衣搞个机器，而是希望有一个通用机器人。所以，我们决定攀登这座高峰。

DeepTech：你觉得和一些拥有更强大算力和资金的大厂相比，初创公司的机会和挑战在哪里？

陈佳玉：必须要找到一个落地的场景，并且做得比较专精才好。你如果去拼基础模型或者研究，可能都不会是大厂的对手。得有一条自己独有的研究道路，足够快的落地，足够的实用主义才行。

DeepTech：你觉得这个场景会先发生在哪里？

陈佳玉：我觉得短期来看应该会是在 B 端。因为 B 端的成功更多依赖于政策，现在鼓励人形机器人进工厂。但我们认为长期来看，更大的机会在 C 端，特别是进家庭。

工厂可以做各种异构的专用机器人来提升效率，但通用机器人铺展的空间不大；在家庭场景下，大家肯定不想说洗碗的时候有洗碗机机器人，洗衣服的时候使用洗衣服机器人——大家更希望家庭里能有一个通用机器人，来解决多种任务。所以我们认为长期来看，机会在 C 端。

世界模型需要以 Agent 为中心

DeepTech：你目前最想攻克的科学问题是什么？

陈佳玉：主要有两个方向，一是刚刚提到的持续性强化学习，另一个是以 Agent 为中心的世界模型。

持续性强化学习是针对现在的 AI 学完一个任务就忘了旧知识的问题而言的。针对一个持续的任务，我们希望 AI 能够在即使不知道下一个任务是什么的情况下，也能主动调动已有知识库快速学习，并且不遗忘。这是一个非常难的问题。

世界模型就是在解决一个更本质的问题。现在具身智能无非就两套方案，一个是叫 VLA（Vision-Language-Action），一个叫世界模型。VLA 怎么做？比如你教一个机器人拿杯子，就需要手把手教它：把一个人拿杯子的序列映射到机器人动作空间。

而世界模型会教会它背后的原理。我们会告诉它：你不把这个杯子拿紧，这个杯子就会掉在地上，而掉在地上就会碎。有了这个因果模型，机器人就能明白动作背后的原因，从而更好地泛化，比如把拿杯子的经验迁移到拿水壶上。这个机器人就可以从中学到，我是因为不想让这个杯子掉到地上，所以我要把这个杯子拿紧。

至于以 Agent 为中心的世界模型呢，现在大家做的世界模型（比如 Sora）很多是第三人称视角的，学的是通用的物理知识。但我们认为，世界模型是用来指挥智能体行为的。每个人心中都有一个自己的世界模型。所以我们想做强调以 Agent 为中心的建模。这两个方向，一个是抽象，一个是因果的建模，这是我们做世界模型和别人做世界模型不一样的点。

DeepTech：机器人需要像大模型做数学题那样去推理吗？

陈佳玉：这可能和大家的直觉不一样。我认为在执行任务的时候，是没有那么多时间进行推理的。比如洗衣服、洗碗，这些动作在熟练之后，更多像是一种肌肉记忆。它和用大模型解数学题不一样。

推理能力可能在学习阶段非常有帮助，能加速学习过程。但一旦学好之后，真正的执行过程是不大需要推理的。

DeepTech：你认为当下具身智能领域，最被高估和最被忽视的技术分别是什么？

陈佳玉：最被高估的是泛化性。现在很多 Paper 里宣称的泛化，往往是偶然的泛化——从 A 场景换到 B 场景的过程中碰巧能用。但这缺乏理论保证，如何获取可保证的泛化性，大家讨论得不够。

而最被忽视的是持续学习。如何做到持续学习而不遗忘？这是 Richard Sutton 和 Ilya Sutskever 最近都在提的难题，但因为技术路线不明朗，业界的讨论还比较少。

数据飞轮转起来的那一刻

DeepTech：你对未来五到十年具身智能这个行业发展有什么判断？

陈佳玉：我不太能给出时间判断，这是一件非常难的事情。现在技术的发展越来越脱离原来的摩尔定律。以前你可以根据摩尔定律做时间上的判断，比如每两年算力会增长三倍，但现在算力起的作用越来越弱了，所以说现在对时间上的判断其实是很难的。

但是我觉得它大概的路线是这样的：

第一阶段，机器人能够在特定的场景下实现任务之间的泛化，这个过程我感觉应该很快就会到来，大概两到三年吧。

下一个阶段就是推广和部署的阶段。因为机器人已经能在一个场景下可靠地执行多个任务了，后面就会是降本的阶段，会大量的推广部署。大量推广部署之后，机器人就会日夜不停地产生数据，积攒海量的数据。由此，我们就可以利用算法上的一些突破，以及这些海量的跨场景的数据，说不定可以得到跨场景的通用机器人，也就是场景泛化。所以我觉得大致会走一个从任务泛化推广部署，再到场景泛化的路线。

DeepTech：目前具身智能也缺乏统一的benchmark 和数据集，你觉得这个问题如何解决？

陈佳玉：数据问题的话，我认为初期可以依靠数据工厂，也是靠人类去采集。慢慢的可以依赖一些机器，比如用机器在数据工厂里面进行自动化的采集。其次，我认为终究是需要有真实的客户数据比如说有 1,000 台机器人部署到 1,000 个家庭里，它们夜以继日地产生数据，这将会是非常强劲的数据洪流。用更好的数据选更好的策略，用更好的策略产生更好的数据，就会形成正反馈的闭环。

实际上我认为通用机器人能不能落地，最关键的时间点就是数据飞轮什么时候开始转起来。

DeepTech：你认为机器人达到什么标准，才算可以安心部署给用户？

陈佳玉：标准就是是否能在特定场景中，长时间、稳定、有效率地完成多种任务。现在的难点在于长时间稳定。如果能做到这一点，哪怕是在单一场景下，我认为就是下一个里程碑。

先定义问题，再寻找资源

DeepTech：我注意到你 2024 年博士毕业之后，2025 年就成为了博导和首席科学家，也被贴上“少年天才科学家”的标签，你怎么看待这个标签？

陈佳玉：我个人认为这都不重要，我认为最重要的是，我是否解决了重要的问题，做出了重要的工作。以及我做这个方向是当前一个比较热门的方向。更重要的,还是说你能做出什么重要的工作来,标签不重要的。

DeepTech：在这个标签之下，你能不能给我们分享一些面对困难的时刻？

陈佳玉：其实做研究、特别是一个人做研究，它的试错成本是非常高的。我读博士期间经常是一个项目成功、一个项目失败，就这样交替进行。因为本质上做研究就是探索不同的路的过程。你要边探索边思考哪条路更好，就像走迷宫一样把那条路试出来。

但一个比较重要的点是，所有失败过程中锻炼的那些技能在之后都会用上。所以我认为最重要的就是，首先这是一个值得做的工作，其次你要有足够新的想法，最后还要有足够的坚持。我觉得这样最后结果总不会差的，无论这个事做成还是做不成。

DeepTech：你提到了要有比较足够新的想法和坚持，你会觉得这两个点对你来说是比较难完成的事情吗？很多人会觉得坚持听上去简单，但实际上做起来很难。

陈佳玉：现在做研究，特别是做人工智能研究，你可以得到大量很简单的想法，然后把它做成一篇论文，这样你能够很快把论文数量 build up 起来。但很多论文往往都不会造成什么影响，可能反而是那种比较新、比较重要的问题，花的时间成本会很高，人力成本会很高，失败风险也会很大。

这种时候你就得做一些抉择了，也会很难，因为你要忍受更大的不确定性。但这种问题一旦解决，它的影响也会更大一些。

DeepTech：一边是发文效率高但简单的 Idea，另一边是更重要但困难的新问题，你自己怎么去衡量和选择？

陈佳玉：我认为做科研的核心在于目标感，你要明确自己的阶段性目标和长远目标是什么。

所有与目标无关的事情其实都不那么重要。真正与目标相关的，可能也就是那么两三份核心工作，这才是需要花大力气、投入 80% 精力去做的。至于剩下 20% 的精力，我会留给那些不太相关但比较有趣的工作。这主要是基于现实考量：我们确实需要文章的数量。

这里存在一个视角的差异：作为 PI，我需要的是重要的文章。但作为学生，他们首先需要能让他们毕业的文章，以及在科研初期就能做出来、用来练手的文章。这类文章可能影响力有限，但对学生的学术生涯起步非常重要。

因此，我不能只看重那些影响很大的工作，而忽视那些相对简单的工作。两者都要兼顾，只要控制好比例即可。

DeepTech：作为年轻的博导，如果给想进入这个领域的学生或研究者一个建议，你会说什么？

陈佳玉：第一，先定义自己的研究问题。确保它足够重要，然后再进行深度研究。不要盲从，不要还没想清楚就动手；第二，找资源。在具身智能领域，资源（算力、设备、场景）不到位，你很难进行很好的研究。一定要尽量给自己找更多的资源支持。

如果年轻研究者在早期找不到真正的方向，或者无法判断哪些问题足够重要，我的建议是：多去研究领域内那些标杆性人物的思考方式。

这些顶尖学者通常都有自己的一套完整的研究体系，这是基于他们漫长的学术生涯沉淀下来的。去拆解和学习这些体系，是建立认知最直接的方式。

但要注意，学习不是盲从。你不能照搬某一个人，而是要多看、多想，博采众长。你需要结合自己的思考，先构建出自己的研究体系，然后再从这个体系中去推导和定义你的研究问题。通常来说，这是一个从体系到问题的过程。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.