网易首页 > 网易号 > 正文 申请入驻

对话陈佳玉:从核聚变到机器人,是攀登AI珠峰的过程

0
分享至



本科毕业于北大工学院,早期研究聚焦于自动驾驶;博士后期间在卡内基梅隆大学,利用强化学习解决核聚变反应堆控制问题。陈佳玉的科研生涯,始终围绕着复杂系统的智能控制展开。

2025 年,陈佳玉开启了全新的阶段:他同时担任博导与原力无限资深研究科学家,研究对象从核聚变转向了通用家用机器人。他试图结合学术界的理论深度与产业界的工程资源,寻找通往通用智能的路径。

在本次专访中,陈佳玉回应了关于“天才少年”标签、中美科研环境差异以及具身智能落地路径等话题。他认为,标签并不重要,重要的是能否精准地定义研究问题,并在有限的资源下找到最优解。

核聚变与机器人,在数学本质上是一样的


DeepTech:回望你的学术生涯,从自动驾驶到强化学习理论,再到核聚变控制,最后回归具身智能。每一次方向转变背后的逻辑是什么?

陈佳玉:我刚开始做科研是从技术角度出发的。起初做自动驾驶的感知,后来做决策,自然而然地接触到了强化学习。博士阶段,我希望能把这个方向做深,于是转向了偏理论和算法的设计,暂时与具体应用解绑。

到了博后阶段,我又想把算法重新落地到应用层面。无论是核聚变里的等离子体控制,还是具身智能里的机器人控制,本质上都是用强化学习去求解复杂的控制问题。一旦锁定了强化学习这个方向,我就一直在沿着它做。

DeepTech:为什么对强化学习这么情有独钟?

陈佳玉:强化学习起源于认知科学,后来经由 Richard Sutton 引入计算机科学。它的学习过程是非常类人的(Human-like)。如果说人工智能的终极目标是发展类人智能,我认为强化学习研究的问题比其他范式更本质。

同时,它也是一个非常综合的学科,涉及到控制理论、统计学、优化理论,对数理基础要求很高。这一点我也比较喜欢。

DeepTech:可以理解为你比较喜欢挑战难题、追求本质意义上的问题吗?

陈佳玉:关于挑战难题,这可能是我刚读博时的一个误区,认为最难的东西必定是最有用的东西。但我现在的 Philosophy 是不要单纯为了做难的问题而做难的问题。如果单纯为了挑战最难的问题而做研究,其实有点太自我了。我现在更倾向于从需求出发,从实用主义出发,用一个有用的技术,解决大家最想解决的问题,这才是做工程、做企业需要着力的点。

关于本质,我认为这也跟你想做的研究的最终目标有关系。我们最终要发展类人智能,所以我认为强化学习是一个有前景的方向,这是本质的。当然,做研究和做企业不同。做研究是追求用最简洁的方式解决最本质的问题。因为解决了本质问题,影响的点会很多,所以本质也是有用的一个方面。

DeepTech:你在 CMU 做核聚变控制是非常硬核的物理科学,现在做人形机器人拿水杯是日常生活场景。这两类问题在数学本质和决策逻辑上有什么异同?

陈佳玉:方法论是一样的。无论是基于真实交互数据,还是基于模拟器建模,从数学本质上讲,它们都可以建模成一个马尔可夫决策过程(MDP)。

拿到一个控制问题,你都需要定义三个项:观测是什么?动作是什么?如何评价动作的好坏?

核聚变过程和机器人拿水,都是高维、非线性的连续控制问题。传统控制方法很难解决,而强化学习的优势恰恰在于此。所以,它们底层的解题思路是通用的。

DeepTech:在这些阶段的经历中,对你影响比较大的人物是谁?

陈佳玉:最重要的人物是我的两位导师,Vanita Gawva 和Joshua Tendell。

我的博士导师 Vanita Gawva 习惯把所有问题映射到数学领域,用统计学或优化理论去解释。这让我学会从数学原理去思考算法的可行性,看透问题的本质。

我的博后导师 Joshua Rendell 则相反,他是一个在应用和工程上做得极好的人。从他身上我学到,解决工程问题最重要的是迭代,是根据需求不断调整。

我现在做研究,实际上是在尝试结合这两者:既要在理论上寻求突破,又要具备工程头脑,通过快速迭代去解决实际问题。

DeepTech:可否举一个具体场景,说明你如何结合两位导师身上学到的知识?

陈佳玉:我们正在计划做一些关于持续性强化学习的东西。持续性强化学习,是让人工智能具有持续学习新任务的能力,也就是让其在学习新任务的时候不忘掉旧任务,同时依托从旧任务中提取出的知识进行更好的学习。这是一个更类人的学习过程。

但它目前还只停留在理论阶段。要攻克这个问题,你既要在理论方面做出突破,同时在应用的时候又要应用很多工程上的技术。我们正在做的就是这样的事情,既在做持续性强化学习的算法,进行理论上的突破,同时又想尽快把它应用到机器人上。这个应用过程就会涉及很多工程上的迭代,这就是理论和工程的结合。

通用机器人是 AI 的珠穆朗玛峰

DeepTech:你现在一方面在港大做教职,一方面加入原力无限这家创业公司。为什么选择这种双栖模式?

陈佳玉:对于我来说,这两者是高度耦合的。我在公司也是做研究,方向和我在港大做的完全一致:通用家用机器人。

在香港做通用家用机器人研究面临三个独特的困境:第一是钱。买设备、买显卡、雇员工,这是千万级别的投入,光靠申请中期的 Funding 很难拿到;第二是地。在香港找一个 150 平米的实验室是非常非常难的事情。第三是算力。而在产业界,这些场地、人力、算力的支持都能得到解决。我们在原力无限成立了联合实验室,我负责的是原型机的研究,不涉及量产和推广。这本质上是研究能力和研究资源的互补。

DeepTech:为什么是原力无限?

陈佳玉:我觉得这是一个天时地利人和的选择。做具身智能研究,最大的痛点往往是缺乏真实的落地场景。原力无限最吸引我的,是它已经构建了一个从商业到技术的正向循环。FORCE 系列、MASTER COFFEE 系列以及轮式人形 AstroDroid AD-01 机器人在市场上的成功,证明了这家公司懂产品、懂商业,这为我们探索更前沿的通用智能提供了坚实的后盾。

此外,这个团队身上有一股Doer(实干家)的气质。在这里,不管是建设实验室还是攻克算法难题,决策链路非常短,执行效率非常高。这种纯粹的工程文化让我感到非常舒适。

更重要的是,我们达成了深度的技术共识。公司管理层对我给予了无保留的信任,我们都坚信:具身智能的未来在于一脑多身,在于通用的物理世界模型。所以我们为了同一个愿景——定义下一代具身智能——成为并肩作战的创业合伙人。这些都让我觉得,这就是我要找的地方。

DeepTech:为什么一定要做家用机器人?

陈佳玉:机器人学更像是人工智能技术的一个实验场。如果你想做一个通用的机器人,几乎要集齐 AI 领域所有的技术:CV、NLP、大模型、强化学习、控制理论、人机交互等等。而具身智能被认为是人工智能领域的珠穆朗玛峰,特别是人形机器人。

从落地场景看,商业场景天花板不高,而工业场景更需要追求效率的专用机器;唯独家庭场景,大家不希望洗碗搞个机器、洗衣搞个机器,而是希望有一个通用机器人。所以,我们决定攀登这座高峰。

DeepTech:你觉得和一些拥有更强大算力和资金的大厂相比,初创公司的机会和挑战在哪里?

陈佳玉:必须要找到一个落地的场景,并且做得比较专精才好。你如果去拼基础模型或者研究,可能都不会是大厂的对手。得有一条自己独有的研究道路,足够快的落地,足够的实用主义才行。

DeepTech:你觉得这个场景会先发生在哪里?

陈佳玉:我觉得短期来看应该会是在 B 端。因为 B 端的成功更多依赖于政策,现在鼓励人形机器人进工厂。但我们认为长期来看,更大的机会在 C 端,特别是进家庭。

工厂可以做各种异构的专用机器人来提升效率,但通用机器人铺展的空间不大;在家庭场景下,大家肯定不想说洗碗的时候有洗碗机机器人,洗衣服的时候使用洗衣服机器人——大家更希望家庭里能有一个通用机器人,来解决多种任务。所以我们认为长期来看,机会在 C 端。

世界模型需要以 Agent 为中心

DeepTech:你目前最想攻克的科学问题是什么?

陈佳玉:主要有两个方向,一是刚刚提到的持续性强化学习,另一个是以 Agent 为中心的世界模型。

持续性强化学习是针对现在的 AI 学完一个任务就忘了旧知识的问题而言的。针对一个持续的任务,我们希望 AI 能够在即使不知道下一个任务是什么的情况下,也能主动调动已有知识库快速学习,并且不遗忘。这是一个非常难的问题。

世界模型就是在解决一个更本质的问题。现在具身智能无非就两套方案,一个是叫 VLA(Vision-Language-Action),一个叫世界模型。VLA 怎么做?比如你教一个机器人拿杯子,就需要手把手教它:把一个人拿杯子的序列映射到机器人动作空间。

而世界模型会教会它背后的原理。我们会告诉它:你不把这个杯子拿紧,这个杯子就会掉在地上,而掉在地上就会碎。有了这个因果模型,机器人就能明白动作背后的原因,从而更好地泛化,比如把拿杯子的经验迁移到拿水壶上。这个机器人就可以从中学到,我是因为不想让这个杯子掉到地上,所以我要把这个杯子拿紧。

至于以 Agent 为中心的世界模型呢,现在大家做的世界模型(比如 Sora)很多是第三人称视角的,学的是通用的物理知识。但我们认为,世界模型是用来指挥智能体行为的。每个人心中都有一个自己的世界模型。所以我们想做强调以 Agent 为中心的建模。这两个方向,一个是抽象,一个是因果的建模,这是我们做世界模型和别人做世界模型不一样的点。

DeepTech:机器人需要像大模型做数学题那样去推理吗?

陈佳玉:这可能和大家的直觉不一样。我认为在执行任务的时候,是没有那么多时间进行推理的。比如洗衣服、洗碗,这些动作在熟练之后,更多像是一种肌肉记忆。它和用大模型解数学题不一样。

推理能力可能在学习阶段非常有帮助,能加速学习过程。但一旦学好之后,真正的执行过程是不大需要推理的。

DeepTech:你认为当下具身智能领域,最被高估和最被忽视的技术分别是什么?

陈佳玉:最被高估的是泛化性。现在很多 Paper 里宣称的泛化,往往是偶然的泛化——从 A 场景换到 B 场景的过程中碰巧能用。但这缺乏理论保证,如何获取可保证的泛化性,大家讨论得不够。

而最被忽视的是持续学习。如何做到持续学习而不遗忘?这是 Richard Sutton 和 Ilya Sutskever 最近都在提的难题,但因为技术路线不明朗,业界的讨论还比较少。

数据飞轮转起来的那一刻

DeepTech:你对未来五到十年具身智能这个行业发展有什么判断?

陈佳玉:我不太能给出时间判断,这是一件非常难的事情。现在技术的发展越来越脱离原来的摩尔定律。以前你可以根据摩尔定律做时间上的判断,比如每两年算力会增长三倍,但现在算力起的作用越来越弱了,所以说现在对时间上的判断其实是很难的。

但是我觉得它大概的路线是这样的:

第一阶段,机器人能够在特定的场景下实现任务之间的泛化,这个过程我感觉应该很快就会到来,大概两到三年吧。

下一个阶段就是推广和部署的阶段。因为机器人已经能在一个场景下可靠地执行多个任务了,后面就会是降本的阶段,会大量的推广部署。大量推广部署之后,机器人就会日夜不停地产生数据,积攒海量的数据。由此,我们就可以利用算法上的一些突破,以及这些海量的跨场景的数据,说不定可以得到跨场景的通用机器人,也就是场景泛化。所以我觉得大致会走一个从任务泛化推广部署,再到场景泛化的路线。

DeepTech:目前具身智能也缺乏统一的benchmark 和数据集,你觉得这个问题如何解决?

陈佳玉:数据问题的话,我认为初期可以依靠数据工厂,也是靠人类去采集。慢慢的可以依赖一些机器,比如用机器在数据工厂里面进行自动化的采集。其次,我认为终究是需要有真实的客户数据比如说有 1,000 台机器人部署到 1,000 个家庭里,它们夜以继日地产生数据,这将会是非常强劲的数据洪流。用更好的数据选更好的策略,用更好的策略产生更好的数据,就会形成正反馈的闭环。

实际上我认为通用机器人能不能落地,最关键的时间点就是数据飞轮什么时候开始转起来。

DeepTech:你认为机器人达到什么标准,才算可以安心部署给用户?

陈佳玉:标准就是是否能在特定场景中,长时间、稳定、有效率地完成多种任务。现在的难点在于长时间稳定。如果能做到这一点,哪怕是在单一场景下,我认为就是下一个里程碑。


先定义问题,再寻找资源

DeepTech:我注意到你 2024 年博士毕业之后,2025 年就成为了博导和首席科学家,也被贴上“少年天才科学家”的标签,你怎么看待这个标签?

陈佳玉:我个人认为这都不重要,我认为最重要的是,我是否解决了重要的问题,做出了重要的工作。以及我做这个方向是当前一个比较热门的方向。更重要的,还是说你能做出什么重要的工作来,标签不重要的。

DeepTech:在这个标签之下,你能不能给我们分享一些面对困难的时刻?

陈佳玉:其实做研究、特别是一个人做研究,它的试错成本是非常高的。我读博士期间经常是一个项目成功、一个项目失败,就这样交替进行。因为本质上做研究就是探索不同的路的过程。你要边探索边思考哪条路更好,就像走迷宫一样把那条路试出来。

但一个比较重要的点是,所有失败过程中锻炼的那些技能在之后都会用上。所以我认为最重要的就是,首先这是一个值得做的工作,其次你要有足够新的想法,最后还要有足够的坚持。我觉得这样最后结果总不会差的,无论这个事做成还是做不成。

DeepTech:你提到了要有比较足够新的想法和坚持,你会觉得这两个点对你来说是比较难完成的事情吗?很多人会觉得坚持听上去简单,但实际上做起来很难。

陈佳玉:现在做研究,特别是做人工智能研究,你可以得到大量很简单的想法,然后把它做成一篇论文,这样你能够很快把论文数量 build up 起来。但很多论文往往都不会造成什么影响,可能反而是那种比较新、比较重要的问题,花的时间成本会很高,人力成本会很高,失败风险也会很大。

这种时候你就得做一些抉择了,也会很难,因为你要忍受更大的不确定性。但这种问题一旦解决,它的影响也会更大一些。

DeepTech:一边是发文效率高但简单的 Idea,另一边是更重要但困难的新问题,你自己怎么去衡量和选择?

陈佳玉:我认为做科研的核心在于目标感,你要明确自己的阶段性目标和长远目标是什么。

所有与目标无关的事情其实都不那么重要。真正与目标相关的,可能也就是那么两三份核心工作,这才是需要花大力气、投入 80% 精力去做的。至于剩下 20% 的精力,我会留给那些不太相关但比较有趣的工作。这主要是基于现实考量:我们确实需要文章的数量。

这里存在一个视角的差异:作为 PI,我需要的是重要的文章。但作为学生,他们首先需要能让他们毕业的文章,以及在科研初期就能做出来、用来练手的文章。这类文章可能影响力有限,但对学生的学术生涯起步非常重要。

因此,我不能只看重那些影响很大的工作,而忽视那些相对简单的工作。两者都要兼顾,只要控制好比例即可。

DeepTech:作为年轻的博导,如果给想进入这个领域的学生或研究者一个建议,你会说什么?

陈佳玉:第一,先定义自己的研究问题。确保它足够重要,然后再进行深度研究。不要盲从,不要还没想清楚就动手;第二,找资源。在具身智能领域,资源(算力、设备、场景)不到位,你很难进行很好的研究。一定要尽量给自己找更多的资源支持。

如果年轻研究者在早期找不到真正的方向,或者无法判断哪些问题足够重要,我的建议是:多去研究领域内那些标杆性人物的思考方式。

这些顶尖学者通常都有自己的一套完整的研究体系,这是基于他们漫长的学术生涯沉淀下来的。去拆解和学习这些体系,是建立认知最直接的方式。

但要注意,学习不是盲从。你不能照搬某一个人,而是要多看、多想,博采众长。你需要结合自己的思考,先构建出自己的研究体系,然后再从这个体系中去推导和定义你的研究问题。通常来说,这是一个从体系到问题的过程。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
阵风6、7级!大风、寒潮双预警中!明起,气温开始变化——

阵风6、7级!大风、寒潮双预警中!明起,气温开始变化——

石景山区新媒体
2026-02-07 16:05:58
真敢说话!上海代表建议:网约车平台抽成必须卡死在10%以内!

真敢说话!上海代表建议:网约车平台抽成必须卡死在10%以内!

达文西看世界
2026-02-07 18:53:49
在科技浪潮中寻找锚点

在科技浪潮中寻找锚点

大何日拱一卒
2026-02-06 23:10:33
从明年开始,65岁以上老人的免费体检彻底变样。

从明年开始,65岁以上老人的免费体检彻底变样。

南权先生
2026-02-07 15:49:40
英语没有130,数学没有120,语文没有110分,基本无缘985、211

英语没有130,数学没有120,语文没有110分,基本无缘985、211

好爸育儿
2026-02-07 19:24:33
中国航天重大损失,实践三十二号发射失利,中国航天开年遇挫!

中国航天重大损失,实践三十二号发射失利,中国航天开年遇挫!

阿龙聊军事
2026-01-18 20:27:20
特朗普宣布对华25%关税,打破贸易休战决定不可更改

特朗普宣布对华25%关税,打破贸易休战决定不可更改

阿代说事
2026-02-07 19:34:02
解放军与印军同框出镜,火遍海外,印度网民破防:印军咋像流浪汉

解放军与印军同框出镜,火遍海外,印度网民破防:印军咋像流浪汉

失我者永失qq
2026-02-05 03:35:11
灰熊内线无人可用!开拓者先发中锋轻轻松松刷出了豪华数据?

灰熊内线无人可用!开拓者先发中锋轻轻松松刷出了豪华数据?

稻谷与小麦
2026-02-08 02:33:15
近五年跌得最惨的10只中字头股票,有的区间跌幅超90%!

近五年跌得最惨的10只中字头股票,有的区间跌幅超90%!

财经智多星
2026-02-07 19:44:05
高人预测:不出意外,中国超50%人口,未来将流入这几座城市

高人预测:不出意外,中国超50%人口,未来将流入这几座城市

巢客HOME
2026-02-08 00:25:03
巴拿马法院废了合同,长和还在码头干活,这事儿怎么收场?

巴拿马法院废了合同,长和还在码头干活,这事儿怎么收场?

小虎新车推荐员
2026-02-07 20:32:02
湖南省委书记:动真格,坚决纠治躺平摆烂、层层甩锅、当“老好人”等现象

湖南省委书记:动真格,坚决纠治躺平摆烂、层层甩锅、当“老好人”等现象

新京报政事儿
2026-02-07 21:34:27
华裔二、三代为啥越来越不像中国人?餐桌与阳光能重塑东方面孔?

华裔二、三代为啥越来越不像中国人?餐桌与阳光能重塑东方面孔?

向航说
2026-02-06 00:20:03
莱纳德31分9板7助攻快船送国王11连败,科林斯22分7篮板

莱纳德31分9板7助攻快船送国王11连败,科林斯22分7篮板

湖人崛起
2026-02-07 13:40:08
当周涛和李雪琴同台主持,一个全裹一个暴露,才懂穿着得体多重要

当周涛和李雪琴同台主持,一个全裹一个暴露,才懂穿着得体多重要

青橘罐头
2026-02-07 09:27:14
杨瀚森复出2+1!开拓者逆转灰熊终结6连败 夏普伤退格兰特23分

杨瀚森复出2+1!开拓者逆转灰熊终结6连败 夏普伤退格兰特23分

醉卧浮生
2026-02-07 13:19:05
冬奥羽绒服哪家强?中国穿李宁、美国拉夫劳伦、加拿大Lululemon

冬奥羽绒服哪家强?中国穿李宁、美国拉夫劳伦、加拿大Lululemon

商务范
2026-02-07 15:47:10
《自然》:我们已造出了神,只是还没敢给它命名!你怕了吗?

《自然》:我们已造出了神,只是还没敢给它命名!你怕了吗?

徐德文科学频道
2026-02-05 21:50:48
这个一妻多夫制的民族,晚上怎么过?女人直言:简直就是受罪

这个一妻多夫制的民族,晚上怎么过?女人直言:简直就是受罪

晨光苏醒a
2026-02-05 19:17:21
2026-02-08 03:03:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16235文章数 514593关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费 多方发声

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费 多方发声

体育要闻

主队球迷唯一爱将,说自己不该在NBA打球

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

时尚
教育
房产
本地
艺术

今日热点:《惊蛰无声》终极预告;韩国翻拍《解忧杂货店》……

教育要闻

高考地理中的数字产业

房产要闻

新春三亚置业,看过这个热盘再说!

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

艺术要闻

这些女性在俄罗斯摄影师镜头下,魅力四射!

无障碍浏览 进入关怀版