![]()
![]()
近日,“2026智能机器人城市空间应用场景大会”在成都举行。会上,研究派专家代表,清华大学计算机科学与技术系教授、IEEE Fellow刘华平教授与实战派专家代表,成都市机器人产业协会副会长、越凡创新董事长兼CEO黄山,分别从理论前沿与产业实践的角度,发表了精彩的主题演讲。
本次大会在成都市相关政府机构及产业协会的共同指导与主办下,汇聚了政、产、学、研各界力量。本文将首先提炼刘华平教授的核心观点。
刘教授 认为,当前机器人智能受限于被动感知,需向主动“读懂”跨越。其核心路径是发展主动感知与具身智能,并通过融合多模态感知与构建世界模型,最终实现机器人对环境的深层理解与自主决策。
接下来,我们将继续分享实战派专家、成都市机器人产业协会副会长黄山从产业一线带来的实践洞察。
![]()
刘华平
IEEE Fellow、清华大学计算机科学与技术系教授
以下为刘华平教授演讲核心观点:
1.感知的本质差异在于:眼睛“看见”的是大脑选择的信息,而“读懂”则需要形成主动的认知与记忆。
2.真正的“读懂”需要实现两大跨越:预知行为后果,以及在视觉不可及处依然理解环境。
3.实现从“看见”到“读懂”的根本路径在于发展主动感知与具身智能。
4.具身智能依赖四大主动能力的协同:主动控制、主动感知、主动学习与主动协同。
5.机器人的形态设计应由任务与场景驱动,通过对抗、适应与进化学习动态形成,而非预先固定。
6.实现多机器人协同的关键,在于每个个体需具备“自知之明”,能主动识别自身短板并召唤外部协助。
7.单一视觉远远不够,必须融合多模态感知才能实现对物理世界的深度理解。
8.无人驾驶长达二十年的研究,其核心是持续解决“看不清、看不准、看不全”这一根本性感知挑战。
9.当前服务机器人的主要瓶颈并非感知硬件,而在于交互方式、动态环境理解与主动服务能力的系统性欠缺。
10.未来突破的关键在于发展“世界模型”,使机器人具备预见与评估行为后果的能力。
以下为刘华平教授演讲主要内容:
![]()
从“看见”到“读懂”的认知觉醒
我是从2000年开始从事机器人行业,到现在算下来25年了,这25年从某种意义来讲恰好是计算机视觉、机器人视觉,甚至包括整个机器人具身智能行业怎么从“看见”到“读懂”这个过程,反过来也影响了我对这个问题的思考和理解,今天简单给大家分享我对这个问题的理解。
我最早与自动驾驶结缘于2000年3月,当时正攻读博士学位,也是国内首批开展自动驾驶研究的团队之一。从纯粹的学术研究视角出发,那时我未曾预料到这项技术未来能真正融入日常生活。在实验车辆的后座上,我的主要职责是在紧急情况下启动安全开关,其余时间车辆均处于自主行驶状态。
国家重点实验室验收期间,我们为演示设计了一项直线行驶测试。过程中,一位身着白衣的院士专家对我们的测试方式提出质疑,并突然走向车道。幸运的是,试验车辆及时感知并规避了专家与其侧的自行车,顺利通过验收。这段视频也成为二十余年来保存下的唯一珍贵记录。
我之所以回看这段经历,是想说明:当时我们自认为已能够“读懂”环境、理解世界,但如今反思,那更多仍停留在“看见”的层面。尽管当时的机器人搭载了昂贵的视觉传感器、激光雷达与多套定位系统,实现的实则是对环境的被动感知,而非真正意义上的认知与理解。
什么叫读懂呢?可能不同的人有不同的理解。从个人做研究的角度理解,我觉得来自两方面。
第一,我们做每一个动作的时候,要能够知道我们下一步会产生什么样的后果,这才是真正读懂了这个事情,这是最重要的。第二,现在的计算机视觉和现在的摄像头只能捕捉我们能看到的东西,当我们看不到的时候怎么办,这时候机器人应该发挥作用——这正是“读懂”应当发挥作用的领域。
我自己有一个切身体会。在学校的车库,我的车要是稍微角度不对,杆是不会抬的它能够识别到车牌,但它有可能检测不到我的车牌,过不去。我在网上找了几个视频,可以非常简单地骗过摄像头,但是有些时候我们的车想过去的时候我们反而过不去,这个时候我们能说没有看见吗?其实是看见了,但是我们并没有真正读懂我们能够干什么。
第二,在视觉不可及之处,能否借助机器人实现环境理解,才是技术应努力的方向。
其实我们看到很多消费级的商品已通过交互设计模拟“读懂”体验以提升用户体验,比如大家每天在用的微信二维码。大家并不需要理解二维码本身的内容,但在扫码过程中,二维码会逐渐地放大,好像它正在逐渐向你走来一样,动态放大的动画给予我们“系统正逐渐识别”的明确反馈,从而营造出流畅的认知体验。这个过程的用户体验非常好,虽然本身并不对识别带来本质的帮助。
这就是我二十多年里,研究机器人,研究计算机视觉的非常重要的领域,我们把它叫做主动感知,主动感知能够帮助我们从“看见”到“读懂”。为什么呢?
![]()
主动与具身是实现跨越的关键
从哲学上讲我们有一句很有名的话叫做“眼睛看到的事实其实是大脑想让你看到的东西”。我们不要自己骗自己,实际上你看到的东西就是大脑想让你看到的东西。大脑不想让你看到的东西,你是记不住的,你看了等于没看。这是我们从感知到认知之间最大的差异,也是从看见到读懂之间最大的差异。
所以我们一直有一个观点,从看见到读懂里面有很多种不同的途径到道路,但主动是这里面最重要的一条必由之路。
![]()
图1.“主动”是从“看见”到“读懂”的必由之路
举个简单例子,在目前的监控系统里每个小区都有大量的摄像头,但是很多摄像头它是固定的,当出现了事故、出现了状况之后,我们只能事后分析,而不能在当场感知它,去测量它。
这个问题的根源在哪里呢?如果去追本溯源,去寻找计算机视觉、寻找机器人的根源,其实我们可以上溯到上个世纪(1966年)。计算机视觉的诞生源自一位有名的教授给他的学生说了一句话,让他在一个月之内能够让机器人利用计算机视觉的技术去抓取场景里面的一块东西,在这个时候大家真正意识到了什么叫做真正的智能机器人。但是可惜的是这个领域出现之后大家很快分成两个不同的学派,一个叫计算机视觉,一个叫做智能机器人。这两个学派在1994年“打过一次仗”,在一个很有名国际期刊上发表过一次“论战”,这场“论战”就意味着通用视觉或者是专用视觉或者是目的性视觉之间的交锋。这次交锋非常激烈,交锋的结果很惨烈,几乎是计算机视觉占了主导。所以从1994到现在,从我上学时候一直到前不久,很长一段时间我们的人工智能、计算机视觉都是沿着这条路径发展的。
感知,理解。
当前,在互联网所提供的大规模数据与多样化算力的支撑下,我们能够实现从模式识别、机器学习到基础模型乃至多模态融合等一系列技术突破。这一技术体系,正构成了我们称之为计算机视觉或感知理解的核心发展路径。
但一方面,搞机器人的人真正关注的是什么?关注的是感知和行为,关注的是物理世界。所以我们在这里面发表出了视觉测量、视觉导航,我们也有多模态,我们的多模态指的是视觉、触觉、听觉、雷达、红外,这两条线索在很长时间内是相对独立的,一直到2018年,大家重新审视,机器人和计算机视觉是不是应该重新回归到一起,形成我们真正在客观物理世界里能够灵活主动的一种模式,就是具身智能。所以今天所提的具身智能,其实我理解,它的最核心最本质的根基其实就在于我们的主动感知,它能够把我们静态的视觉和动态的物理世界有机的融合起来,来形成关于整个对物理世界的感知和理解。
在解决这个问题的过程中我们面临很多障碍,最大的障碍是莫拉维克悖论。上个世纪80年代中期,两位机器人科学家留给我们一句话,电脑像成人般的下棋相对容易,但要让电脑像一岁的小孩般的感知和行动非常难。所以我们现在看到的人工智能可以下棋,可以写诗,可以作画,但是在行走在操作甚至在很多感知问题上依然离人还有很远的距离。这恰巧就是我们从看见到读懂过程中最应该去关注的问题,这个问题涉及到我们今天所讨论非常重要的研究方向,就是具身人工智能。
具身人工智能大家讨论非常多,各人理解不同。我们一直坚信具身智能本质上是用身体,它一定有一个物理的身体,利用这个身体,利用感知和行动,在和环境交互过程中产生智能。
我们关注过一篇心理学的文献,里面提到关于人具身认知的六个维度,翻译成计算机研究人员的话,可以总结为:多模态感知、持续学习、物理交互、灵活探索、社交模仿以及语言学习。一会儿会稍微展开介绍,这几条线索如何指导我们开展现有的研究工作。
进一步分析可发现,上述维度主要涉及形态、行为、感知与学习四个核心要素,它们分别对应不同学科的研究重点:形态属于机械领域,行为属于自动化控制,感知属于计算机科学,学习则属于人工智能范畴。而在具身智能的框架下,真正关键的是这四个要素的协同增效——任何一个专业都无法独立解决具身智能的根本问题。
![]()
图2.具身智能是形态、行为、感知与学习的协同增效
![]()
四大主动能力驱动具身智能
因此,我们构建了一套体系架构,将国际上近期具身智能相关研究置于该框架下进行梳理分析,可以看到,他们确实在践行形态、行为、感知和学习之间不同箭头的关系。整体而言,该领域无论在研究、开发乃至产业化方面,仍存在广阔的发展空间。
那么,这片领域的空白,以及它正的创新点在什么地方?核心在于主动。我们可以用主动的方式帮助我们做控制,用主动的方式做学习、做感知,甚至做净化,而现有的方法更多是被动的、离散的,或者说静态的方式去解决问题。这也是我们近年来一直在开展具身智能过程中的一个角度,希望能用主动的方式解决我们所面临的一系列问题。
![]()
图3.具身智能是形态、行为、感知与学习的协同增效(2)
可以看看主动到底能为我们做什么呢?
举个简单例子,在计算机视觉领域中,无人驾驶系统通常将摄像头固定在车上,随车辆移动进行实时环境检测,但这种模式往往无法主动寻找从未见过的事物。而另一种路径则是——即便是一根结构简单的机械臂,在复杂环境中找不到目标时,也会主动利用自身的形态与行为来辅助感知、促进学习。这种行为已超出传统意义上的“感知”,我们更倾向于称之为“发现”。
从学习角度来看,现在的机器学习都是静态的、被动的、离散的,说白了就像是填鸭式学习,我们希望做到的是具身地学习,主动地、创造性地、自发地学习,控制、优化等都可以做到。这些是一些概念性阐述,我们自己也在开展相关的研究工作,所以我们一直坚信,主动是实现具身智能的灵魂性要素。因为它能帮助我们实现主动控制,当我们帮助人形机器人学习一个策略的时候,我们现在看到的只是人形机器人多么复杂,自由度多么高,我们是不是可以想象一下,人形机器人为什么要做成这样一种样子?为什么要具备这么多自由度?它是不是能为我们的学习带来好处,而不是把它当成一个负担。
![]()
图4.“主动”是具身智能的“灵魂”
因此,我们可以充分利用人形机器人的形态特点,从而简化所需的控制信号与控制结构。实际中可见,即便采用非常简单的控制信号,也能有效推动人形机器人在训练过程中快速掌握动作与任务。
其次在于主动感知。当机器人在实际环境中未能直接发现目标时,并不意味着任务终结——恰恰相反,这正是其自主探索的开始。它需要在环境中进行搜寻与探索,直至最终定位目标。
主动学习也是如此。现有机器人的形态通常在初始阶段便被固定下来,此后不再改变,但这并非最优方案。机器人到底应该长什么样,不应该由人说了算,而是应该由任务说了算,应该由场景说了算。通过对抗、适应、发育与进化学习等方式,在交互中逐渐形成最合适的形态,而不是说我觉得它是什么样就是什么样,这本质上是一个由场景与任务驱动的主动学习过程。
此外还有主动协同。如今机器人日益普及且成本降低,每个实验室、每个房间都可以部署多个机器人。这些机器人往往接口不一、形态各异、能力不同,如何使它们有效协同?最重要的是让每个机器人能够识别自身短板,并在能力不足时主动召唤可协助它的其他机器人。这才是我们真正在协同里面引入主动的思路。目前,我们已在此方向开展了一些初步的研究工作。
在主动感知的基础上,下一步应着力解决感知能力的多维融合问题。当前机器人系统的短板往往并非缺乏主动性,而在于感知维度与理解深度的不足——主动性主要优化了时间维度的响应效率,但在空间与环境理解层面,仅依赖视觉是远远不够的。尽管如今机器人普遍集成了激光雷达、超声波、红外、触觉及视觉等多种传感器,随之而来的核心挑战是如何实现多模态信息的真正融合与协同理解。
从具身智能的维度来看,在建立物理交互与灵活探索的机制后,我们应着重关注多模态感知与持续学习。因此,我们需要在现有机器人系统中引入更丰富的感知模态,从而实现对环境的深度理解——正如人类并非仅依赖视觉来认知世界一样。围绕这一方向,我们也已开展了一些初步研究工作,接下来可以对此进行简要介绍。
![]()
从技术突破到场景落地实践
我们重点通过动作与行为来融合多模态信息,包括面向无人驾驶的光学、红外与雷达数据,以及面向灵巧操作的视觉、触觉、听觉等与物理世界的主动匹配,实现了感知、动作与语言的联合对齐。基于此,我们具体开发了具身语音描述、语音融合、多模态感知以及具身问答等一系列系统,并在无人驾驶场景中开展应用。我们在无人驾驶领域的研究始于2002年,持续至今,其核心始终围绕解决“看不清、看不准、看不全”的问题——而这正是依赖主动感知与多模态融合共同实现的。
与此同时,围绕上述问题,我们也突破了相关关键技术,其核心在于如何更有效地利用多模态信息,以及如何以主动方式适应复杂动态环境。
基于上述研究,我们进一步将工作拓展至空中领域,开展了异构飞行汽车等前沿探索。比如,多个形态功能各异的机器人可在室内实现协同作业:当某个机器人发现自身无法独立完成某项任务时,能够通过语音信号主动召唤其他机器人协助完成。这项研究也充分体现了多模态融合与主动协同的核心思想。
基于以上研究,我们进一步追问:在多模态主动感知实现之后,下一步应当走向何方?当前的研究多围绕特定任务展开,而更关键的是,机器人能否根据任务的变化,灵活地调整自身形态与行为,以应对多样、动态的任务需求。这些任务从何而来?根本上来源于人的指令。人可以通过语言告知机器人该做什么,但目前大多数机器人仍缺乏高效的自然交互能力。
从研究框架上看,我们需要引入另外两个关键维度:社交模仿与语言学习。这也正是当前业界积极将语言大模型融入具身智能的重要原因。大模型不仅能帮助机器人进行任务规划与场景化决策,更能推动人机交互迈向自然化、智能化。我们团队最近发布的VRV基础模型,正是致力于强化语言在交互中的作用,从而提升机器人与人之间的协作效率与适应性。
在此我们引用一篇专门探讨服务机器人需具备多少主动性的文章,其中总结了当前机器人在交互方式、动态环境适应与主动服务能力等方面的明显不足,这也正是我们持续攻关的方向。
以动态环境适应为例:酒店服务机器人虽能便捷地将物品送至房间,但它所识别的是“房间”而非“你”本人。若你更换房间,机器人并无法感知这一变化。如何让它真正理解“找人”而非“找房间”?这需要通过自然交流与交互来实现——而这正是语言大模型能够发挥作用的地方。再如办公室中的助理机器人,当它无法独立完成某项任务时,不应就此停止,而应主动思考:“如果我自己做不到,能否询问他人或其他机器人协助?”这种主动行为能力,才能使机器人成为真正“眼里有活”的助手,而非仅按指令行事的机械工具。这都是我们希望能够做到的。
![]()
迈向具备后果预见的世界模型
最后简要总结:无论是从“看见”到“读懂”的跨越,还是对具身智能的探索,我们观察到行业中主要存在三类不同的态度。最受关注的是前沿性进展,许多创业公司和高校团队正聚焦于这一领域开展具身智能的前沿研究;令人欣喜的是,中间的新兴领域也有越来越多企业(例如越凡创新)对具身智能表现出强烈兴趣,并积极将主动感知、具身交互等关键技术应用于自身行业;相对而言,传统行业(如工业机器人“四大家族”)对具身智能仍持保守态度。有时候我跟团队开玩笑,等传统行业都对具身智能开始感兴趣了,就没我们的机会了,所以现在的机会正是恰逢其时。
顺着最后那个问题,谈谈我们的研究思路:当大模型与智能体技术已经用得差不多的时候,我们的下一步是什么?具身智能的六大要素仿佛已经被我们用得差不多了,是不是所有的具身智能问题都已经解决了?并没有。回头看看具身智能里面最重要的一个要素,和环境实现交互,这是最最核心的问题,这个问题并没有得到很好地解决。
如何解决这个问题呢?我们需要让机器具备对行为后果的预见与评估能力。回顾此前两个案例:机器人能够忠实地执行当前指令,却往往不会考虑行为可能带来的后果。正如网络上一幅图所喻示的:一个成年人不会贸然拉开那扇(装满碗碟的)柜门,但儿童或机器人却可能因缺乏后果认知而直接行动。如何让机器拥有这种“考虑后果”的能力?这是现在的机器学习以及现在的机器人很难完成的任务,这是我们的下一站,也是正在拓展的研究方向——世界模型。世界模型也是为下一步真正从看见到读懂的一个重要的技术途径,以后有机会再跟大家分享。
© Copyright
雨前顾问原创作品 | 未经授权请勿转载 | 欢迎分享朋友圈
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.