招商局张家兴提出人工智能三大核心信仰：端到端、探索式学习与自然语言价值发现|机器人|智能体|神经网络|空间智能|招商局集团

招商局张家兴提出人工智能三大核心信仰：端到端、探索式学习与自然语言价值发现

2025-11-17 15:12:57　来源: 新浪财经

北京举报

分享至

来源：睿见Economy

　　由深圳市人民政府主办的第二十七届高交会于2025年11月14日-16日在深圳举行。作为高交会的重要论坛“中国高新技术论坛”于11月14日举办，论坛主题为：人工智能赋能未来产业发展”。人工智能发展本质的前进动力是什么？招商局集团人工智能首席科学家、狮子山人工智能实验室主任张家兴认为，是人工智能领域的三大核心信仰：一是端到端（end-to-end）；二是探索式学习（Learning by Exploration）；三是持续不断发现自然语言的价值。

　　以下为演讲实录：

　　张家兴：我演讲的话题是《世界与模型：Bring Models into the Physical World》，开始讨论AI模型和物理世界的关系。

　　正在发生的历史，是“模型征服世界”（Models Conquer the World），从实验室产物——过去为每一个任务都研发专门的模型，到今年以π0.5为代表的模型，如今已经看到这样的可能性，把一个模型应用到任何一个家庭，驱动机器人自主完成家务。

　　我个人加入具身智能领域之前，一直专注于AI模型研究，这里的模型特指以深度神经网络为代表的各类AI模型。人工智能的一条主线就是模型的不断进步，从AlexNet到LLM，十几年的发展过程。人工智能的另一条主线就是机器人技术，从70年代早稻田大学的人形机器人，发展到特斯拉机器人和众多国产人形机器人等产品。当下，模型技术与机器人硬件结合，我们可以称为“大合流”，催生了具身智能。从模型角度来看，这是“模型终于有了一个身体”；从机器人角度来看，则是“机器人终于有了一个大脑”。

　　今天我想给大家传达的一个很重要的想法是：人工智能发展了这么多年，未来必定还要有很多年的发展历程，从一个十年到下一个十年，这其中的本质前进动力是什么？我认为是人工智能领域的三大核心信仰：一是端到端（end-to-end）；二是探索式学习（Learning by Exploration）；三是持续不断发现自然语言的价值。

　　今天我们以具身智能为例来讨论端到端。我们实验室研发的第一个端到端模型，是在机器狗身上部署的导航VLA模型。视频输入通过视觉编码器输入到语言模型（Language Model），语言模型同时接受指令，并且生成动作。我们在实验室场景下仅采集了16个小时的数据，训练了这样的VLA模型，放到真实场景中会有怎样的表现？我们把机器狗放到街头，无论是让它跟随一个人、指派它前往一个水果摊，还是让它进入一家商店，这个单一模型都能驱动机器狗顺利完成任务。

　　VLA目前的重要应用之一是完成一些复杂操作，比如叠毛巾。柔性物体操作在机器人领域是公认的难题，过去几十年一直没有攻克，试图对任务和操作对象进行结构化是没有希望的。借助VLA技术，这一问题已不再是阻碍——模型通过从数据中自主学习，就掌握了如何叠毛巾的隐性知识。

　　VLA还为我们带来一个新的优势：终于可以在低成本基础上实现高精度任务。比如我们用VLA来驱动SO-101机械臂，能持续将笔放入笔筒。这款机械臂在淘宝上购买仅需一千多元钱；而前文中用于叠毛巾的机械臂，单价是4万元一个；至于传统机器人实验室里使用的机械臂，单台价格都在20万元以上，配齐一整套设备更是高达60万，三者之间存在巨大的价格差距。尽管成本相差两个数量级以上，但VLA驱动的低成本设备依然能精准完成任务，充分展示了端到端模型的核心价值。

　　人工智能没有免费的午餐，如果你选择采用端到端架构，数据采集就是一大难题——这和语言模型不同，训练语言模型时，互联网上已存在大量现成数据可直接使用，而具身智能所需的真实场景数据十分稀缺。包括特斯拉在内的很多公司都在建设大规模数据采集工厂，依靠人工来生产大量机器人数据。但与当下大语言模型训练数据万亿token或者等价于数十数百亿（Billions）样本对比，我们现在能采集到的真实机器人数据仅为数百万样本（Millions）。两者之间相差了大约四个数量级，有人估计数据采集需要1万年。另外，我们面临的机器人本体种类繁多，每一种类型的本体之下，不同个体还存在差异，如何让同一个模型适应不同类型、甚至不同个体的机器人。以上两点都是亟待解决的挑战，整个具身智能领域都在为了攻克这两个挑战而努力。

　　第二个信仰是有关机器学习。我没有按照学术领域的常规的监督学习和强化学习的分类方式，而是重新做了归类：一类是模仿式学习（Learning by Imitation），所有数据都是事先准备好，模型从数据中学习，产生一定程度的泛化性；另一类我称之为探索式学习（Learning by Exploration），更具本质意义。探索式类学习的核心特点是，所有训练样本都不是由人类预先准备好的，而是由模型自主生成，再由一些机制来评判好坏，接下来优化模型（策略），最典型代表是在线强化学习（online on-policy），也可能是一些更简洁高效的方法。探索式学习的最大好处是能让模型突破预设数据的局限，自主探索未知场景的解决方案。

　　目前探索式学习最成功的应用案例是运动控制。我们在对机器狗步态进行强化学习时，对机器人关节设计了一些特别的奖励机制，所以我们的机器狗步态非常平缓，不是上下跺脚，运行时的体感声音非常小，更适合各类服务场景落地应用。

　　沿着探索式学习的思路，我们不仅探索优化步态，还为机器狗加装了激光雷达传感器，让它能够感知周围环境，并在探索过程中学会根据实时环境决定行进方式。现场演示的场景包括上楼梯——机器狗通过激光雷达识别楼梯结构，每一步都踩的准，爬楼梯更快更安全；还有爬高台、过沟渠等，这些都是探索式学习的重要成果。

　　既然我们可以通过探索式学习让模型自主掌握技能，那我们就可以重新思考数据与智能的关系——过去行业普遍认为“有多少数据就有多少智能”，但今天的实践表明，很多时候并不需要预先准备大量数据，而是可以让模型在运行过程中自主探索和学习。这让我们不得不思考：预先准备数据这件事情到底是不是必要的，甚至是不是那么重要？我一直在倡导数据的新范式：“有多少算力就有多少数据”。借助充足的算力，我们可以让模型探索各种可能性，在这个过程中自然会产生大量有效数据，而这些数据并非预先准备好的。

　　第三个信仰是有关语言。人工智能的发展历程，是不断发掘和创造自然语言价值的过程。从最初，自然语言领域仅仅把语言当做沟通的工具，从而专注于研究如何理解语言；到今天，当我们谈及智能体（Agent）时，核心就是用自然语言进行思考；未来，智能体更多的以语言作为机器学习的方式。

　　当我们把语言模型，或者集成了视觉的语言模型作为机器狗的核心，打造具身智能体（embodied agent），用户可以任意发出自然语言指令，模型背后会自动规划路径、规避障碍。当语言指令较长或逻辑复杂时，系统会自动将其分解为多个子任务（subtask）逐步执行。

　　机器人运作在物理世界中，而非数字世界——数字世界里，给出一个问题就能直接得到答案，但物理世界的时间是持续不断往下推进的。基于这一特性，我们一直在思考：到底能不能构建一个持续不间断的思维链。在这个永远不停止的思维链架构下，智能体听用户的一句话就会将其融入思维链中，进而影响思维链的后续走向。同时思维链会随时生成动作指令（action），可能是语言回应或执行物理动作。在一定程度上，我们已经通过思维链构建了类似人类的心智模型。比如我对智能体说“3分钟后提醒我买菜”，然后我们开始继续原来的讨论话题，到了3分钟，它就会主动提醒我买菜。我们预先并没有设计任何规则，智能体完全凭借对自然语言的理解，过程中不停的用语言提醒自己，最终完成这类任务。

　　以上就是今天整个技术思考的总结：一个核心模型理念（端到端）、两种核心学习方式（模仿式学习与探索式学习）、三类自然语言的核心价值（沟通，思考，学习）。

　　当下这个时代，大模型的出现推动产品创新朝着通用化方向发展，而通用化才是产品真正实现落地应用的关键机会。然后，模型进入物理世界，这是我们当下面临的另一个重大产品机会。模型让世界更美好！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.