网易首页 > 网易号 > 正文 申请入驻

对话招商局首席科学家张家兴:具身智能要在大模型下一次重大进步来临前“先活下来”

0
分享至

界面新闻记者 | 陆柯言 李彪
界面新闻编辑 | 文姝琪

2025年,国内具身智能机器人行业掀起了一场 “百机大战”。天眼查等数据平台显示,2024年底时,国内人形机器人整机公司已经超过了80家,全球范围内总共约有150家;而仅今年上半年,中国新增人形机器人公司数量就超过了去年一整年,同时还有更多新创企业排队入场。

“除了世界上少数团队专注于foundation model(注:OpenAI、Anthropic、阿里通义千问、DeepSeek研发的千亿参数底层基础模型)研发外,当下AI创业最具商业化潜力的两大分支,一个是Agentic AI(注:代理式AI,即AI Agent智能体),另一个就是具身智能。” 招商局集团首席科学家、狮子山人工智能实验室主任张家兴近期接受界面新闻专访时表示。

张家兴是国内最早一批投身AI研究的学者。他形容自己是一个 “追着技术前沿跑的人”:早年在微软亚洲研究院钻研大数据框架和深度学习,随后在蚂蚁金服、360数科带队开展 AI 深度学习落地探索;2021年加入IDEA研究院,担任认知计算与自然语言研究中心负责人,主导“封神榜”大模型项目;2024年正式加入招商局集团,筹办狮子山研究院,研究方向是AI与具身智能结合、应用于机器人研发。

虽然看起来每一段职业经历都是研究当时最热门的前沿技术,但在张家兴理解中,“每一步都是为下一步做铺垫”—— 深度学习以数据为基础,只有积累足够数据,才可能开展深度学习研究;而早期大模型正是从深度学习研究中衍生出的AI新领域。

而对于具身智能的爆发,张家兴认为,真正的转折点出现在2023年前后。行业发现VLA这类模型(Vision-Language-Action Model,即“视觉 - 语言 - 动作”模型,即强调通过整合视觉感知、语言理解和动作生成能力,实现机器人从环境观察到指令执行)已经能作为机器人 “大脑”,强大到可以驱动人形机器人、机器狗完成一系列高难度任务。在行业真正意识到技术的潜力后,如何将 AI 模型应用于机器人研发,成为了如今具身智能领域最前沿的创新趋势。

从去年9月在香港成立以后,招商局集团已经完成了狮子山研究院的团队组建,近期还首次发布了成立后的两项新产品:一是基于 Agentic AI研究的智能体强化学习训练推理系统L0系统;二是基于其柯基VLA 模型(Corgi-VLA)开发的四足机器狗。借助模型能力,这款机器狗仅通过16个小时真实环境数据训练,就能实现跟在人身后 “近身智能随行”,实时陪伴逛街。

以下是专访实录(内容经界面新闻调整)

界面新闻:从微软亚洲研究院、蚂蚁、360与IDEA研究院,到如今加入招商局集团,如何看待自己的职业经历?

张家兴:我的职业经历始终与科技前沿技术同步。在大数据时代,我们是全球最早一批研发大数据框架的团队;进入深度学习时代,我们同样是最早涉足深度学习研究的群体。

这几段经历之间的关联性可以这样理解:每一步都是为下一步做铺垫。举个例子,深度学习无疑是以数据为基础,必须先夯实大数据根基,积累足够数据,才能开展深度学习研究。

深度学习之后,2021年左右我开始投身大模型研究。大模型早期正是基于深度学习发展而来,简单说,它通过扩大模型规模,形成了一个新的研究领域。

大模型进一步发展衍生出不同分支。当下除少数团队专注于基础模型的研发与迭代外,我认为最具前景的两大分支就是Agentic AI和具身智能。

具身智能的概念2023年才开始走红,这主要得益于大模型的发展。当时行业发现,VLA这类端到端模型已具备强大能力,能够直接驱动机器人完成各类任务,其中一些任务是此前机器人领域难以想象的。我借此机会进入具身智能领域,同时也兼顾相关AI模型技术的研究。

界面新闻:从这一角度看,在AI时代,最重要的是技术、人才、资金还是其他因素?

张家兴:在深度学习时代,前沿技术创新多由老师带领学生开展,“人工智能三巨头” 杰夫・辛顿(Jeff Hinton)、杨立昆(Yan LeCun)、约书亚・本吉奥(Yoshua Bengio)都是在高校科研院所带学生完成重要的研究工作。

自OpenAI起,整个AI行业进入新的研发模式,即以团队为核心进行前沿技术创新。OpenAI、DeepSeek、美国人形机器人初创企业Figure均是这类模式的代表。

这些团队规模通常不大,约100人左右,成员被高效组织起来,聚焦共同目标,可能是一篇论文、一个模型或一台机器人。他们发表的每篇论文,作者列表往往多达几十人。

如今的核心问题变成了如何组建这样的团队?如何吸引人才并将其组织起来?我们研究院依托招商局这个国企平台组建团队,方式虽有不同,但本质上仍是团队建设问题。

界面新闻:您之前提到,当前大模型最重要的两个分支是Agentic AI和具身智能,公司最新发布了基于Agentic AI研究的L0系统。与传统AI智能体相比,它的主要突破是什么?

张家兴:L0主要有两项创新突破:一是在模型推理过程中实现自然语言与编程语言的深度融合;二是基于强化学习让模型通过 “试错进步” 实现 “探索式学习”。

自然语言与编程语言的结合,核心是将人类日常语言与计算机可理解的代码相融合。今年行业内热门的传统 Agent,均通过自然语言向计算机输入提示词(Prompt)与上下文(context)。自然语言用于驱动人类行动,而编程语言专为驱动计算机设计,在调用 API、访问数据库、连接真实世界与计算机互动等方面更为精准。我们在设计Agent时,便思考能否将自然语言与编程语言结合。

具体而言,我们在L0系统中选用了最流行的AI编程语言Python。Agent运行时,可实现自然语言与编程语言的交互:自然语言生成Python代码,代码在编程语言环境中执行后,将结果返回至自然语言环境,再生成新代码、执行并返回结果,形成持续交互。在此过程中,Agent推理思维链的 “状态” 可通过编程语言形式存储,其存储规模可视为无限大,计算机内存、硬盘乃至互联网的容量有多大,存储规模就能达到多大,这些极大拓展了现有大语言模型的能力。

探索式学习仍基于强化学习,类似人类通过不断尝试、获取反馈来学习。模型能够自主生成样本和训练数据,我们通过特定评判机制判断样本优劣,再利用反馈结果反过来训练模型。模型通过自主 “探索”,根据反馈调整自身,基于这种模式,其性能比普通模型提升近一倍。

界面新闻:这些创新的应用场景是什么?

张家兴:AI大语言模型的“Scale Law”法则强调,在模型研发与应用中,通过增加资源、扩大规模来提升性能和效果。

我们目前已开源L0系统,希望为行业提供一套加速训练框架。如今无论是何种Agent,包括具身智能机器人本身也被行业视为一种“Agent”,基于这套加速训练框架,我们都希望能提高模型所在数字空间与真实物理世界的互动效率,加快速度并降低成本。

界面新闻:你曾提到过,从2025年开始,Agentic AI领域进入 “Zero 时代”,零样本、模型探索合成数据、“算力 = 数据” 是这个时代的特征?

张家兴:深度学习领域,尤其是OpenAI之后流行的“Scaling Law”法则,使得基于数据和预训练的 “暴力美学” 成为绝对真理,开展任何工作都需先准备数据。

但在当下,在预训练大模型能以极低成本获取的情况下,大模型本身已具备基本能力,更重要的是,它实际上拥有自主开展exploration(探索式学习)的能力。简单说,对于任何任务,它一开始就能做得差不离。这种情况下,我们完全可以让大模型采用“Zero-Shot”模式,即不预先准备数据,而是从零开始让其在与环境的交互中生成数据,只要我们有能评判优劣的机制即可。

而在行业认可的评判标准尚未建立前,不预先准备数据,模型开始基于探索式学习时,犯错的代价便是消耗算力 —— 错误越多、成功率越低,算力浪费就越严重。因此,未来行业竞争将聚焦算力,谁拥有更多算力,就能开展更大规模的exploration,探索更多可能性。

界面新闻:在具身智能领域,如何看待VLA的前景?

张家兴:我认为VLA是当下的唯一选择。未来是否会出现更多选择,我们可以拭目以待。

可以说VLA是这一波具身智能引发行业关注的最重要原因。正是因为行业发现,经过大规模预训练的大模型在驱动机器人方面展现出潜力,才掀起了这具身智能的热潮。

界面新闻:如何看待行业热议的VLA作为端到端模型存在的 “技术黑箱” 和实现方法上的不可解释性问题?

张家兴:我不建议在这一问题上花费过多时间争论。世界上不可解释的事物众多,无论是人类大脑还是AI,复杂系统的不可解释性是必然的。

界面新闻:现阶段VLA模型有哪些独特的优势?

张家兴:现阶段VLA是让机器 “懂场景、有温度” 的最优解。以我们的Corgi-VLA模型为例,它有三大设计:混合注意力机制让它优先关注“人”的状态,比如在商场中始终锁定随行的老人而非货架上的商品,动态动作生成模块让动作更柔和,机器狗转身时会放慢速度避免惊吓到人,多模态融合训练让它能理解指令背后的真实需求,这些细节都是技术温度的载体。

从数据训练角度,Corgi-VLA模型通过对不同模态数据的高效融合,减少对单一模态大规模数据的依赖,以相对少量多模态数据训练出更具泛化性与适应性的模型,例如结合少量视觉图像、语言指令和动作反馈数据,实现对复杂场景的精准理解与执行。

为达成这一目标,在模型训练数据上,我们会不断探索用更少、更具代表性的数据,训练出能捕捉生活丰富细节、理解人类复杂情感的模型,让机器人在有限数据学习中,也能实现与人类深度、温暖的交互。

界面新闻:具身智能将模型引入机器人研发,目标是达到何种效果?

张家兴:单纯从传统机器人技术来看,像工厂产线的固定任务(如分拣、搬运),传统工业机器人、机械臂在特定软件算法与硬件配合下,其实表现不错。

而VLA模型在具身领域的研究,更多是将大语言模型的成功延伸至物理世界,bring large models into physical world,这一过程中更重要的是引入大语言模型已经具备的通用性。

通用性具体表现包括:一是能听懂人类语言,可通过自然语言接收指令;二是具有高度泛化性,能随场景变化,准确完成新任务。

换句话说,我们研究VLA、探索具身智能,就是要打造机器人版ChatGPT。

界面新闻:有质疑声称,今年新成立的具身智能机器人企业可能在几年后淘汰一半,您如何看待这一观点?行业的下一个赛点是什么?

张家兴:我认为具身智能真正的机会在于,能否在大模型的下次重大进步来临前,先确保自身存活。

“活着”的核心是“技术硬实力 + 人文软实力”的双重突破。一方面技术上要持续提升VLA模型的效率与泛化能力,硬件上降低成本让更多家庭用得起;另一方面更重要的是坚守科技创业的初心 , 不盲目追求酷炫功能,而是深耕“解决真需求”的场景。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今夜!彻底涨疯了

今夜!彻底涨疯了

中国基金报
2026-05-09 00:18:23
外交部:坚决反对任何对中方的无端指责和恶意抹黑,相信挪威方面将切实保障中国公民合法权益

外交部:坚决反对任何对中方的无端指责和恶意抹黑,相信挪威方面将切实保障中国公民合法权益

环球网资讯
2026-05-08 15:50:22
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
OPPO母亲节文案翻车:当“玩梗”越过了界限

OPPO母亲节文案翻车:当“玩梗”越过了界限

第一财经资讯
2026-05-08 20:21:28
血糖好不好,看手就知道?若手上没有3个表现,说明胰岛比较健康

血糖好不好,看手就知道?若手上没有3个表现,说明胰岛比较健康

芹姐说生活
2026-05-08 15:01:42
拉横幅真管用!中超第二位下课主帅诞生,邓卓翔再次复出救火

拉横幅真管用!中超第二位下课主帅诞生,邓卓翔再次复出救火

体坛鉴春秋
2026-05-08 17:06:34
再见了,塔克!总冠军+9058万美金到手,别怪NBA对你无情

再见了,塔克!总冠军+9058万美金到手,别怪NBA对你无情

世界体育圈
2026-05-08 14:53:15
普京时代渐近尾声,中国需警惕俄罗斯政策变动风险

普京时代渐近尾声,中国需警惕俄罗斯政策变动风险

律法刑道
2026-05-08 11:06:45
格拉斯纳:对阿森纳和曼城都可能轮换,我要对水晶宫负责

格拉斯纳:对阿森纳和曼城都可能轮换,我要对水晶宫负责

懂球帝
2026-05-09 00:37:06
风向突变!巴拉圭总统窜台惹大祸,岛内慌了,大陆反击超乎预想

风向突变!巴拉圭总统窜台惹大祸,岛内慌了,大陆反击超乎预想

坠入二次元的海洋
2026-05-08 14:38:41
汉武帝为什么总选春天进攻匈奴?司马光:匈奴女子春天更容易怀孕

汉武帝为什么总选春天进攻匈奴?司马光:匈奴女子春天更容易怀孕

云霄纪史观
2026-05-08 00:57:48
明目张胆造假,中国电影还有救吗?

明目张胆造假,中国电影还有救吗?

闲人电影
2026-05-08 18:31:17
科贝:巴尔韦德&楚阿梅尼将停赛3-20场,甚至可能直接被开除

科贝:巴尔韦德&楚阿梅尼将停赛3-20场,甚至可能直接被开除

懂球帝
2026-05-08 01:09:39
再见,字母哥!雄鹿交易内幕曝光,骑士赌上一切

再见,字母哥!雄鹿交易内幕曝光,骑士赌上一切

体育新角度
2026-05-08 22:41:42
湖人G2惨败陷绝境!詹姆斯赛后一针见血,尽显巨星担当!

湖人G2惨败陷绝境!詹姆斯赛后一针见血,尽显巨星担当!

田先生篮球
2026-05-08 14:02:52
碰掉充电器就绝食,穷人家养出长公主,到底是公主病还是抑郁症?

碰掉充电器就绝食,穷人家养出长公主,到底是公主病还是抑郁症?

今朝牛马
2026-05-08 16:14:02
全球首款!特斯拉Model Y拿下辅助驾驶安全测试最严认证

全球首款!特斯拉Model Y拿下辅助驾驶安全测试最严认证

快科技
2026-05-08 11:18:38
出货量暴跌35%,小米手机9年来首次跌出前五

出货量暴跌35%,小米手机9年来首次跌出前五

ZAKER新闻
2026-05-08 16:26:28
许家印认罪10天后,“保护伞”终于被扒出,想跑?

许家印认罪10天后,“保护伞”终于被扒出,想跑?

阿甘天天传
2026-05-08 11:09:57
他是现役生涯最长球员,21年拿4冠,富二代出身,车模妻子很漂亮

他是现役生涯最长球员,21年拿4冠,富二代出身,车模妻子很漂亮

大西体育
2026-05-08 20:22:58
2026-05-09 01:07:00
界面新闻 incentive-icons
界面新闻
只服务于独立思考的人群
1080776文章数 1334184关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

外籍银行高层在香港豪宅性虐及杀害两女子 内幕解密

头条要闻

外籍银行高层在香港豪宅性虐及杀害两女子 内幕解密

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

估值3000亿 DeepSeek寻求500亿元融资

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

教育
艺术
亲子
手机
旅游

教育要闻

摒弃打压式教育,让家庭教育走出攀比阴影

艺术要闻

惊艳私房摄影:感受真情与绝美画面!

亲子要闻

家长的五个坏习惯,可能影响孩子一生!

手机要闻

小米超大屏旗舰杀回来了!小米17 Max入网配置全曝光,价格很香

旅游要闻

母亲节+护士节,临沂景区优惠合集暖心上线

无障碍浏览 进入关怀版