网易首页 > 网易号 > 正文 申请入驻

21对话|商汤科技林达华:具身智能需数字空间与物理空间连接

0
分享至

21世纪经济报道记者董静怡 上海报道2025年,AI的发展有更智能了吗?

在人工智能的演进历程中,大型语言模型(LLM)的崛起标志着AI技术的一次飞跃,但真正的通用人工智能(AGI)远不止于文本的理解与生成。

当前大模型的发展已经从单一的语言模型迈向了多模态融合的新阶段,这是通向AGI的必经之路。

近日,在2025年世界人工智能大会(WAIC 2025)上,商汤科技联合创始人、执行董事、首席科学家林达华在接受21世纪经济报道记者采访时表示,人工智能的未来发展在于多模态信息的融合与物理世界的交互,而当前的大模型技术正朝着这一方向加速演进。

林达华强调,未来的多模态模型甚至能在纯语言任务上超越单一语言模型,而国内厂商也在加速布局,2025年下半年或将迎来多模态模型的全面普及。

然而,通向AGI的道路仍面临关键挑战,真正将智能落地到实际场景中目前来看仍有局限。

林达华向记者表示,尽管大模型在特定领域的推理能力已接近人类水平,但其泛化能力仍显不足,真正的突破在于推理能力能否从狭窄领域泛化到复杂的生活与生产场景。此外,当前多模态模型的空间感知能力也存在短板,这一能力的缺失可能成为具身智能落地的关键障碍。

具身智能被视为AGI的终极形态之一,今年以来热度居高不下。WAIC 2025大模型论坛上,商汤也正式发布了“悟能”具身智能平台,官宣入局具身智能。

显然,AGI的实现需要长期的技术积累与场景迭代。从单一语言模型到原生多模态架构,从数字空间的推理到具身智能的落地,AI的未来不仅需要更深的跨模态理解能力,还需突破空间感知、数据稀缺等关键瓶颈,才能真正迈向AGI的终极目标。

多模态需从理解层面延伸到思考层面

《21世纪》:未来大模型的演化趋势是怎样的?

林达华:回到智能的本源来看,我们所生活的世界它是各种模态的信号共同存在的世界。所以,如果我们要自主跟这个世界进行交互的话,它必然是要去跟不同的模态进行共同的交互,并且把它的信息汇集在一起来进行处理和分析。

为什么语言模型会成为这一波大模型打响的第一枪?是因为在人类的历史上积累下来非常丰富的知识,它本身是以语言的方式为主来存在的。但本质上语言是一种交流的工具,是一种传递信息的符号化的表达。语言并不是整个世界的本身。所以,从智能的本质来说,是需要对各种模态的信息进行跨模态的关联,才能够完成对这个世界的理解和建模。

所以,从某种意义上,我觉得语言模型可以说是大模型通向AGI比较容易切入的第一步,但是最终要通向人工智能,是不可缺少的需要一个多模态的能力的。

《21世纪》:多模态未来会如何发展?

林达华:早期的多模态的架构是一个语言模型接一个视觉编码器,这样的天花板是比较低的,模态跟语言之间的融合也是比较浅的。直到2024年下半年,出来了像Gemini的模型,提出所谓的原生多模态的概念,它真正把图像、视频的信息,融合在预训练的过程里面去,去形成更深层次的跨模态建模的能力。

现在我们要把多模态的融合从理解的层面,延伸到思考的层面。现在市面上的大模型APP也有多模态的能力,但深度思考的模式里传的都是文字。但是我觉得人的思考过程是一种逻辑思维跟形象思维的结合,也就是说在你思考的过程中,会不断地浮现出新的景象,新的印象,新的图形,然后在这个过程中,又在启发新的思考。

当有效进行融合训练之后,一个多模态模型是能够在纯语言的任务上面表现得比一个纯语言的模型更好。所以,当做到这一步的时候,一个单独的语言模型就不再是必要的。

商汤从日日新6.0开始,没有语言模型单独的存在,全部都是多模态模型,而且这个多模态模型在纯语言、纯文本的任务上面,依然也是表现出先进水平的性能。据我了解,现在国内的厂商,可能在今年下半年陆陆续续也会这么走。

具身智能需空间感知能力

《21世纪》:Agent被认为是AI落地的重要形态,如何看待它的发展?

林达华:Agent是大模型能力在现实世界落地的关键技术载体,2025年被视为“元年”并迎来大爆发,这与大模型能力的提升密切相关。

不过需要注意的是,尽管许多模型声称具备Agent能力,并在相关评测榜单上得分很高,但在实际落地场景中,尤其是在复杂条件的场景中,通用Agent仍存在较大差距。例如,在工业设计中,某些关键要素可能对设计产生重大影响,而通用Agent可能无法准确理解这些要素,导致设计偏差。

Agent的最终迭代必须围绕具体场景进行,否则其价值无法真正落地。在真实场景中,Agent的可靠性和成功率至关重要。如果Agent不能有效解决问题,反而增加用户的工作负担,那么它就无法被视为有价值的Agent。

我们发现,只有将Agent放入真实场景中进行迭代,结合行业知识和关键需求,才能开发出真正有用的Agent。

《21世纪》:实现AGI,还要在哪些方面突破?

林达华:推理在单科做到非常高,这个技术路径通过RL(强化学习)之后已经是比较成熟了。这里面最值得观察的突破点是,推理的性能能不能从单科的、单一领域的,比如奥赛、下围棋、写程序,拓展到广泛的生产、工作和生活的领域,做到跟真人一样能够自由地去推理的水平。如果是做到了可泛化,我觉得现有的模型距离AGI就靠近了一大步。

另一个重要的观察点是当前多模态模型的空间理解能力存在明显不足。国际顶尖多模态模型,在面对诸如积木拼接等简单空间问题时,也无法准确判断积木的组成数量以及各部分之间的连接关系,而这些问题对于几岁的儿童来说却是轻而易举的。

这表明当前多模态模型的思维方式主要依赖于逻辑推理,缺乏较强的空间感知能力。若这一问题得不到突破,未来将成为具身智能落地的重要障碍。

《21世纪》:具身智能当前面临哪些瓶颈?

林达华:从到达AGI的角度来说,是需要让智能走出数字空间,实现数字空间跟物理空间连接。具身智能与数字空间中的大模型存在显著区别。大模型能够从互联网获取海量的文本和图片数据,并对其进行深加工以提升质量,进而用于训练。

然而,具身智能的数据获取方式存在局限性,其数据主要通过机器人操作获得,而机器人的数量和操作速度都较为有限,导致数据吞吐量较低。无论是自动化操作还是人工操作,具身智能的数据获取都面临物理瓶颈,其数据量远低于互联网上的数字数据。

因此,仅依靠机器人真机操作的数据难以实现具身智能的有效发展,因为两者之间的数据量差距过大。具身智能需要借助先验能力、先验结构和先验数据,这些可以通过互联网上的大量视频等多模态数据构建强大的基座模型。仅依赖真机数据不仅数量级不足,而且无法满足当前快速迭代的需求。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
华为Mate 90首发!鸿蒙7已在路上:打破垄断 和安卓iOS三分天下

华为Mate 90首发!鸿蒙7已在路上:打破垄断 和安卓iOS三分天下

快科技
2026-03-25 16:07:00
中东大战,真正让特朗普害怕的是:中国的已读不回!

中东大战,真正让特朗普害怕的是:中国的已读不回!

似水流年忘我
2026-03-26 02:13:59
四川井研一公交车身标语引争议 官方:系个人自费5000元投放的广告,已整改清除

四川井研一公交车身标语引争议 官方:系个人自费5000元投放的广告,已整改清除

红星新闻
2026-03-25 20:09:43
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
自作自受!欧尔班硬刚欧盟阻援乌,160亿欧元信贷被直接冻结

自作自受!欧尔班硬刚欧盟阻援乌,160亿欧元信贷被直接冻结

老马拉车莫少装
2026-03-26 10:24:28
森林狼逆火箭:申京努力了,然而杜兰特啊

森林狼逆火箭:申京努力了,然而杜兰特啊

张佳玮写字的地方
2026-03-26 13:03:18
14.99万!“史上最便宜”特斯拉来了

14.99万!“史上最便宜”特斯拉来了

首席品牌观察
2026-03-24 16:18:39
国防部:菲方侵权挑衅只会遭到更加坚决应对

国防部:菲方侵权挑衅只会遭到更加坚决应对

界面新闻
2026-03-26 16:00:27
发生了什么?午后,沪指再度失守3900点

发生了什么?午后,沪指再度失守3900点

每经牛眼
2026-03-26 15:25:31
FIFA系列赛新规:比赛需决出胜负 打平将互射点球

FIFA系列赛新规:比赛需决出胜负 打平将互射点球

体坛周报
2026-03-26 15:53:18
这4种鱼,可能含有甲醛和重金属,建议:还是少吃比较好!

这4种鱼,可能含有甲醛和重金属,建议:还是少吃比较好!

阿龙美食记
2026-03-24 21:52:23
美以军事打击已致伊朗243名师生丧生

美以军事打击已致伊朗243名师生丧生

新京报
2026-03-25 15:05:13
美军首批阵亡遗体送回,遗体箱拥挤堆放,高层的着装与规定相悖

美军首批阵亡遗体送回,遗体箱拥挤堆放,高层的着装与规定相悖

知识TNT
2026-03-25 12:14:18
老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

小羽叨叨叨
2026-03-26 13:24:34
怀孕传闻真相大白后,翁帆突传“喜讯”,杨振宁终于可以放心了!

怀孕传闻真相大白后,翁帆突传“喜讯”,杨振宁终于可以放心了!

丁丁鲤史纪
2026-03-25 16:35:13
中东突发!刚刚,直线拉升

中东突发!刚刚,直线拉升

中国基金报
2026-03-26 12:35:21
初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

娱乐圈笔娱君
2026-03-24 16:08:36
重返广东!李春江有了新工作,亮相篮球场,岗位曝光,杜锋期待

重返广东!李春江有了新工作,亮相篮球场,岗位曝光,杜锋期待

萌兰聊个球
2026-03-26 13:02:53
老板娘的丝袜都破了,我要不要告诉她买一双?

老板娘的丝袜都破了,我要不要告诉她买一双?

太急张三疯
2026-03-26 12:50:15
东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
2026-03-26 17:08:49
21世纪经济报道 incentive-icons
21世纪经济报道
中国商业新闻领导者
239761文章数 743879关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
健康
亲子
数码
军事航空

旅游要闻

德阳绵竹:赏花、览文旅精品......沿山旅游“火”起来

转头就晕的耳石症,能开车上班吗?

亲子要闻

妈妈是时尚小达人爸爸是朴素老模范!我要当爸爸的专属赞助人

数码要闻

1599~2499元,英特尔酷睿Ultra 200S Plus处理器发售

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版