网易首页 > 网易号 > 正文 申请入驻

对话智源研究院院长王仲远:具身智能“小组赛”还未结束,远没有到“淘汰赛”

0
分享至

编者按:在这个智能体与物理世界深度融合、边界不断拓展的领域,机遇与挑战相互交织,技术迭代如闪电般迅速。《科创板日报》始终保持敏锐的洞察力,持续追踪并深入报道浪潮中的先行者,记录下他们或曲折、或惊艳的探索与蜕变历程。

本期访谈人物:
智源研究院院长王仲远
个人介绍
王仲远,博士,北京智源人工智能研究院院长。
获评2018年《麻省理工科技评论》“35岁以下科技创新35人”,长期从事人工智能前沿技术研究与实践,曾在快手、美团、Facebook、微软亚洲研究院等知名企业与研究机构担任重要技术及管理职务。
第一标签
人工智能领域探索者
机构简介
智源研究院是人工智能领域的新型研发机构。2018年11月14日,在科技部和北京市支持下,联合北京人工智能领域优势单位共建。

《科创板日报》6月22日讯(记者 李明明)被誉为“科技春晚”的智源大会,折射出每年的科技产业热点。今年的第七届智源大会上,宇树科技CEO王兴兴成为最受瞩目的嘉宾,显示出了具身智能的高热度。

智源研究院院长王仲远在大会上表示,人工智能正经历从以语言理解和推理为核心的“数字智能”,迈入与现实环境互动的“具身智能”阶段。也因此,智源研究院宣布从“悟道”(是由智源研究院主导研发的超大规模智能模型系统)时代迈入“具身智能”探索阶段。

相应的,智源研究院推出“悟界”系列大模型。包括原生多模态世界模型Emu3、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0等。

近日,就具身智能发展路线、多模态大模型落地应用等方面,《科创板日报》记者对王仲远进行了专访,他表示,具身大模型的发展仍处于非常早期的阶段,可类比大模型在 GPT-3 之前的技术探索期。当前行业仍处于“小组赛”阶段,远未到“淘汰赛”。

王仲远判断,目前,主流大模型多集中于C端的文本生成与语言对话等“数字智能”领域。然而,智源正致力于将AI拓展至更具挑战性和潜力的“现实世界”,涵盖机器人、操作系统以及世界模型的构建。

2025年人形机器人刚学会跑

《科创板日报》:类比 AI 大模型,智源新推出的跨本体具身大小脑协作框架正处于具身智能领域发展的哪个阶段?

王仲远:具身大模型的发展仍处于非常早期的阶段,可类比大模型在 GPT-3 之前的技术探索期。

当前具身智能面临与早期 AI 大模型类似的挑战。比如,技术路线尚未形成共识:学界与产业界对核心技术路径存在分歧,例如,仿真数据、强化学习、大小脑融合架构等方向仍在探索中,尚未形成统一方法论;又如产业落地尚需突破:尽管智源推出具身智能跨本体大小脑协作框架等成果,但离大规模商用仍有较长距离,需解决“感知-决策-行动”协同、多模态数据融合等基础问题。

在此阶段,如智源这类科研机构的价值在于通过开源框架、跨学科合作等方式推动技术路线探索,为产业界提供可验证的技术原型,而具体技术路径的成熟与产业落地仍需多方长期共同努力。

《科创板日报》:现在业内对于机器人是否做人形也有争论,请你谈谈关于走具身智能的路线。

王仲远:人形机器人从长期来看是一个很好的发展方向。整个社会是为人类构型打造的基础设施,双足机器人会更好地融入社会,但并不代表其他的构型就没有用武之地。

最早与行业专家交流人形机器人时,我听到一个很重要的说法是人形机器人提供的“情绪价值”,再往后深入做具身大脑时,发现人形机器人更有利于通过已有的各种数据进行学习。

从做模型的角度来讲,如果做四足或者轮式,这些数据远比从互联网上获取的海量数据难度大。

不同构型的机器人未来会共存,但是人形机器人一定是非常重要的发展方向,只不过它的成熟周期比其他的构型要慢。

2024年,人形机器人刚刚会走,2025年,刚刚会跑,能否走得稳、跑得稳,还在努力过程中。

具身智能“小组赛”还未结束,远没有到“淘汰赛”

《科创板日报》:如何破解具身智能数据稀缺问题?

王仲远:具身智能目前存在循环悖论,具身能力不足限制了真机数据的采集,数据稀缺导致模型能力弱、落地难,无法进一步提升能力。

破解问题的方法有很多,不同的参与方有不同的解法。比如,令硬件成本越来越低,如果能够做到几千块钱一台机器人,大家买的可能性比一百万一台机器人的可能性大很多。

真实世界的数据很重要,但是是否足以训练出来一个有价值的模型,这在学术界是有争议的,仿真数据是其中一条路径。

智源走的是大模型的路线,更多依靠的是互联网数据帮助机器人学习智能。例如,此前我观察一个小女孩是怎么学习的,她刷了很多短视频,就学会了拆糖果、撕包装纸,把5颗蓝莓串在一根牙签上,这是没有任何大人教给她的。她通过视频学习到可能的技能,再通过实践即强化学习去尝试,可能失败了几次继续尝试,最后成功完成了任务,这就是强化学习的本质。

所以,学习海量已有的数据,再通过强化学习和少量真实世界的数据不断训练它的能力,不断突破具身智能的发展上限,这和大模型发展路线不谋而合,基础能力到一定程度后通过强化学习进一步激发它的智能。

《科创板日报》:具身智能能否复制智能驾驶的发展模式,实现数据采集与模型训练经验的无缝迁移?

王仲远:具身智能与智能驾驶虽有共性,但差异不容忽视,直接复制智能驾驶路径于具身智能不可行。核心差异体现在用户需求、数据采集基础和操作空间复杂度。智能驾驶车辆即便未完全智能化,仍可作为代步工具被广泛购买,用户日常使用中自然积累海量数据,为模型训练提供支撑。而具身智能机器人若缺乏实用功能,难以被消费者接受,当前高价与低实用性导致其难以通过大规模商用采集数据,数据积累路径受阻。智能驾驶的操作空间相对有限,场景边界较清晰;具身智能需处理物理世界多样化任务,操作空间维度呈指数级增长,对感知、决策与行动的协同要求更高,技术复杂度远超智能驾驶。

在具身智能发展过程中,智源探索独特发展路径。一是数字智能物理化,通过大模型技术将数字世界的智能能力延伸至物理世界,推动机器人从“单一功能”向“通用智能”进化;二是低成本功能化,聚焦垂直场景,降低单台机器人成本并强化特定能力,通过规模化落地积累数据,逐步拓展应用边界,让小型机器人走进千家万户。大型人形机器人技术复杂度高,商业化周期长;小型专用机器人若能在细分场景实现极致性价比,可能率先渗透家庭与产业场景,为具身智能长期发展奠定基础。

《科创板日报》:目前许多智能驾驶车企正在进军具身智能领域,比如小鹏和理想,这些车企会在未来的具身智能竞争格局里占据什么样的位置?

王仲远:车企布局具身智能具备独特优势,但最终竞争格局尚未明朗。当前行业仍处于“小组赛”阶段,远未到“淘汰赛”。车企的核心优势体现在两方面:一是制造体系与产业链整合能力(如特斯拉依托工厂自动化需求与制造优势切入机器人领域);二是落地场景资源,其积累的交通、出行场景数据可赋能物流、服务机器人等初期应用。但需注意,具身智能技术复杂度远超智能驾驶,需融合感知、决策、行动等多维度能力,车企现有技术积累未必直接适用。

此外,行业目前仍处于多方参与的技术路径探索期,大模型机构、硬件厂商等不同领域玩家的技术路线仍在碰撞,最终突破方向尚未明确。

《科创板日报》:未来3年具身智能最可能在哪个领域产生突破性的规模化应用?

王仲远:最可能在相对封闭的工业场景落地,如工厂环境。不仅能规避当前具身智能不成熟的阶段,比如对人类可能的误伤等安全隐患,而且工厂环境有很多相对固定且枯燥的任务,不适合人类进行。因此,在这样相对封闭的场景会是具身智能最快落地的场景。

当然,今天车企的自动化程度已经相当高了,反而又有其他一些工业场景的自动化程度远没有那么高,这些是具身智能落地的机会。

多模态大模型尚未实现广泛普及与通用化

《科创板日报》:此前谷歌大会发布视频模型,行业认为这标志着多模态进入视频模型商业化阶段,你对此观点是否认可?当前多模态行业,尤其是技术层面存在哪些挑战?

王仲远:目前,多模态技术发展方向尚未完全统一。在文本生成图像、文本生成视频领域,基于Diffusion和Transformer的技术路线相对明确;而在多模态理解模型方面,多数采用“大语言模型+Clip”的架构,将语言模态映射至多模态处理。当下主流的视频生成模型,也大多沿用此类技术路径。

尽管模型性能持续提升,生成效果不断优化,商业化前景初现,但该领域仍存在诸多不确定性。以国内大模型发展为例,早在去年便有预测指出,2024年底国产大模型有望追赶GPT-4水平。如今DeepSeek的技术突破印证了这一趋势,即便没有DeepSeek,其他国产模型同样具备实现技术突破的潜力。

在技术路线相对明晰的背景下,产业界具备显著优势。丰富的数据资源、专业的工程团队及充足的算力支持,均有助于企业训练出更贴合实际应用、更具商业化价值的模型。

《科创板日报》:当前多模态大模型是否已进入全面落地应用阶段?

王仲远:多模态大模型已在部分特定场景实现落地应用,但尚未实现广泛普及与通用化。

在实际应用场景中,多模态交互需求普遍存在。以英语教学为例,需整合声音、图像及场景理解等多维度信息。然而,当前多模态大模型的性能与语言模型相比仍存在较大差距,导致实际应用效果难以达到预期。尽管产业界通过局部优化、功能补充等方式改善用户体验,但要实现根本性突破,仍需依赖更强大的基础模型。一旦多模态模型达到更高可用水平,将为产业发展注入新动能。

此外,当下主流大模型多集中于C端的文本生成与语言对话等“数字智能”领域。然而,智源正致力于将AI拓展至更具挑战性和潜力的“现实世界”,涵盖机器人、操作系统以及世界模型的构建。

《科创板日报》:近期国外多家厂商集中发布Agent产品,为何在这一时间节点出现该现象?哪些技术的成熟推动了这一趋势?此次技术演进在应用落地层面能达到何种程度?其实际效果是否如应用厂商宣传般强大?

王仲远:基础模型需达到或接近GPT-4的能力水平,才能满足实际应用需求,即不仅要具备良好的语言理解能力,还需拥有一定的逻辑推理能力。近年来,推理模型技术的进步显著提升了大模型的推理性能,推动大模型从“可用”迈向“好用”,进而加速产业应用发展。

Agent作为重要的产业落地形态,能够基于基础模型开发出满足用户实际需求的解决方案。对于创业公司而言,投入产出比(ROI)是关键考量因素。因此,在模型开发中需兼顾性能与效率,在保证能力的前提下,尽量缩小模型规模,提升推理速度。尽管当前仍存在技术瓶颈,但随着研究深入,这些问题有望逐步得到解决 。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
震撼!情侣出门女生穿露股超短裙引发围观!当事人却很享受?

震撼!情侣出门女生穿露股超短裙引发围观!当事人却很享受?

魔都囡
2025-09-04 15:01:50
乌克兰称对爆炸负责,奔袭六千公里炸海参崴,对全球传递两个信号

乌克兰称对爆炸负责,奔袭六千公里炸海参崴,对全球传递两个信号

博览历史
2025-09-19 15:12:19
网传李佩霞下月出狱?法律专家:减刑后刑期已过半!谣言误导

网传李佩霞下月出狱?法律专家:减刑后刑期已过半!谣言误导

巷子里的历史
2025-09-19 08:06:10
光伏发电是本世纪最大骗局?别被误导了!骗局不是光伏本身

光伏发电是本世纪最大骗局?别被误导了!骗局不是光伏本身

晓晓说事儿
2023-10-05 22:09:53
女优原阳菜乃曝出道原因:测试自己是S还是M!

女优原阳菜乃曝出道原因:测试自己是S还是M!

葫芦哥爱吐槽
2025-09-20 02:40:37
朝鲜副国级高官叛逃脱北,曝光金家秘闻:酒池肉林、80万买轩尼诗

朝鲜副国级高官叛逃脱北,曝光金家秘闻:酒池肉林、80万买轩尼诗

猫眼观史
2024-03-25 14:31:14
就冲这个胸,这个扣子,不颁奖给她,都说不过去!

就冲这个胸,这个扣子,不颁奖给她,都说不过去!

另子维爱读史
2025-08-31 19:15:27
黄永胜被问及最好的上级是谁,他说道:除了毛主席外,最敬佩罗帅

黄永胜被问及最好的上级是谁,他说道:除了毛主席外,最敬佩罗帅

奋发猫说史
2025-09-19 10:17:35
糖尿病到最后都是咋去世的?医生叹息:去世前,一般都有2个症状

糖尿病到最后都是咋去世的?医生叹息:去世前,一般都有2个症状

宝哥精彩赛事
2025-09-10 16:48:27
广东将防风Ⅳ级应急响应提升至Ⅲ级

广东将防风Ⅳ级应急响应提升至Ⅲ级

中国能源网
2025-09-19 15:27:43
老罗为什么突然闭嘴了

老罗为什么突然闭嘴了

燕梳楼频道
2025-09-16 15:52:21
网曝成都大悦城西贝现状:18日晚上用餐高峰,仅仅只有一桌在吃饭

网曝成都大悦城西贝现状:18日晚上用餐高峰,仅仅只有一桌在吃饭

谈史论天地
2025-09-19 10:23:14
轮到中国下“封杀令”了?特朗普没想到,中方这次动了真格

轮到中国下“封杀令”了?特朗普没想到,中方这次动了真格

星辰故事屋
2025-09-19 11:09:59
力挺西贝后,胖东来老板又“翻车”了,这次是点评电影731!

力挺西贝后,胖东来老板又“翻车”了,这次是点评电影731!

i王石头
2025-09-19 15:50:19
钱,在权力面前一文不值!顶多就是一棵韭菜

钱,在权力面前一文不值!顶多就是一棵韭菜

卷史
2025-09-16 14:17:46
卡塔尔展开复仇,57国成立同盟?百万大军备战,不打败以军不罢休

卡塔尔展开复仇,57国成立同盟?百万大军备战,不打败以军不罢休

坐景观天
2025-09-20 00:29:15
中央巡视组进驻后,三厅官被查

中央巡视组进驻后,三厅官被查

鲁中晨报
2025-09-19 15:29:49
男子破产12年送外卖养家,这天竟收1200万汇款,追到汇款方后却傻眼

男子破产12年送外卖养家,这天竟收1200万汇款,追到汇款方后却傻眼

温情邮局
2025-08-22 11:56:14
全智贤风波闹大,代言评论区沦陷,网友高呼:滚出中国市场

全智贤风波闹大,代言评论区沦陷,网友高呼:滚出中国市场

白面书誏
2025-09-19 23:03:48
屁股大腿粗的梨形身材怎么穿?美女一身白色吊带短裙,遮肉显瘦

屁股大腿粗的梨形身材怎么穿?美女一身白色吊带短裙,遮肉显瘦

小乔古装汉服
2025-09-11 09:26:03
2025-09-20 03:56:49
财联社 incentive-icons
财联社
以“准确、快速、权威、专业”为新闻准则,为投资者提供专业的投资资讯。
628810文章数 1014182关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

山东入室被抢男婴到15岁没见过汽车 养家从不让他出门

头条要闻

山东入室被抢男婴到15岁没见过汽车 养家从不让他出门

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

习近平同美国总统特朗普通电话

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

数码
旅游
本地
艺术
公开课

数码要闻

750万小米空调升级10年免费包修:为用户节省15亿元

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

本地新闻

大学生军训哪家强,广西申请“出战”!

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版