网易首页 > 网易号 > 正文 申请入驻

大模型的进化方向:Words to Worlds | 对话商汤林达华

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

李飞飞团队最新的空间智能模型Cambrian-S,首次被一个国产开源AI超越了。



从这张展示空间感知能力的雷达图中,一个名为SenseNova-SI的模型,它在多个维度上的能力评分均已将Cambrian-S给包围。

而且从具体的数据来看,不论是开源或闭源,不论是2B或8B大小,SenseNova-SI在各大空间智能基准测试中都拿下了SOTA的成绩:



而这个SenseNova-SI背后的操刀者,正是商汤科技

在量子位与商汤科技联合创始人、首席科学家林达华深入交流过程中,他并没有掩饰对这一进展的肯定:

  • 在空间智能这个赛道上,基于长期的视觉积累,我们已经走到了世界前列。

但与此同时,林达华也是随即话锋一转,表示他并不愿意把这个故事简单地讲成“赢了李飞飞”或者“赢了OpenAI”。

更深层的,林达华更像是在释放一种信号,一个关于AI技术范式正在发生剧烈震荡的信号——

单纯依赖参数规模的AI范式逐渐面临瓶颈。我们站在了新的十字路口。

因为在Scaling Law的边际效应开始递减、很多人还在内卷大语言模型时,林达华和他的团队选择的却是一条很少有人走的路:Back to research(回归实验室)。

具体而言,是从最底层开始死磕原生多模态和空间智能,以此来完成一场从Words(语言)到Worlds(世界)的迁徙

而在林达华看来,在这场迁徙中,中国科技公司已经抢到了一张船票。

我们该回归实验室了

回望过去三年,从2022年11月ChatGPT横空出世,到GPT-4的震撼登场,AI行业经历了一场狂飙式的野蛮生长。

那是一个把Scaling Law奉为圭臬的时代,只要算力足够大、GPU足够多、数据堆得足够高,模型的能力似乎就能无限增长。

但到了2024年下半年,风向变了。

人们发现,虽然榜单上的分数还在涨,从GPT-4到GPT-5.2,再到Gemini的各种升级版,分数的跃迁越来越快,但带给人们的惊艳感却在边际递减。

林达华一针见血地指出:

  • 原来的旧路径,也就是单纯依靠Scale的主流范式,虽然把模型推到了一个很高的高度,但也逐渐触碰到了天花板。
  • 分数提升越来越快,但模型对物理世界的解释力、对复杂逻辑的泛化能力,并没有实现质的飞跃。

与此同时,OpenAI前首席科学家Ilya Sutskever的一声疾呼“Back to Research”,在硅谷和全球AI圈里引发了不小的震动。



这与林达华的思考不谋而合:

  • 我们之前的路是大力出奇迹,现在的路,必须是回归科研的本质。

为何会如此?简单来说,因为纯语言模型的红利快吃完了。

目前的顶尖大模型,在数学、编程上已经接近奥赛金牌水平,但在理解物理世界、处理三维空间关系上,可能连一个几岁的小朋友都不如。

未来的AGI,绝不会只是一个陪你聊天的Chatbot,也不应仅仅活在文本的逻辑里。它必须是一个能够理解物理世界、具有多感官能力的世界模型。

林达华强调说:

  • 人类的智能不只有语言。
  • 人类与世界的交互是多模态的——我们用眼睛看,用耳朵听,用手去触摸。AI的未来,在于从读万卷书(语言模型)进化到行万里路(空间与世界交互)

在这个新旧交替的时间节点,商汤选择不再盲目跟随大语言模型的参数竞赛,而是掉转船头,向着原生多模态这快更难啃的方向进发。

现在的模型连手指都数不清

现在的多模态大模型,大多都是有局限性的。

对于这个观点,林达华给出了一个非常直观且略带幽默的案例。

哪怕是强如Grok或者GPT-4的早期版本,当你丢给它一张人手的照片,问它有几根手指时,它经常会自信地回答“5根”。

哪怕图片里的人手因为角度或畸变显示出6根或4根,AI的答案依旧是如此。



再比如,给模型看一张简单的三维积木图,问它“从上往下看是什么样子”,大多数模型都会选错。

它们明明看到了图片,为什么还会胡说八道呢?

因为它并没有真正在看。

林达华打了一个极其生动的比方:

  • 这就好比一个盲人,在黑暗中闭眼学习了十年。他读了万卷书,大脑极其发达,逻辑思维严密。突然有一天,你让他睁开眼看世界。
  • 他的第一反应是什么?是他会拼命地试图用他过去十年在书本里学到的语义概念,去硬套眼前看到的东西。

在传统的多模态架构(拼接式架构)中,通常是一个视觉编码器(Vision Encoder)加上一个大语言模型。

视觉编码器把图片翻译成语言模型能听懂的Token,然后扔给大语言模型去推理。

在这个过程中,大语言模型依然是那个“闭眼学习了十年”的大脑。它看到“手”这个图像Token,大脑里立刻调出的先验知识是“手有5根手指”,会直接覆盖掉眼睛看到的真实像素细节。

林达华分析道:

  • 它不是真的理解了三维空间关系,它只是在靠概率猜词。



这种拼接式的路线,虽然能快速出成果,但缺陷是致命的:

视觉信号在进入大脑的那一刻,就被降维、被阉割了。大量的空间细节、三维结构、物理规律,在转化为语言Token的过程中流失殆尽。

这就是为什么现在的模型数学能拿金牌,却连手指都数不清、连积木都搭不明白的原因了。

要解决这个问题,修修补补似乎已经是无济于事。必须从底层架构上进行一场彻底的革新。

商汤原生多模态的解法

这场革新的产物,就是商汤刚刚开源的NEO架构,以及基于此架构的SenseNova-SI模型。



在深入了解这个架构之前,我们需要先理解什么是原生多模态。

林达华的解释是这样的:

  • 模式上不再是“视觉眼睛+语言大脑”的拼接。在NEO架构里,从模型最底层的Transformer Block开始,每一个细胞都能同时处理视觉和语言信号。

这听起来很抽象,但在技术实现上却极其硬核。

在NEO架构中,视觉Token和文本Token不再是“先后进入”或“翻译关系”,而是“一块进入模型的每一层。

商汤设计了专门的混合注意力机制(Mixed Attention),让模型在进行每一次推理计算时,既能参考文本的上下文,又能实时“回头看”图像的原始特征。



为了让模型真正理解空间,林达华团队还干了一件反直觉的事——

他们不再只用预测下一个词(Next Token Prediction)来训练模型,而是引入了跨视角预测

简单来说,就是给模型看一个物体的正面,让它去预测这个物体侧面、背面长什么样。

林达华表示:

  • 这就像教小孩子搭积木、看世界一样,你在脑海里构建三维模型的过程,就是空间智能诞生的过程。

这种原生架构带来的效果是惊人的——

数据效率提升了10倍。

例如SenseNova-SI仅用了同类模型10%的训练数据,就达到了SOTA水平。而且,它不再是靠死记硬背,而是真正理解了三维空间关系。

正如我们前文提到的对比评测中,SenseNova-SI不仅超越了李飞飞团队的Cambrian-S,更是在空间推理、幻觉抑制等关键指标上表现更优。

林达华总结道:

  • 我们希望把一个闭眼狂奔的盲人,变成了一个真正睁眼看世界的观察者。
落地,落地,还得看落地

技术再牛,如果不能变成生产力,终究只是实验室里的玩具。

在量子位与林达华的交流过程中,他反复提到了一个词:工业红线。

  • 我们内部有一个标准:任何技术,如果它的使用成本高于它创造的价值,那就是没过工业红线。

这是因为大模型行业目前最大的痛点,除了不够聪明,就是太贵、太慢

特别是在视频生成领域,虽然Sora惊艳了世界,但生成几秒钟视频需要消耗巨大的算力,推理时间动辄几分钟甚至几小时。

这种成本和延迟,根本无法支撑大规模的商业应用。

“只有当推理成本以每年1-2个数量级的速度下降时,AI才能从Demo级的炫技,变成石油级的工业生产力。”

为了跨过这条红线,商汤在落地应用上下足了功夫。林达华以商汤最新实时语音驱动数字人产品SekoTalk为例,展示了什么叫算法和系统协同的极致优化。

目前的视频生成主流模型都是基于扩散模型,生成一张图往往需要迭代几十步甚至上百步。

但这个过程的步骤就不能减少吗?答案是否定的。

林达华团队利用一种名为算法蒸馏的技术,硬生生将扩散模型的推理步数,从100步压缩到了4步

这不是简单的偷工减料,而是基于对模型分布的深刻理解。林达华解释说:

  • 模型在从白噪声变成图像的过程中,不同阶段处理的数据分布是完全不同的。以前是用同一套参数跑100遍,现在是分阶段用不同参数跑4遍,让专业的参数干专业的事。

如此打法之下,效果依旧是惊人:64倍的速度提升。

这就意味着在不久的将来,你只需要一张消费级的显卡(比如RTX 4090甚至更低),就能实时生成高质量的数字人视频。



△SekoTalk生成的视频

聊至此处,林达华也表现出了激动之情:

  • 以前生成20秒视频要跑一小时,现在我们能做到实时生成。这不仅是效率的提升,更是商业模式的质变。
  • 这直接打通了AI在直播、短视频制作等领域的规模化落地路径。

从SenseNova-SI的底层架构创新,到SekoTalk的极致落地优化,商汤正在践行林达华所说的双轮驱动:

一手抓Back to Research的原始创新,一手抓击穿工业红线的落地价值。

One More Thing

在对话的最后,林达华也为当下想要投身AI大浪潮中的年轻人给予了一些宝贵的建议:

  • 不要只盯着大语言模型来卷,这个赛道真的太拥挤了。

林达华诚恳地表示,年轻一代的研究者和创业者,应该把视野打开。

  • 具身智能、AI for Science、工业制造、生命科学……这些都是非常好的领域。
  • 智能不只有语言,AI的未来在于从读万卷书进化到行万里路。

林达华最后说道,在这场从Words to Worlds的宏大迁徙中,中国拥有全世界最丰富的场景、最完整的工业体系。这片土壤,天生适合培育那些能与物理世界深度交互的AI。

在这个赛道上,中国科技公司已经抢到了一张船票;而未来的头等舱,属于那些敢于回归实验室、敢于勇闯无人区的年轻人。

SenseNova-SI地址:
https://github.com/OpenSenseNova/SenseNova-SI

NEO地址:
https://github.com/EvolvingLMMs-Lab/NEO

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
写入教科书的一天:F-35在德黑兰完成全球首次实战空对空击杀

写入教科书的一天:F-35在德黑兰完成全球首次实战空对空击杀

斌闻天下
2026-03-06 07:30:03
连民生用水都不能吐槽了吗?到底是谁在害怕?不去解决问题,解决提问题的?

连民生用水都不能吐槽了吗?到底是谁在害怕?不去解决问题,解决提问题的?

盐城市民网
2026-03-06 11:25:34
特朗普称不会接受哈梅内伊儿子担任伊朗新领导人,“我必须亲自参与任命”,伊方回应:这完全是伊朗人民的事,任何人都无权干涉

特朗普称不会接受哈梅内伊儿子担任伊朗新领导人,“我必须亲自参与任命”,伊方回应:这完全是伊朗人民的事,任何人都无权干涉

扬子晚报
2026-03-06 07:35:12
广东一女子收到男友送的生日礼物刮刮乐花束,刮出一等奖80万元,最新回应:奖金将孝敬父母、旅游、存银行

广东一女子收到男友送的生日礼物刮刮乐花束,刮出一等奖80万元,最新回应:奖金将孝敬父母、旅游、存银行

大象新闻
2026-03-06 02:03:20
鹅厂门口爆满了!腾讯工程师在总部楼下免费安装OpenClaw

鹅厂门口爆满了!腾讯工程师在总部楼下免费安装OpenClaw

快科技
2026-03-06 15:16:08
美国公海动武被批评,印度一声不吭遭质疑,美军在印度洋炸毁伊朗军舰

美国公海动武被批评,印度一声不吭遭质疑,美军在印度洋炸毁伊朗军舰

环球网资讯
2026-03-06 06:57:07
冷知识:真的不建议大家买超大蓝莓

冷知识:真的不建议大家买超大蓝莓

大象新闻
2026-03-05 20:15:04
伊朗死亡超3000人,库尔德武装攻陷西部4城镇,波斯开启疯狂模式

伊朗死亡超3000人,库尔德武装攻陷西部4城镇,波斯开启疯狂模式

史政先锋
2026-03-06 08:49:03
客户刚收货就被炸死了,义乌也难

客户刚收货就被炸死了,义乌也难

南风窗
2026-03-06 10:11:56
全国人大代表唐利军:建议短视频平台凌晨1点至5点“深夜静默”

全国人大代表唐利军:建议短视频平台凌晨1点至5点“深夜静默”

闪电新闻
2026-03-05 22:37:26
巴林美军官住宅被定点清除,80枚集束炸弹空袭特拉维夫!

巴林美军官住宅被定点清除,80枚集束炸弹空袭特拉维夫!

胜研集
2026-03-06 15:09:57
炸裂!巴萨18岁新星重伤归来5场狂轰4球,拉玛西亚再出中场真核!

炸裂!巴萨18岁新星重伤归来5场狂轰4球,拉玛西亚再出中场真核!

田先生篮球
2026-03-06 11:05:50
下饭文化杀死了多少中国胃,一碗米饭的阴谋

下饭文化杀死了多少中国胃,一碗米饭的阴谋

富贵说
2026-03-05 15:56:38
太突然!上海人熟悉的“老舅妈”嫩娘因病去世

太突然!上海人熟悉的“老舅妈”嫩娘因病去世

上观新闻
2026-03-06 12:37:06
真只死了6个?曝美军承包商紧急招聘数名临时工,专门处理阵亡士兵物品

真只死了6个?曝美军承包商紧急招聘数名临时工,专门处理阵亡士兵物品

不掉线电波
2026-03-06 10:00:34
霍尔木兹44艘对124艘!西方航运停摆慌神,中国船队逆势突围硬招

霍尔木兹44艘对124艘!西方航运停摆慌神,中国船队逆势突围硬招

壹知眠羊
2026-03-06 11:51:34
当指数成为标配,为何仍要拥抱主动权益?

当指数成为标配,为何仍要拥抱主动权益?

铑财
2026-03-06 10:27:25
特朗普邀一众牧师为自己和美军祈祷:牧师们站在特朗普周围将手搭在彼此身上

特朗普邀一众牧师为自己和美军祈祷:牧师们站在特朗普周围将手搭在彼此身上

大风新闻
2026-03-06 12:00:04
伊朗越打越猛,特朗普骑虎难下!美国实际上已经输了

伊朗越打越猛,特朗普骑虎难下!美国实际上已经输了

哲叔视野
2026-03-06 09:26:23
美论坛:一旦中国禁止美国加入中国空间站,美国是否有权将其击落

美论坛:一旦中国禁止美国加入中国空间站,美国是否有权将其击落

草莓信箱
2026-03-05 20:01:26
2026-03-06 18:20:49
量子位 incentive-icons
量子位
追踪人工智能动态
12221文章数 176403关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

特朗普威胁:对古巴采取行动只是时间问题

头条要闻

特朗普威胁:对古巴采取行动只是时间问题

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

经济主题记者会 潘功胜吴清等出席演讲

汽车要闻

岚图梦想家OTA升级:华为乾崑智驾ADS V4.1满血登场

态度原创

艺术
家居
亲子
本地
公开课

艺术要闻

敦煌壁画里的“动物世界”,温馨有爱!

家居要闻

暖棕撞色 轻法奶油风

亲子要闻

83岁爷爷独居在东北,孙女邀请一起回北京没想到爷爷这么回答?

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版