媒体聚焦丨与清华孙茂松教授深聊：关于大模型和AI应用落地，一些重要的非共识结论|维纳|控制论|新论文|人工智能

分享至

转自腾讯科技

“大家对人工智能，讨论得已经很充分了。”

和孙茂松教授打招呼的时候，这是他说的第一句有关人工智能的话。

孙茂松教授是CAAI多语种智能信息处理专委会主任、清华大学计算机系教授、人工智能研究院的常务副院长、欧洲科学院外籍院士，以及自然语言处理与社会人文计算实验室（THUNLP）的学术带头人。他牵头制定了语言资源管理的ISO国际标准，并打造了全球最大的慕课平台之一“学堂在线”和早期AIGC探索的代表“九歌”诗词生成系统。

他的学生们也已经成为了当下中国大模型浪潮的中坚力量，比如面壁智能的刘知远、深言科技的岂凡超、幂律智能的涂存超。

在这个处于绝对焦点的行业里，“局内人”孙茂松教授始终保持着一种敏锐的“旁观者”视角。他甚至会通过外部媒体来捕捉行业关心的最新动向，并感慨：“有时媒体的思考比我们这些专注于技术研究的学者还要快。”

然而，在看似被讨论得“透彻”的共识之下，还有几个更重要的非共识结论。

在高山书院 10 周年年会的现场，我们没有和孙茂松教授聊过于具体的技术路线，而是把当下人工智能行业最受关注的经典命题，重新认真讨论了一遍。

比如，Scaling Law到底是不是大模型的第一性原理，行业至今其实并未达成真正的共识。

但孙茂松教授同时指出，所谓的Scaling law“边际效应递减”或许只是暂时的平台期，随着计算资源的超常持续投入，复杂巨系统存在在某个临界点再次触发能力“非线性突变”的可能性。

但是未来有两条关键的路径，一条路径是硅谷巨头在 Scaling Law 上进行一场巨大的豪赌，将算力资源再翻10倍甚至100倍，试图针对新的困难挑战（如空间智能）去撞击下一个“智能涌现”的临界点。

一旦撞击开下一个临界点，就又拉开了竞争差距，这也给国内基座模型公司也带来了巨大的压力：如何继续跟进这场军备竞赛？这不仅是技术层面的活儿，也是关于意志、资源、国力的较量。

另外一条路径，是实践与效率。大模型发展到今天，几乎成为了一种实验科学，基于各个领域或环节的架构创新，都可能带来能力和效率的提升。这条路径更适合大部分的企业，中国在过去一年的实践中，也在这个方向贡献了很多的开源成果。

当下大模型的能力已经能够支撑产业的发展，是不是到了所有企业都必须用AI重构业务的关键时刻？

孙茂松的回答是“不一定”，但是到了必须要把企业的业务逻辑彻底“过遍脑子”的关键时刻，真正和懂AI的人一起认真研究一下用AI重构业务的可能性，而不是在焦虑中盲目跟风，或者干脆完全放弃。

这种在技术“狂热”中保持“诊脉”式的审慎及基于其上的积极进取，正是当下大模型走向工业级生产力时，需要把握的定力。

Q：当前，从媒体到学术圈，对人工智能的讨论已经非常广泛。在您看来，还有哪些可能被忽略了的重要议题？

孙茂松：我认为目前大家对人工智能的关注是全方位的，从政府到民间，从学界到产业界，都给予了高度重视。几乎所有重要的话题都得到了充分的讨论，甚至有时媒体的思考比我们这些专注于具体技术研究的学者还要快。

我常常从媒体的报道中来了解当前大家关心的新问题。所以，我感觉应该没有太重要的东西被遗漏。

Q：一个老生常谈的问题是，关于大模型的“涌现”现象，它是否必须依赖于更大规模的参数才能实现？学术界是否已经研究出可能通过其他方式来催生这种能力的非线性突破的方式？

孙茂松：目前人工智能领域观察到的基本现象是，模型规模越大，参数越多，在训练方法得当、数据量充足的情况下，就越可能出现“涌现”。

这几乎是当前业界通过大量实践得出的一个经验性结论。

至于到底多大才合适，这没有一个明确的答案，需要靠实验来探索。虽然也有一些研究试图在小模型上针对特定任务复现类似的能力跃升，但从普遍意义上讲，规模依然是关键。

复杂系统的一个特点就是规模要大，小系统很难产生类似的效应。

Q：但是，是否如行业讨论的，scaling law的边际效应已经递减了？

孙茂松：边际效应递减是一般的经济学规律，但在互联网时代，某些典型现象已经不遵循这一定律。

在人工智能的“第一性原理”尚不清晰的当下，“Scaling Law”依然是有效的。

大模型有可能通过“涌现”击穿看似接近饱和的平台期，实现能力的非线性陡增。

这正是业界之所以愿意不计成本、持续扩大模型规模的驱动力所在：期待在某个临界点上，模型能力会发生质的飞跃。否则如果仅仅是能力的线性增长，那么投入的边际效应递减会渐次明显，驱动力自然就会停止。

Q：但如果持续押注 Scaling Law，数据会成为那个明显的瓶颈吗？特别是当 AI 从语言模型跨越到物理世界，数据短缺会不会是一个更致命的问题？

孙茂松：所谓的“数据撞墙”论，可能并没有想象中那么悲观。在不同的细分领域，我们总能找到打破瓶颈的技术演进路径。

首先，合成数据正从“无奈之举”变为一种主动的“补充策略”。当真实语料在特定长尾场景（比如非常细腻的情感表达或专业领域的逻辑推理）出现稀缺时，利用高性能大模型生成高质量的合成数据，可以有效补齐训练数据的短板。这种“以模型训练模型”的方式，能显著拉升模型的整体性能表现。

其次，在具身智能等更为复杂的物理（现实）世界场景中，可以分“两步走”。第一步是在仿真空间中进行大规模预训练，利用机器算力快速生成海量的模拟数据；第二步是回到真实物理世界，用相对少量、高质的真实采样数据进行精调对齐。

虽然仿真环境与物理（现实）世界之间存在“鸿沟（Simulation-to-Real Gap）”，但这种策略极大地降低了数据获取的成本。核心逻辑在于：利用大量的合成数据构建认知底座，再用少量的真实数据完成最后的物理对齐。这种“仿真+真实”的组合策略，应该是目前通往物理世界智能最为高效的路径。

Q：既然“Scaling Law”依然可靠，这是否意味着只有少数头部企业能够参与这场竞赛？对于普通企业和应用开发者而言，应该如何看待和参与到这股浪潮中？

孙茂松：我认为“scaling Law”主要是那些致力于构建基础大模型的头部企业需要关注的核心问题。它们需要不断探索模型能力的上限，思考并谋划投入非凡的人力和物力资源，将模型的通用基础能力做到极致。

但对于绝大多数做应用的企业而言，完全不必过分担忧这个问题。因为基础大模型公司在模型做大做好之后，自然会通过技术手段将其“做小”，在能力损失不大的前提下，让模型变得可用且成本可控。

所以，应用型企业更应该关注的是，如何利用这些已经相当不错的“基座”模型，来赋能自身的业务。目前时机已经基本成熟，各行各业都应该开始认真思考和探索，大模型能为自己带来什么。当然，我反对不分青红皂白地一哄而上，而是应该经过审慎的讨论和判断。

Q：您认为 2026 到 2027 年最值得期待的临界点在哪里？是模型记忆的突破、多 Agent 的深度协同，还是 AI 真正的自我进化？

孙茂松：从应用落地的急迫性来看，当前最现实的挑战依然是“幻觉（Hallucination）”。如果大模型无法将一本正经胡说八道的问题抑制到应用可以承受的程度，那么用户就难以在严肃场景中交付信任。因此，未来一两年，如何从工程和理论上继续最大限度地控制“幻觉”，还是行业最核心的攻坚战。目前已经有一些技术手段，虽然能把模型的幻觉降低很多，但是还是不够。

这与大模型的记忆机制也有相关性。我们需要的不仅仅是更长的上下文（Long Context），而是更智能的“注意力分配”，让模型在多 Agent 协同的复杂任务中，既能精准捕捉瞬时的关键信息，又能学会像人类一样“选择性遗忘”。

“全量记忆”往往意味着冗余和干扰，真正的智能在于判断什么是必须留存的“金子”，什么是该被过滤的“沙砾”。

虽然此类研究带有某种“改良“色彩，不像从 0 到 1 的理论颠覆那样引人瞩目，但它却是大模型进化为“工业级生产力”的关键一步。。

Q：现在是不是已经到了比较紧迫的时刻，每个企业都必须要考虑如何把AI能力加到自己的业务上？

孙茂松：我认为，起码到了所有企业都该静下心来，把大模型对业务的价值彻底“过遍脑子”的时候了。

我并不认为大模型必然会带来巨大变化，但大多数企业都有可能会受益。现在的关键是，我们需要把业务版图认真梳理一遍：哪些环节有了 AI 之后能跑得更快、更远？哪些环节又是 AI 基本使不上劲的？

“过遍脑子”的意思是，这事儿不能简单拍脑袋就定了。企业需要请那些真正有实战经验的人工智能专家坐在一起，像“问诊”一样认真讨论：这个场景是不是适合？能不能干？怎么干？

对于真正懂行的人工智能专家来说，判断哪些会是“虚火”、哪些有可能取得“实效”并不太难。

Q：展望 2026 年，从学术前沿到产业深水区，您认为模型基座、企业级应用和 AI Native 创新这三个维度，哪些关键动作将决定胜负？中国大模型与世界顶尖水平的“时差”究竟还有多大？

孙茂松：首先，谈谈模型基座。到目前为止，我认为国内顶尖大模型与世界一流的差距已经不大。

真正的不确定性在于未来的“分叉路口”。硅谷的一些巨头正准备在 Scaling Law 上进行一场巨大的豪赌，将算力资源再翻 10 倍甚至 100 倍，试图通过处理极限规模的多模态与物理世界数据，去撞击下一个“智能涌现”的临界点。因此不排除差距有可能突然明显拉大。

这种“大力出奇迹”的极致路线，给国内基座模型公司也带来了巨大的压力：是继续跟进这场军备竞赛，还是寻找差异化的突围路径？这不仅是技术活儿，也是关于意志、资源、国力的较量。

其次，在应用层，“AI+”已经从选答题变成了必答题。正如我之前提到的，企业现在必须“过遍脑子”。不能盲目地为了 AI 而 AI，更不能无视AI，而是要结合业务核心痛点，精准测算投入产出比（ROI）。从基本面上来看，现在的 AI 不应该成为锦上添花的点缀，而有可能重塑专业领域生产力的基本面貌。

最后，关于 AI Native 的创业，我认为时机已经差不多了。国内的基座模型能力已经足够好，足以支撑起各类创新应用。一个高水平的应用系统，如果能在海外基座模型上跑通，那么在国内成熟的基座模型上同样大有可为。

基座模型是“地基”，但决定房子好不好住、能不能卖出高价的，是创业者的产品想象力和工程落地能力。随着技术成本的临界点到来，我们有理由相信，2026 年有可能开启一个像移动互联网时代那样百花齐放的“大航海时代”。

Q：大模型的突破也带火了“具身智能”，但是语言模型的Next Token Prediction范式，真的也能够在“具身智能”上起作用吗？

孙茂松：我始终认同《控制论》作者维纳（Norbert Wiener）的观点：真正的 AGI 必然是具身智能。智能不应只是屏幕上的符号，它必须能在一个开放的、非预设的物理环境中与世界实时交互、互动。

语言模型之所以能取得巨大的成功，本质上是因为语言句子是一串具有“离散无限性（Discrete infinity）”的线性序列。

以“Apple”为例，它的语义指向相对简明，要么是能吃的苹果，要么是那家特定的科技公司。它的词边界是清晰的，句子序列又是高度线性的，这使得 Next Token Prediction（下文预测）这种逻辑能发挥出极高的效能。

但到了图像领域，逻辑就变了。图像中并不存在明确的“Token”，我们只能强行将其切分成一个个“补丁（Patch）”。比如一个 3×3 的黑色色块，它可能是一件衣服的局部，可能是桌面的一角，也可能仅仅是屏幕上的一个图标。更复杂的是，这个黑块可能由一堆黑色蚂蚁组成，也可能只是某片补丁中的一小部分。这种语义指向的高度不确定性，导致它缺乏像语言那样的整体逻辑感。

到了视频，维度从二维跃升至三维；而具身智能则是四维——三维空间再加上连续的时间。面对大千世界如此无穷的变化与复杂的物理互动，单纯依靠 Next Token Prediction 这种预测逻辑到底能不能“大力出奇迹”，现在还要打个问号。

因此，我始终认为，指望人形机器人在未来五年内进入现实世界，自主完成复杂的开放式任务，是不现实的。比如构建一个能在家庭环境中无微不至地照顾老人的具身机器人，这实在是太难了。

必须承认，具身智能的工程难度被行业严重低估了。

要让机器人在从未见过的陌生环境中，做出如同人类般精准、丝滑的感知与反馈，五年之内基本看不到大规模商用的可能。

我对目前“通用人形机器人”的狂热持保留态度，资本的过度追捧确实催生了一定的泡沫。“通用人形机器人”现在仍然属于最前沿的研究课题。

我认为，未来几年内，具身智能的“破局点”不在于通用，而在于“受限场景下的深耕”。现有的环境感知和强化学习技术，只有在边界相对清晰、任务相对单一的环境中才能真正“跑通”。

机器人是不是“人形”其实并没那么重要，我们更应该思考：在哪些具体的、非预设的环节中，机器人的自主决策能力是不可替代的刚需？

不过，谨慎并不代表悲观。我最近关注到一家做“灵巧手”的企业，他们的切入点就很务实：例如，可以考虑解决社区快递点的自动分拣问题。这种条件下，快递件的随意摆放杂乱无章，是典型的的“非标场景”，需要极强的视觉识别和触觉灵活性去翻找、核对。如果能把这个细分痛点打透，且成本可控，那么全国不胜枚举的快递点就是一片巨大的、确定性的市场。

所以，关键还是要找到合适的具体应用场景，而不是盲目地追求通用。

Q：最后谈一个题外话，我们发现，近两年提到人工智能，有几本书会经常被提起。比如卡尼曼的《思考，快与慢》、维纳的《控制论》。除了这些书之外，还有哪些理论可以跨界启发我们走向下一代AI的核心？

孙茂松：这些经典著作对今天的 AI 研究来说，更多是体现在形而上的思想层面。

以卡尼曼的《思考，快与慢》为例，它其实是基于认知心理学。AI 研究者之所以借鉴这个说法，是因为能清晰地帮助我们对智能工作进行归类和比对，其实属于一种“隐喻”，是在为 AI 的进化寻找一个“形而上”的理论支点。

同样，维纳的《控制论》也并非我们通常在工程领域学习的“控制理论”，它更接近于一种探讨人与机器本质的技术哲学。在图灵测试似乎已接近实现的今天，人工智能要向具身智能等更广大、困难的领域发展，就需要诉诸这些深刻的思想。

维纳提出，真正的智能体需要能在一个开放环境中，自我感知环境，并自主决定行动目标、计划等，通过与环境的互动和反馈（尤其是负反馈）来不断调整自身能力。这与强化学习的思想不谋而合。当我们思考如何让AI更加深刻时，会发现维纳早已指明了方向，我们现在在计算手段上似乎具备了沿着这条路走下去的条件。

总的来说，无论是“快思考、慢思考”还是《控制论》，都是我们在AI发展到特定阶段，为了寻求更深层次突破时，从相关学科的智慧宝库中汲取的养分。

我认为重要的思想大体都包含在这些著作之中了。不过，至少还要加上系统论，特别是复杂系统理论。当我们面对大模型展现出的“涌现”等“奇妙”现象而感到困惑时，应该会求助于系统论和复杂系统理论，它们为我们探索大模型的复杂性提供了必要的理论武器。

当然，基础的数学知识，比如矩阵运算，虽然貌似简单，但作为当前大模型的基本计算手段，也需要我们回过头去把它学透、用好。

感谢高山书院对本文的贡献

文郭晓静

编辑徐青阳

【免责声明】转载出于非商业性的教育和科研目的，只为学术新闻信息的传播，版权归原作者所有，如有侵权请立即与我们联系，我们将及时删除。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.