![]()
2024年,全球AI研发投入超过1800亿美元,但一个基础问题悬而未决:我们造出的东西,真的算"智能"吗?微软研究院把这个争议搬上了播客——让Transformer架构的专家和人脑模拟的研究者当面交锋。
两种智能架构的正面碰撞
微软研究院负责人Doug Burger主持了这场对谈。他找来的两位嘉宾立场分明:Nicolò Fusi深耕数字架构,是Transformer大语言模型(LLM)的技术专家;Subutai Ahmad来自Numenta,专注用算法复刻人脑的分布式学习机制。
Burger的开场很直接。「我们要讨论的是:数字智能究竟会不会超越人类,还是这两种架构注定各有所长?」这个问题决定了AI未来的走向——是替代,还是互补。
Fusi的研究背景指向一个关键事实:当前LLM的底层是Transformer,一种2017年才出现的架构。它靠海量参数和静态训练集"记住"世界,推理时不再学习。Ahmad代表的神经科学路径则完全相反——人脑没有训练集和推理的割裂,每分每秒都在持续更新连接权重。
效率差距:人脑只用20瓦
能耗对比暴露了数字架构的尴尬。人脑运行功率约20瓦,相当于一颗LED灯泡;训练GPT-4级别的模型,耗电量足以供一个小城市运转数月。Ahmad指出,这种差距不只是工程优化空间,而是架构层面的根本差异。
人脑的聪明在于"稀疏激活"。面对具体任务,只有相关脑区被调用,其余神经元保持静默。Transformer则是"稠密计算"——每次前向传播都要激活绝大部分参数,无论问题多简单。
Fusi的回应很务实:数字架构的劣势被规模效应部分抵消。人脑有860亿神经元,但连接强度受物理限制;硅基芯片可以堆叠万亿参数,用暴力计算弥补效率短板。问题是,这条路有没有天花板?
![]()
具身智能:被忽视的维度
对话触及一个更少被讨论的断层:感官-运动接地(sensory-motor grounding)。人脑从婴儿期就通过身体与环境互动学习——抓取物体、保持平衡、感受疼痛。这些经验构成了智能的基底。
LLM的"世界"只有文本。它读到"咖啡烫嘴",但从未体验过温度梯度如何触发缩手反射。Ahmad认为,这种缺失不是数据量问题,而是表征形式的本质局限。语言是对经验的压缩编码,压缩意味着信息丢失。
Fusi没有否认这一点,但他指出另一个被低估的现实:多模态模型正在快速填补缺口。视觉、音频、甚至机器人控制信号的接入,让数字系统开始建立某种"准具身"关联。这和真正的身体经验是否等价?双方都没有答案。
智能的定义权争夺战
Burger把讨论推向更棘手的层面:如果我们连"智能"都定义不清,如何判断机器是否拥有它?
心理学界有百年争议。图灵测试曾被奉为圭臬,但GPT-4通过后,批评者说它只是"高级模仿"。认知科学家提出新标准:因果推理、抽象迁移、元认知——但每项都引发新的测量困境。
Ahmad的立场偏向生物保守主义。「我们理解的智能,是基于碳基生命40亿年进化的产物。用硅基系统复现它,可能需要重新发明轮子。」Fusi则更接近功能主义:如果输出不可区分,内部机制的差异重要吗?
这场分歧没有结论。但它揭示了一个行业盲区:AI竞赛的参与者们忙于扩大规模,却很少停下来问——我们究竟在复制什么?
播客结尾,Burger提到一个细节:Numenta的脑启发算法在某些特定任务上已展现出数量级的效率优势,但商业化路径远未清晰。如果神经科学的洞察最终被证明是对的,过去八年砸向Transformer的数千亿美元,有多少属于路径依赖的沉没成本?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.