网易首页 > 网易号 > 正文 申请入驻

告别Transformer,重塑范式:上海交大首个「类人脑」大模型诞生

0
分享至



本文一作赵海,上海交通大学计算机学院长聘教授、博士生导师,上海交通大学通用人工智能(AGI)研究所所长。研究兴趣:自然语言处理、人工智能和大模型。据 MIT 主办的世界大学计算机学科排行榜 csrankings 数据统计,上海交通大学计算机学科排名国内第三,赵海教授在其中的 AI 和 NLP 方向的论文贡献度第一,占整个交大标准发表总量 1/4。Google Scholar 引用 11900 次。2022、2023、2024 年,连续入选爱思唯尔高被引学者。

本文二作伍鸿秋,赵海教授 2020 级博士生;本文三作杨东杰,赵海教授 2022 级博士生;本文四作邹安妮,赵海教授 2022 级硕士生;本文五作洪家乐,赵海教授 2024 级硕士生。

当前 GPT 类大语言模型的表征和处理机制,仅在输入和输出接口层面对语言元素保持可解释的语义映射。相比之下,人类大脑直接在分布式的皮层区域中编码语义,如果将其视为一个语言处理系统,它本身就是一个在全局上可解释的「超大模型」。

因此,为了解决现有基于 Transformer 大模型的三个主要缺陷:算力需求高、不可解释性的黑箱、上下文规模受限,上海交通大学团队刚刚发布首个宏观模拟人类大脑全局机制的大语言模型 BriLLM,脱离了传统 Transformer 架构的限制,以脑科学神经系统为灵感,用受大脑启发的动态信号传播替代了基于注意力的架构。



  • Github 地址:https://github.com/brillm05/BriLLM0.5
  • 论文地址:https://arxiv.org/pdf/2503.11299
  • 模型权重:https://huggingface.co/BriLLM/BriLLM0.5

突破 Transformer:模拟人脑学习机制

以 Transformer 为主流的当代大模型架构存在一些明显的局限性:

  • 算力黑洞:Transformer 的自注意力机制本质上是平方级别(O (n²))的时间与空间复杂度,处理更长的上下文时,模型的计算开销将随输入长度的平方增长。

  • 黑箱困境: Transformer 在输入和输出层可视化方面有一定的可解释性,但其中的中间层逻辑仍像黑盒子一样缺乏机制透明度。

  • 上下文枷锁:模型参数量必须随上下文扩展,随着所支持的上下文长度的增长,模型的体量也会呈平方幅度增长,无法像人脑一样随时调动记忆。

「人类大脑无需扩容就能处理终身记忆,这才是 AGI 该有的样子!」论文一作赵海教授指出。赵海团队的设计灵感来源于脑科学的两项关键发现:

静态语义映射

大脑皮层区域分工明确,Nature 2016 论文的研究显示,语言元素的语义特征分布在整个大脑皮层,不同的皮层区域会编码特定的语义内容,而且这种组织方式在不同个体之间具有一致性。比如,当人们思考 「房子」 的时候,大脑中会激活与 「房子」 概念相关的特定区域。

动态电信号传导

人的决策过程依赖于神经通路中不断变化的电信号流动 —— 即便同样的输入,信号路径和强度也会根据语境与任务需求而变化。

受此启发,赵海团队提出了一种全新的机器学习机制 ——SiFu(Signal Fully-connected Flowing)学习机制。他们在此基础上构建了BriLLM 模型,这是第一个在计算层面上模拟人脑全局工作机制的语言模型。

BriLLM 模型突破了传统 Transformer 架构的限制,这是一种基于有向图的神经网络设计,使得模型中所有节点都具备可解释性,而非像传统模型那样仅在输入输出端具有有限的解释能力。模型内部的信号流传导遵循 「最小阻力原则」,模拟大脑信息流动的方式,不仅提升了模型的效率,也增强了其解释性。



在类脑计算领域,spike 脉冲神经网络是神经网络类脑化改造的重要方法之一,它是在神经元激活方式上做了局部微观的类脑改进。为了和这样脉冲改进的类脑 GPT 大模型区分开来。赵海教授团队将 BriLLM 称之为「原生类脑大模型」,以体现 BriLLM 在宏观上对于人脑的计算模拟。

02 三大颠覆性创新,重新定义 LLM 底层逻辑

信号全连接流动(SiFu)机制

  • 类人脑架构:全连接有向图,节点之间具备双向连接,每个词元分配专属节点。

  • 动态决策:信号沿「最小阻力路径」流动,可根据节点相关性调节信号强度,实时生成预测结果。

在 SiFu 中,信号传递取代了传统机器学习中的核心预测操作,就像神经电信号在突触间跳跃,最终激活目标神经元的过程。



SiFu 有向图的示意图(节点旁的数字表示能量分数)

无限上下文处理

预测过程通过节点间的信号传播实现。由于信号可以自由流动于网络各节点之间,因此序列预测理论上支持任意长的上下文输入,且不依赖于模型的规模扩展。

也就是说,模型参数完全独立于序列长度,并且长上下文无需增加参数量。

这和人脑的功能优势相似,并不因为需要学习记忆大量知识而就必须扩充模型容量。

100% 可解释

  • 全模型可解释:用户可定义的实体(如概念、token 或其他可解释单元)可直接映射到图中的特定节点,实现端到端全面的可解释性。

  • 推理全流程可解释:既然每一个节点可解释、可理解,而决策预测过程在节点间通过信号传播进行,因此决策过程同样透明。

性能对标初代 GPT

尽管作为概念验证的初代模型(2B/1B 参数)未追求规模,但实验表现稳定,展现全新大语言模型的全流程链路已经打通。

团队发布了 BriLLM-Chinese 和 BriLLM-English 两个版本:

  • 中文版 20 亿参数(稀疏训练后仅占原理论参数 13%)
  • 英文版 10 亿参数(稀疏率 94.3%)



受到大脑神经通路复用的启发,BriLLM 利用「低频词元边共享」的方法,让参数规模降低 90%:

大多数二元组(bigram)很少出现甚至未出现,因此允许对不活跃边共享参数。对于这些低频二元组,采用一个固定且不更新的矩阵,从而将模型大小缩减至中文版本约 20 亿参数、英文版约 10 亿参数,分别仅占原模型规模的 13.0% 和 5.7%。这不仅减少了参数量近 90%,同时也显著加速了训练过程。

这为经济实用的千亿级脑启发模型铺平道路。按照这个稀疏比率,当 BriLLM 的 token 词表扩展到目前 GPT-LLM 同等程度的 4 万时候(当前为 4000),预期的模型参数量将在 100-200B(1000-2000亿参数)。全词表的 BriLLM 并不比目前 SOTA 的 GPT-LLM 更大。但是请注意,BriLLM 不会有 GPT-LLM 那种随着输入上下文增长而必须进行模型扩张的问题,因为前者天然支持无限长物理上下文,并和模型规模扩张解耦。即,模型规模不变情况下,物理支持任意长上下文。



BriLLM 的架构

04 展望:多模态 + 具身智能的终极形态

BriLLM 的「节点 - 信号」设计以及全模型可解释性天生支持多模态融合:

模型中的节点不仅限于表示语言 token,还可以映射多种模态的单元。引入新模态时,只需为其定义对应的节点,无需从头训练模型 —— 这与依赖输入 / 输出界面对齐的传统大语言模型截然不同,例如:

  • 添加视觉节点:直接处理图像语义
  • 添加听觉节点:整合声音信号流
  • 添加具身交互节点:环境输入与实时驱动信号传播

「这将是首个能真正模拟感知 - 运动整合的通用框架。」团队透露,下一步将向实现多模态脑启发 AGI 的方向努力。

简而言之,BriLLM 提出了全新的语言模型架构、全新的动态信号驱动的生成式人工智能任务框架以及首个对人类大脑核心表达与功能机制的宏观全局尺度计算模拟的模型。

本项目已进入选上海交通大学「交大 2030」计划 2025 年度重点项目资助。该重点项目每年全校动用双一流建设经费仅资助五项,额度 500 万。按照「交大 2030」计划的官方指南明确,它只资助颠覆性从 0 到 1 的创新、世界级的基础研究。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这届网友太狠了:Clawdbot爆火,狂囤40台Mac mini来跑

这届网友太狠了:Clawdbot爆火,狂囤40台Mac mini来跑

机器之心Pro
2026-01-26 11:27:16
U23国足三大核心球员去向已定 徐彬去英超 李昊和杨希锁定下家

U23国足三大核心球员去向已定 徐彬去英超 李昊和杨希锁定下家

篮球看比赛
2026-01-28 09:57:40
布伦森28+4德罗赞34+5 尼克斯战胜国王喜迎三连胜

布伦森28+4德罗赞34+5 尼克斯战胜国王喜迎三连胜

北青网-北京青年报
2026-01-28 19:02:07
44歲薛凱琪生圖流出真實容貌曝光,越見精緻臉上一部位惹關注

44歲薛凱琪生圖流出真實容貌曝光,越見精緻臉上一部位惹關注

粤睇先生
2026-01-28 10:23:44
赫尔松俄军主动后撤,美国会对川普强吞格陵兰发出弹劾通牒

赫尔松俄军主动后撤,美国会对川普强吞格陵兰发出弹劾通牒

史政先锋
2026-01-27 19:58:21
属鸡的,1月28到31号这四天,你等的“果子”要熟了

属鸡的,1月28到31号这四天,你等的“果子”要熟了

牛锅巴小钒
2026-01-28 06:25:29
10岁抗癌小王子豪豪去世,爸爸称“孩子解脱了”;曾因“王子请恢复健康”感动网友

10岁抗癌小王子豪豪去世,爸爸称“孩子解脱了”;曾因“王子请恢复健康”感动网友

潇湘晨报
2026-01-27 11:37:11
央视暗访触目惊心:这三样“毒蔬菜”买菜这3样果断避开

央视暗访触目惊心:这三样“毒蔬菜”买菜这3样果断避开

三农老历
2026-01-28 17:00:40
王室海报热捧诗妮娜印度之行,泰英双语盛赞贵妃新偶像,正式翻身

王室海报热捧诗妮娜印度之行,泰英双语盛赞贵妃新偶像,正式翻身

夜深爱杂谈
2026-01-28 17:55:33
险爆大冷!卫冕冠军辛纳惊魂一幕!克服高温抽筋苦战4盘艰难晋级

险爆大冷!卫冕冠军辛纳惊魂一幕!克服高温抽筋苦战4盘艰难晋级

搏击江湖
2026-01-27 20:53:46
这一次,哈梅内伊真的怕了!!!

这一次,哈梅内伊真的怕了!!!

山河路口
2026-01-27 12:42:53
万万没想到!这个,“爱中国”,外籍网红,竟在外网辱骂国人?

万万没想到!这个,“爱中国”,外籍网红,竟在外网辱骂国人?

淡淡稻花香s
2026-01-28 15:28:55
大妈花50万买基金,账号忘了15年,孙子找回看到余额,全家愣住了

大妈花50万买基金,账号忘了15年,孙子找回看到余额,全家愣住了

黄家湖的忧伤
2025-08-12 17:05:12
起风了,白营新人事安排出炉,黄国昌柯文哲获新职,郑丽文抛重磅

起风了,白营新人事安排出炉,黄国昌柯文哲获新职,郑丽文抛重磅

时尚的弄潮
2026-01-28 18:07:37
美联储,大消息!特朗普:将很快宣布主席人选!

美联储,大消息!特朗普:将很快宣布主席人选!

证券时报
2026-01-28 11:43:24
詹姆斯入选!美媒更新交易市场热门大鱼TOP5:4人与勇士息息相关

詹姆斯入选!美媒更新交易市场热门大鱼TOP5:4人与勇士息息相关

锅子篮球
2026-01-28 18:25:41
塞内加尔前国脚:球队在非洲杯决赛罢赛的时候,马内不知所措问我怎么办

塞内加尔前国脚:球队在非洲杯决赛罢赛的时候,马内不知所措问我怎么办

懂球帝
2026-01-28 11:48:19
德州市委书记田卫东、滨州市委书记宋永祥,已任山东省政协党组成员!

德州市委书记田卫东、滨州市委书记宋永祥,已任山东省政协党组成员!

小鬼头体育
2026-01-28 09:53:31
常州官宣!涉及常泰铁路、城中村改造、市一院改造…

常州官宣!涉及常泰铁路、城中村改造、市一院改造…

常州大喇叭
2026-01-28 17:03:02
承认吧,这不是状态回暖:快船用19场比赛完成了一次“体系重构”

承认吧,这不是状态回暖:快船用19场比赛完成了一次“体系重构”

体育闲话说
2026-01-28 13:45:20
2026-01-28 19:47:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12209文章数 142551关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

知名企业家熊海涛被留置 被指与成都主要领导违纪有关

头条要闻

知名企业家熊海涛被留置 被指与成都主要领导违纪有关

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

王祖贤入驻某音:一条7秒视频吸粉55万

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

房产
本地
手机
艺术
公开课

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

手机要闻

三星确认隐私显示屏功能:可防偷窥,Galaxy S26 Ultra有望首发

艺术要闻

震撼!19世纪油画巨匠的作品美得不可思议!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版