网易首页 > 网易号 > 正文 申请入驻

全流程国产GPU,上下文提速100倍!中国科学院发布「线性复杂度」类脑大模型

0
分享至

新智元报道

编辑:LRST

【新智元导读】SpikingBrain借鉴大脑信息处理机制,具有线性/近线性复杂度,在超长序列上具有显著速度优势,在GPU上1M长度下TTFT 速度相比主流大模型提升26.5x, 4M长度下保守估计速度提升超过100x;在手机CPU端64k-128k-256k长度下较Llama3.2的同规模模型Decoding速度提升4.04x-7.52x-15.39x,展示了通过借鉴大脑结构和功能构建新一代AI基础模型和架构的研究路径具有强大潜力。

当前主流大模型基于Transformer架构、在Scaling law驱动下通过增加网络规模、算力资源和数据量提升智能水平并取得了巨大成功。

然而,Transformer架构相对于序列长度具有二次方复杂度,使其训练和推理开销巨大,超长序列处理能力受限。

近日,中国科学院自动化研究所李国齐、徐波团队借鉴大脑神经元内部复杂工作机制,发布了国产自主可控类脑脉冲大模型SpikingBrain (瞬悉)-1.0,能够以极低的数据量实现高效训练,模型具有线性/近线性复杂度,显著提升长序列的训练和推理效率,训练和推理全流程在国产GPU算力平台上完成。

网络端的试用端口网址:https://controller-fold-injuries-thick.trycloudflare.com

中文技术报告网址:https://github.com/BICLab/SpikingBrain-7B/blob/main/SpikingBrain_Report_Chi.pdf

英文技术报告网址: https://arxiv.org/abs/2509.05276

模型代码网址:https://github.com/BICLab/SpikingBrain-7B

研究背景

现有主流大模型基于Transformer架构,其基本计算单元为点神经元模型:简单乘加单元后接非线性函数,这条简单神经元加网络规模拓展的技术路径可以被称为「基于外生复杂性」的通用智能实现方法。

如前所述,这一路径面临着功耗高、可解释性差等问题。

人脑是目前唯一已知的通用智能系统,包含约1000亿神经元和约1000万亿突触数量、具有丰富的神经元种类、不同神经元又具有丰富的内部结构,但功耗仅20W左右。

鉴此,李国齐研究团队相信还有另一条路径-「基于内生复杂性」的通用智能实现方法:即找到一条融合神经元丰富动力学特性、构建具有生物合理性和计算高效性的神经网络新路径,其将充分利用生物神经网络在神经元和神经环路上的结构和功能特性。

在该思路下,探索脑科学与人工智能基础模型架构之间的桥梁、构建新一代非Transformer的类脑基础模型架构,或将引领下一代人工智能的发展方向、为实现国产自主可控类脑大模型生态提供基础积累。

核心技术

SpikingBrain-1.0基于脉冲神经元构建了线性(混合)模型架构,具有线性(SpikingBrain-7B)及近线性复杂度(SpikingBrain-76B,激活参数量12B)的类脑基础模型(图1)。

图1. SpikingBrain框架概览

为解决脉冲编码时的性能退化问题,构建了自适应阈值神经元模型,模拟生物神经元脉冲发放的核心过程,随后通过虚拟时间步策略实现「电位-脉冲」的转换,将整数脉冲计数重新展开为稀疏脉冲序列。

借助动态阈值脉冲化信息编码方案,可以将模型中计算量占比90%以上的稠密连续值矩阵乘法,替换为支持事件驱动的脉冲化算子,以实现高性能与低能耗二者兼顾:脉冲神经元仅在膜电势累积达到阈值时发放脉冲事件,脉冲到达时触发下游神经元活动,无脉冲时则可处于低能耗静息状态。

进一步,网络层面的MoE架构结合神经元层面的稀疏事件驱动计算,可提供微观-宏观层面的稀疏化方案,体现按需计算的高效算力分配。

该团队在理论上建立了脉冲神经元内生动力学与线性注意力模型之间的联系,揭示了现有线性注意力机制是树突计算的特殊简化形式,从而清晰地展示了一条不断提升模型复杂度和性能的新型可行路径。

基于这一理解以及团队前期工作,团队构建了与现有大模型兼容的通用模型转换技术和高效训练范式,可以将标准的自注意力机制转换为低秩的线性注意力模型,并适配了所提出的脉冲化编码框架。

此外,为实现国产算力集群对类脑脉冲大模型的全流程训练和推理支持,团队开发了面向国产GPU集群的高效训练和推理框架、Triton/CUDA 算子库、模型并行策略以及集群通信原语。

SpikingBrain-7B 和SpikingBrain-76B分别为层间混合纯线性模型和层内混合的混合线性 MoE 模型(图2)。

其中SpikingBrain-7B由线性注意力和滑窗注意力1:1层间堆叠而成。而SpikingBrain-76B则包含 128 个 sink token、16个路由专家以及1个共享专家;对于线性层,在第 [1, 2, 3, 5, 7, 9, 11] 层布置了7个稠密FFN,其余层均实现为MoE层;

对于注意力模块在第[7, 14, 21, 28]层采用线性注意力+Softmax注意力(LA+FA)组合,在其他层均采用线性注意力+ 滑窗注意力(LA+SWA)组合。

在推理阶段,SpikingBrain利用脉冲编码将激活值转换为整数计数用于GPU执行,或转换为脉冲序列用于事件驱动的神经形态硬件。

图2. SpikingBrain网络架构

性能亮点

SpikingBrain1.0的长序列训练效率显著提升。SpikingBrain-1.0-7B模型能以极低的数据量(约为主流大模型的2%),实现与众多开源Transformer模型相媲美的通用语言建模性能(表1)。

SpikingBrain-1.0-76B混合线形模型通过扩展更多的参数量和更精细的注意力设计,基本保持了基座模型的性能,能使用更少的激活参数接近甚至优于Llama2-70B、Mixtral-8*7B、Gemma2-27B等先进的Transformer模型(表2)。

SpikingBrain-1.0-7B模型在Huggingface框架下适配了多卡序列并行推理(使用ZeCO加上P2P通信),并支持4M长度的Prefill。

结果显示,相比于使用标准注意力和A2A通信的Qwen baseline,SpikingBrain-1.0-7B在512K和1M长度下TTFT(提交提示到生成第一个Token所需的时间)加速分别达到13.88倍和26.5倍,且随序列长度和卡数扩展具有几乎恒定的时间开销,在4M长度下Qwen已经无法评测,根据拟合scaling曲线,保守估计速度提升超过100倍(表4)。

团队将压缩到1B的SpikingBrain-1.0部署到CPU手机端推理框架上,在64k-128k-256k长度下较Llama3.2的1B模型Decoding速度分别提升4.04x-7.52x-15.39x。

图2 基于CPU移动推理框架下,不同输出长度的解码速度比较

对话Demo和网络试用端口:团队提供了SpikingBrain-1.0-76B模型的网络端的试用端口供大家体验,该模型基于vLLM推理框架部署在国产GPU集群上,可以支持数百人的并发请求。

为支持类脑研究生态的构建,团队开源了SpikingBrain-1.0-7B模型(详见技术报告)。

总结

本次发布的国产自主可控类脑脉冲大模型探索了脉冲神经元内生复杂神经动力学与线性注意力模型之间的机制联系,设计了线性模型架构和基于转换的异构模型架构,通过动态阈值脉冲化解决了脉冲驱动限制下的大规模类脑模型性能退化问题,实现了国产GPU算力集群对类脑脉冲大模型训练和推理的全流程支持。

超长序列的建模在复杂多智能体模拟、DNA序列分析、分子动力学轨迹等超长序列科学任务建模场景中将具有显著的潜在效率优势。

未来该团队将进一步探索神经元内生复杂动态与人工智能基础算子之间的机制联系,构建神经科学和人工智能之间的桥梁,期望通过整合生物学见解来突破现有人工智能瓶颈,进而实现低功耗、高性能、支持超长上下文窗口的类脑通用智能计算模型,为未来的类脑芯片设计提供重要启发。

参考资料:

https://github.com/BICLab/SpikingBrain-7B/blob/main/SpikingBrain_Report_Chi.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本乡下最可怕的地方

日本乡下最可怕的地方

东京新青年
2026-05-07 11:12:09
中伊谈完了!伊朗认可中国方案,临走前:王毅给伊外长提了一个醒

中伊谈完了!伊朗认可中国方案,临走前:王毅给伊外长提了一个醒

阿七说史
2026-05-07 15:54:11
知情人士称江苏盐城一医生与同事聚餐酒后坠入河沟溺亡,医院工作人员证实:有医生溺亡一事

知情人士称江苏盐城一医生与同事聚餐酒后坠入河沟溺亡,医院工作人员证实:有医生溺亡一事

都市快报橙柿互动
2026-05-08 17:46:37
小宝与王某雷,谁探访花的数量更多?

小宝与王某雷,谁探访花的数量更多?

挪威森林
2026-01-31 12:15:26
别轻视小人物:20个历史血泪教训,强者多亡于蝼蚁

别轻视小人物:20个历史血泪教训,强者多亡于蝼蚁

小莜读史
2026-05-06 20:15:38
浏阳烟花厂爆炸涉事企业多次被查出隐患、违规行为反复出现

浏阳烟花厂爆炸涉事企业多次被查出隐患、违规行为反复出现

极目新闻
2026-05-08 09:12:51
俄罗斯让中国心凉?真正恐怖的并非西方围堵,而是我们低估了自己

俄罗斯让中国心凉?真正恐怖的并非西方围堵,而是我们低估了自己

混沌录
2026-04-09 16:27:09
哈登致命失误登全美热搜!13中3在场-15梦游 名嘴晒2数据证伪巨星

哈登致命失误登全美热搜!13中3在场-15梦游 名嘴晒2数据证伪巨星

颜小白的篮球梦
2026-05-08 10:13:08
泽连斯基再度暗示袭击红场阅兵,俄罗斯呼吁各国从基辅撤人,若胜利日遭袭将大规模导弹打击基辅

泽连斯基再度暗示袭击红场阅兵,俄罗斯呼吁各国从基辅撤人,若胜利日遭袭将大规模导弹打击基辅

极目新闻
2026-05-07 11:58:53
Win11底层仍是90年代的Win32!微软罕见坦诚:没人料到它能活到2026年

Win11底层仍是90年代的Win32!微软罕见坦诚:没人料到它能活到2026年

快科技
2026-05-07 17:58:05
每体:有人对82被打并不意外;皇马会设计“小孩训练项目”避免冲突

每体:有人对82被打并不意外;皇马会设计“小孩训练项目”避免冲突

懂球帝
2026-05-08 19:19:12
武汉三镇换帅如翻书!邓卓翔又要来背锅,他能拯救这座城吗?

武汉三镇换帅如翻书!邓卓翔又要来背锅,他能拯救这座城吗?

落夜足球
2026-05-08 16:32:38
巴拉圭总统窜访台湾后,中方在24小时内要求其与台“断交”

巴拉圭总统窜访台湾后,中方在24小时内要求其与台“断交”

明天见灌装冰块
2026-05-08 18:33:22
真的惨!燃油SUV再迎降价潮:最大让利50%,合资SUV成“白菜价”

真的惨!燃油SUV再迎降价潮:最大让利50%,合资SUV成“白菜价”

蓝色海边
2026-05-08 14:34:28
东契奇最新消息!确定了,基本结束了…

东契奇最新消息!确定了,基本结束了…

左右为篮
2026-05-07 21:34:27
河北王牌景区白洋淀彻底翻车!五一前3天不到2万人,口碑彻底烂了

河北王牌景区白洋淀彻底翻车!五一前3天不到2万人,口碑彻底烂了

谭谈社会
2026-05-07 20:44:05
泰山队四外援出征深圳,两人复出随队,中场人员安排要有新变化

泰山队四外援出征深圳,两人复出随队,中场人员安排要有新变化

牛眼看球
2026-05-08 16:15:51
震惊!部分女性网购衣物穿几天后退货,直言“会过日子”引发争议

震惊!部分女性网购衣物穿几天后退货,直言“会过日子”引发争议

火山詩话
2026-05-07 16:04:16
31分史诗逆转!中国U17男篮轰29-0加时翻盘 姚嘉泽轰32+10

31分史诗逆转!中国U17男篮轰29-0加时翻盘 姚嘉泽轰32+10

醉卧浮生
2026-05-07 22:55:24
强占中资只是“依法办事”,巴拿马外长劝中国大度,别再为难巴方

强占中资只是“依法办事”,巴拿马外长劝中国大度,别再为难巴方

林子说事
2026-05-08 19:05:05
2026-05-08 20:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15160文章数 66850关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

媒体:"4只皮皮虾1035元"店主去世仅43岁 触发人们反思

头条要闻

媒体:"4只皮皮虾1035元"店主去世仅43岁 触发人们反思

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

轮到豆包收割了?

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

房产
本地
亲子
数码
健康

房产要闻

豪掷6.8亿拿地!何猷君大手笔投资三亚!

本地新闻

用苏绣的方式,打开江西婺源

亲子要闻

小朋友老爱啃指甲,是身体缺什么营养吗?

数码要闻

三星家电退出大陆市场 部分门店已撤场 经销商集体竟流入咸鱼甩尾货

干细胞能让人“返老还童”吗

无障碍浏览 进入关怀版