网易首页 > 网易号 > 正文 申请入驻

全流程国产GPU,上下文提速100倍!中国科学院发布「线性复杂度」类脑大模型

0
分享至


新智元报道

编辑:LRST

【新智元导读】SpikingBrain借鉴大脑信息处理机制,具有线性/近线性复杂度,在超长序列上具有显著速度优势,在GPU上1M长度下TTFT 速度相比主流大模型提升26.5x, 4M长度下保守估计速度提升超过100x;在手机CPU端64k-128k-256k长度下较Llama3.2的同规模模型Decoding速度提升4.04x-7.52x-15.39x,展示了通过借鉴大脑结构和功能构建新一代AI基础模型和架构的研究路径具有强大潜力。

当前主流大模型基于Transformer架构、在Scaling law驱动下通过增加网络规模、算力资源和数据量提升智能水平并取得了巨大成功。

然而,Transformer架构相对于序列长度具有二次方复杂度,使其训练和推理开销巨大,超长序列处理能力受限。

近日,中国科学院自动化研究所李国齐、徐波团队借鉴大脑神经元内部复杂工作机制,发布了国产自主可控类脑脉冲大模型SpikingBrain (瞬悉)-1.0,能够以极低的数据量实现高效训练,模型具有线性/近线性复杂度,显著提升长序列的训练和推理效率,训练和推理全流程在国产GPU算力平台上完成。


网络端的试用端口网址:https://controller-fold-injuries-thick.trycloudflare.com

中文技术报告网址:https://github.com/BICLab/SpikingBrain-7B/blob/main/SpikingBrain_Report_Chi.pdf

英文技术报告网址: https://arxiv.org/abs/2509.05276

模型代码网址:https://github.com/BICLab/SpikingBrain-7B

研究背景

现有主流大模型基于Transformer架构,其基本计算单元为点神经元模型:简单乘加单元后接非线性函数,这条简单神经元加网络规模拓展的技术路径可以被称为「基于外生复杂性」的通用智能实现方法。

如前所述,这一路径面临着功耗高、可解释性差等问题。

人脑是目前唯一已知的通用智能系统,包含约1000亿神经元和约1000万亿突触数量、具有丰富的神经元种类、不同神经元又具有丰富的内部结构,但功耗仅20W左右。

鉴此,李国齐研究团队相信还有另一条路径-「基于内生复杂性」的通用智能实现方法:即找到一条融合神经元丰富动力学特性、构建具有生物合理性和计算高效性的神经网络新路径,其将充分利用生物神经网络在神经元和神经环路上的结构和功能特性。

在该思路下,探索脑科学与人工智能基础模型架构之间的桥梁、构建新一代非Transformer的类脑基础模型架构,或将引领下一代人工智能的发展方向、为实现国产自主可控类脑大模型生态提供基础积累。

核心技术

SpikingBrain-1.0基于脉冲神经元构建了线性(混合)模型架构,具有线性(SpikingBrain-7B)及近线性复杂度(SpikingBrain-76B,激活参数量12B)的类脑基础模型(图1)。


图1. SpikingBrain框架概览

为解决脉冲编码时的性能退化问题,构建了自适应阈值神经元模型,模拟生物神经元脉冲发放的核心过程,随后通过虚拟时间步策略实现「电位-脉冲」的转换,将整数脉冲计数重新展开为稀疏脉冲序列。

借助动态阈值脉冲化信息编码方案,可以将模型中计算量占比90%以上的稠密连续值矩阵乘法,替换为支持事件驱动的脉冲化算子,以实现高性能与低能耗二者兼顾:脉冲神经元仅在膜电势累积达到阈值时发放脉冲事件,脉冲到达时触发下游神经元活动,无脉冲时则可处于低能耗静息状态。

进一步,网络层面的MoE架构结合神经元层面的稀疏事件驱动计算,可提供微观-宏观层面的稀疏化方案,体现按需计算的高效算力分配。

该团队在理论上建立了脉冲神经元内生动力学与线性注意力模型之间的联系,揭示了现有线性注意力机制是树突计算的特殊简化形式,从而清晰地展示了一条不断提升模型复杂度和性能的新型可行路径。

基于这一理解以及团队前期工作,团队构建了与现有大模型兼容的通用模型转换技术和高效训练范式,可以将标准的自注意力机制转换为低秩的线性注意力模型,并适配了所提出的脉冲化编码框架。

此外,为实现国产算力集群对类脑脉冲大模型的全流程训练和推理支持,团队开发了面向国产GPU集群的高效训练和推理框架、Triton/CUDA 算子库、模型并行策略以及集群通信原语。

SpikingBrain-7B 和SpikingBrain-76B分别为层间混合纯线性模型和层内混合的混合线性 MoE 模型(图2)。

其中SpikingBrain-7B由线性注意力和滑窗注意力1:1层间堆叠而成。而SpikingBrain-76B则包含 128 个 sink token、16个路由专家以及1个共享专家;对于线性层,在第 [1, 2, 3, 5, 7, 9, 11] 层布置了7个稠密FFN,其余层均实现为MoE层;

对于注意力模块在第[7, 14, 21, 28]层采用线性注意力+Softmax注意力(LA+FA)组合,在其他层均采用线性注意力+ 滑窗注意力(LA+SWA)组合。

在推理阶段,SpikingBrain利用脉冲编码将激活值转换为整数计数用于GPU执行,或转换为脉冲序列用于事件驱动的神经形态硬件。


图2. SpikingBrain网络架构

性能亮点

SpikingBrain1.0的长序列训练效率显著提升。SpikingBrain-1.0-7B模型能以极低的数据量(约为主流大模型的2%),实现与众多开源Transformer模型相媲美的通用语言建模性能(表1)。


SpikingBrain-1.0-76B混合线形模型通过扩展更多的参数量和更精细的注意力设计,基本保持了基座模型的性能,能使用更少的激活参数接近甚至优于Llama2-70B、Mixtral-8*7B、Gemma2-27B等先进的Transformer模型(表2)。


SpikingBrain-1.0-7B模型在Huggingface框架下适配了多卡序列并行推理(使用ZeCO加上P2P通信),并支持4M长度的Prefill。

结果显示,相比于使用标准注意力和A2A通信的Qwen baseline,SpikingBrain-1.0-7B在512K和1M长度下TTFT(提交提示到生成第一个Token所需的时间)加速分别达到13.88倍和26.5倍,且随序列长度和卡数扩展具有几乎恒定的时间开销,在4M长度下Qwen已经无法评测,根据拟合scaling曲线,保守估计速度提升超过100倍(表4)。


团队将压缩到1B的SpikingBrain-1.0部署到CPU手机端推理框架上,在64k-128k-256k长度下较Llama3.2的1B模型Decoding速度分别提升4.04x-7.52x-15.39x。


图2 基于CPU移动推理框架下,不同输出长度的解码速度比较

对话Demo和网络试用端口:团队提供了SpikingBrain-1.0-76B模型的网络端的试用端口供大家体验,该模型基于vLLM推理框架部署在国产GPU集群上,可以支持数百人的并发请求。

为支持类脑研究生态的构建,团队开源了SpikingBrain-1.0-7B模型(详见技术报告)。

总结

本次发布的国产自主可控类脑脉冲大模型探索了脉冲神经元内生复杂神经动力学与线性注意力模型之间的机制联系,设计了线性模型架构和基于转换的异构模型架构,通过动态阈值脉冲化解决了脉冲驱动限制下的大规模类脑模型性能退化问题,实现了国产GPU算力集群对类脑脉冲大模型训练和推理的全流程支持。

超长序列的建模在复杂多智能体模拟、DNA序列分析、分子动力学轨迹等超长序列科学任务建模场景中将具有显著的潜在效率优势。

未来该团队将进一步探索神经元内生复杂动态与人工智能基础算子之间的机制联系,构建神经科学和人工智能之间的桥梁,期望通过整合生物学见解来突破现有人工智能瓶颈,进而实现低功耗、高性能、支持超长上下文窗口的类脑通用智能计算模型,为未来的类脑芯片设计提供重要启发。

参考资料:

https://github.com/BICLab/SpikingBrain-7B/blob/main/SpikingBrain_Report_Chi.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
换帅!市委副书记,出任高校党委书记

换帅!市委副书记,出任高校党委书记

双一流高校
2026-01-14 21:12:04
西班牙记者:老佛爷的最终目标是迎回穆里尼奥

西班牙记者:老佛爷的最终目标是迎回穆里尼奥

油泼辣不辣
2026-01-14 17:51:12
你们可能被特朗普骗了,特朗普有可能真的是美国最伟大的总统

你们可能被特朗普骗了,特朗普有可能真的是美国最伟大的总统

流苏晚晴
2026-01-10 16:24:45
缅北医疗船揭秘!比电诈区园区还可怕,1万条鲨鱼在船下徘徊

缅北医疗船揭秘!比电诈区园区还可怕,1万条鲨鱼在船下徘徊

狗仔故事会
2024-09-04 22:27:36
中戏辟谣后,闫学晶儿子又被举报了,如今央媒下场,这下麻烦大了

中戏辟谣后,闫学晶儿子又被举报了,如今央媒下场,这下麻烦大了

叨唠
2026-01-14 04:47:42
王钰栋:大家能走到这因为团结,没进球所以对自己不满意

王钰栋:大家能走到这因为团结,没进球所以对自己不满意

懂球帝
2026-01-14 23:43:25
吓出冷汗!一批致癌物洗发水被曝光,霸王强生都踩雷

吓出冷汗!一批致癌物洗发水被曝光,霸王强生都踩雷

老特有话说
2026-01-14 22:08:59
吉林省副省长杨安娣获增补为省政协委员

吉林省副省长杨安娣获增补为省政协委员

澎湃新闻
2026-01-14 17:58:27
轰32+10+7!詹姆斯就是领袖,艾顿赛后摊牌了,东契奇也说出优点

轰32+10+7!詹姆斯就是领袖,艾顿赛后摊牌了,东契奇也说出优点

巴叔GO聊体育
2026-01-14 16:43:05
涉嫌严重违纪违法,教育部教育督导局副局长杨宇接受审查调查

涉嫌严重违纪违法,教育部教育督导局副局长杨宇接受审查调查

上观新闻
2026-01-14 16:34:03
为什么熬过低谷的人,都会断绝很多关系?

为什么熬过低谷的人,都会断绝很多关系?

洞见
2026-01-05 21:10:36
化身叹息之墙!U23亚洲杯小组赛扑救榜:李昊16次大幅领先

化身叹息之墙!U23亚洲杯小组赛扑救榜:李昊16次大幅领先

懂球帝
2026-01-15 00:27:09
中组部、人社部发布通知

中组部、人社部发布通知

政知新媒体
2026-01-11 14:24:03
78:18!石破茂力挺高市:无需道歉,中日关系已恶化,在野党亮剑

78:18!石破茂力挺高市:无需道歉,中日关系已恶化,在野党亮剑

潮鹿逐梦
2026-01-13 21:08:50
官宣!300111,被立案调查

官宣!300111,被立案调查

中国基金报
2026-01-14 21:56:21
委内政部长表示美国袭击致超过100人死亡,“爆炸威力巨大无法进行DNA鉴定”

委内政部长表示美国袭击致超过100人死亡,“爆炸威力巨大无法进行DNA鉴定”

大风新闻
2026-01-14 10:15:03
2026年还买油车的人,是“聪明”还是“愚蠢”?专家撕开遮羞布

2026年还买油车的人,是“聪明”还是“愚蠢”?专家撕开遮羞布

老特有话说
2026-01-12 17:42:25
隐忍24年,陈婷终于撕下完美伪装,她给所有“已婚女人”上了一课

隐忍24年,陈婷终于撕下完美伪装,她给所有“已婚女人”上了一课

近史谈
2025-12-27 13:49:49
1975年,基辛格给毛主席下了一道命令,主席写了张纸条回击,尼克松看后直摇头:这气魄谁能比?

1975年,基辛格给毛主席下了一道命令,主席写了张纸条回击,尼克松看后直摇头:这气魄谁能比?

老杉说历史
2026-01-12 22:07:15
原来大佬写的推荐信都这么短啊 ​​!网友:有用不在于字多

原来大佬写的推荐信都这么短啊 ​​!网友:有用不在于字多

夜深爱杂谈
2026-01-10 22:24:02
2026-01-15 02:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14335文章数 66458关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

携程被立案调查,最高或被罚超50亿

汽车要闻

曝Model Y或降到20万以内!

态度原创

艺术
教育
游戏
亲子
数码

艺术要闻

与光同行的温柔诗意:沉浸于威廉·A·施耐德的人像油画世界

教育要闻

年轻妈妈带男孩坐地铁,坐姿引发热议!网友:这才是真正的“炫富”!

重生之我在丧尸末世当检察官

亲子要闻

笑麻了!宝妈求教给娃买衣服不便宜,穿起来土里土气!评论区炸锅

数码要闻

存储涨价冲击DIY市场,DDR3主板销量意外逆势倍增

无障碍浏览 进入关怀版