网易首页 > 网易号 > 正文 申请入驻

用国产GPU训练的国产大模型来了!能耗暴降97.7%

0
分享至


智东西
作者 陈骏达
编辑 心缘

智东西9月10日报道,9月5日,中国科学院自动化研究所发布了类脑脉冲大模型“瞬悉1.0”(SpikingBrain-1.0)的技术报告。SpikingBrain-7B开源模型仅用主流大模型2%的预训练数据,就实现了Qwen2.5-7B 90%的性能,并与Llama-3.1-8B等众多开源Transformer模型相媲美的性能。

中科院自动化研究所称,这是我国首次提出大规模类脑线性基础模型架构,也是我国首次在国产GPU算力集群上构建类脑脉冲大模型的训练和推理框架。

SpikingBrain训练和推理的全过程均在国产算力上完成,使用的是由沐曦股份曦云C550 GPU组成的集群。在训练过程中,集群连续运行2周未中断,这也证明了构建国产自主可控的新型非Transformer大模型架构生态的可行性。

除了极高的数据效率之外,SpikingBrain还在推理效率上实现数量级提升。在100万个token上下文场景下,SpikingBrain-7B生成首个token的耗时,比Qwen2.5-7B降低了96.2%

这一特性也使得SpikingBrain尤其适合超长序列处理任务,如在法律和医学文档分析、复杂多智能体模拟、高能粒子物理实验、DNA序列分析、分子动力学轨迹等。

在能耗方面,该模型的平均乘加运算能耗相比传统FP16和INT8运算,分别降低了97.7%85.2%


▲SpikingBrain-1.0技术报告

SpikingBrain-1.0共有7B参数量和76B参数量两个版本。9月3日,7B版本的模型已在GitHub、魔搭等平台开源。76B版本的模型暂未开源,但提供了体验链接。


▲SpikingBrain-1.0体验界面

开源地址:

https://github.com/BICLab/SpikingBrain-7B

技术报告:

https://github.com/BICLab/SpikingBrain-7B/blob/main/SpikingBrain_Report_Chi.pdf

体验链接:

https://controller-fold-injuries-thick.trycloudflare.com/

一、Transformer遇上效率瓶颈,从人类大脑找灵感

为什么需要新型非Transformer架构的大模型?打造SpikingBrain的联合团队认为,Transformer架构面临一个固有缺点:训练计算开销随序列长度呈平方级增长,推理时的显存占用也随序列长度线性增加,带来海量资源消耗。这限制了模型处理超长序列(100万个token以上的序列)的能力。

Transformer架构本质上依赖“外生复杂性”,即通过堆叠更多神经元和更大规模计算来提升智能水平。与此对比,人脑以极低的能耗(约为20W)实现了高度复杂的智能,其神经元具有丰富的内部动力学与多样性。

这意味着大模型或许存在另一条“内生复杂性”的发展路径,通过充分利用生物神经网络在神经元和神经环路上的结构和功能特性,打造下一代模型架构。

低功耗脉冲神经网络(SNN)方案,被学界认为是通往更通用AI系统的新一代低功耗类脑神经网络方案之一。其工作方式与大脑类似,只在需要的时候发送信号,因此功耗较低。

研究发现,复杂的脉冲神经元可以用几个小神经元组合来实现同样的效果,这让构建高效的类脑网络成为可能。

基于上述理论研究,SpikingBrain团队在模型架构中集成了混合高效注意力、MoE模块和脉冲编码三大核心组件。


1、混合高效注意力

注意力机制是大语言模型的核心计算单元。SpikingBrain整合了不同注意力机制的优势,7B版本模型采用层间混合的线性注意力与SWA,兼顾全局信息检索和局部依赖。

而更大规模的SpikingBrain-76B则使用层内并行混合,将线性、SWA与全量softmax注意力结合,同一层中并行运行多种注意力机制,可高效处理全局信息、局部依赖和长程依赖。


▲SpikingBrain整体模型架构

2、混合专家模块

SpikingBrain从Qwen2.5-7B-Base(稠密模型)扩展而来。为了在现有稠密模型的基础上高效扩展,得到稀疏的混合专家模型,SpikingBrain团队使用了上采样(Upcycling)技术。

这一方法的核心是通过参数复制和输出缩放,使扩展后的模型在初始状态下与原模型保持一致,从而避免性能损失。

3、脉冲神经元

脉冲神经元是脉冲神经网络的基本单元。工程应用中常见的LIF(Leaky Integrate-and-Fire)模型,能在一定程度上模拟生物神经元的核心特性。但LIF存在神经元过度沉默或过度激活问题,从而影响模型精度与能效的平衡。

为解决这些问题,SpikingBrain团队提出了自适应阈值脉冲神经元(Adaptive-threshold Spiking Neurons),可保持神经元适度激活,避免过度兴奋或静息。

二、3个环节完成模型转换,全面适配国产GPU集群

在训练过程中,SpikingBrain团队将Qwen2.5-7B-Base转换为类脑脉冲大模型,主要包含3个环节。

持续预训练和长序列扩展中,模型使用了约150B tokens的数据,将序列长度从8K逐步扩展至128K。其训练数据量仅占从头训练所需的2%,实现了高效模型转换。

监督微调环节中,通过使用不同领域的数据集以及由DeepSeek-R1蒸馏得到的高质量推理数据集,模型在通用知识、对话和推理等方面的能力逐步提升。

之后,模型还需要经过脉冲化编码。受生物神经系统启发,SpikingBrain团队提出将大模型的连续激活值转换为整数脉冲序列的策略。

在推理阶段,整数脉冲计数会被展开成稀疏脉冲序列,以适配事件驱动计算。

SpikingBrain提供三种编码方式:二值脉冲简单低能耗;三值脉冲支持类似生物神经系统的兴奋-抑制调控,减少时间步和脉冲总数;二进制脉冲可在高计数场景下显著降低计算量和能耗。


▲三种脉冲方案示意图

上述脉冲化方案可在GPU上兼容运行,但GPU无法完全利用脉冲信号“事件驱动、稀疏异步”的核心优势。要完全释放本方案的低能耗潜力,需要结合专用异步硬件(如类脑芯片、脉冲处理器)。

SpikingBrain仍然选择了在国产沐曦GPU集群上进行训练,沐曦软件平台通过MoE优化、计算通信并行、显存优化、算子融合和自动调优等手段实现适配。

这一适配过程包括Triton适配、CUDA向MACA(沐曦兼容CUDA的软件栈)框架迁移两部分。这两条路径针对模型内部不同算子进行优化,结合形成适用于沐曦GPU的硬件适配方案。


▲沐曦平台上的CUDA和Triton算子适配

在适配过程中,下游用户可以在保持原有编程习惯和接口调用方式的前提下使用,无需对模型代码进行大量修改。同时,平台提供调试和性能分析工具,便于开发者观察模型在硬件上的执行情况,并进行必要的微调和优化。

训练大型语言模型通常超出单个GPU的显存容量,因此,SpikingBrain团队结合数据并行、流水线并行、专家并行和序列并行等分布式训练技术,将计算和存储负载分散到多个GPU上。

三、恢复基座模型9成性能,集群连续运行2周未中断

在下游任务评测中,SpikingBrain-7B在多个基准测试上恢复了基座模型Qwen2.5-7B约90%的性能,整体水平与Mistral-7B、Llama-3-8B等先进Transformer模型相当,表明高效线性注意力在降低推理复杂度的同时仍能保持较强的建模能力。


SpikingBrain-76B混合线性MoE模型几乎完全恢复了基座模型性能。


经过三阶段SFT对齐训练后,SpikingBrain-76B在通用知识、长序列建模及指令跟随能力上,与同量级开源对话模型相当,同时保持预训练获得的通用能力,未出现过拟合现象,显示了架构在对齐训练中的稳定性和可扩展性。


在长序列推理场景中,SpikingBrain-7B模型在100万个token长度下TTFT(生成第一个Token所需时间)相比Transformer架构加速达到26.5倍,400万Token长度下加速超过100倍。


训练性能方面,7B模型在128K序列长度下的训练吞吐量为Qwen2.5-7B的5.36倍,这与推理性能提升基本一致。

同时在手机CPU端64K、128K、256K长度下,SpikingBrain较Llama3.2的同规模模型推理速度分别提升4.04倍、7.52倍、15.39倍。


SpikingBrain-7B在训练过程中的每秒每GPU处理token量达到1558个,模型FLOPs利用率达23.4%,显示了较高计算效率和资源利用率。集群在连续两周运行期间未发生中断,体现了国产硬件和软件生态系统的可靠性和鲁棒性。

脉冲统计显示,7B版本模型实现了超过69.15%的稀疏度,长序脉冲占比约1.85%,这为低功耗的类脑大模型运行提供有力支撑。


结合异步事件驱动硬件计算,平均乘加运算能耗相比FP16和INT8,分别实现97.7%和85.2%的能耗降低。这表明,将脉冲驱动计算与量化相结合,能够有效大幅降低能耗开销,同时做到精度损失可控。

四、一手体验76B版本生成效果,在小球弹跳上翻车了

在官方试用网页中,智东西对SpikingBrain-76B模型的能力进行了一手体验。在这一网页中,模型的最大生成长度被限制为大约8000个token及以下,超过后会直接中止回答。


▲SpikingBrain-76B模型的高级参数设置页面

我们首先让SpikingBrain-76B介绍一下“何为类脑脉冲大模型”,这主要是为了考察SpikingBrain-76B的理解与表达能力和世界知识储备。

由于使用了DeepSeek-R1蒸馏得到的高质量推理数据集,SpikingBrain-76B的思维链风格与DeepSeek-R1颇为接近,同样拥有许多口语化表达。


SpikingBrain-76B给出的回答结构清晰,内容也基本正确。不过,它称Transformer能效比要优于类脑脉冲大模型,这与学界的主流观点是相悖的。


在小球弹跳这一考验模型编程与物理规律理解力的题目上,SpikingBrain-76B有点“翻车了”。它打造的网页十分原始,小球也未能在六边形内自然弹跳,而是卡在了画面正中央。


我们还让SpikingBrain-76B回答了9.8-9.11这样的算术题。在2048个token的最大生成长度设定下,模型直接提示思考长度超过生成限制。


当最大生成长度被设置为约8000个token时,SpikingBrain-76B通过列竖式给出了正确回答。


中国科学院自动化研究所在网页上提示道,模型在访问高峰时反应较慢。在我们的实际体验过程中,一轮对话往往要20秒左右才能完成。

结语:大模型全栈国产自主可控再添进展

目前,国内已有多家企业和高校探索了非Transformer的模型架构,除了中国科学院自动化研究所本次发布的SpikingBrain之外,上海交通大学也曾打造一款脑启发大语言模型,采用“信号全连接流动”机制模拟人脑的语义编码和信号传播方式。

这类受大脑计算方式启发的模型架构,在计算效率上与Transformer架构相比有明显优势,在与国产算力硬件结合后,有望走出一条大模型国产自主可控的新路径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
近期,油管上出现一个时长高达140年的视频引热议

近期,油管上出现一个时长高达140年的视频引热议

随波荡漾的漂流瓶
2026-01-14 19:08:36
002446,上演“地天板”

002446,上演“地天板”

证券时报e公司
2026-01-15 11:07:05
广东宏远今日早报!徐杰重返男篮,朱芳雨回购徐昕,麦考尔将复出

广东宏远今日早报!徐杰重返男篮,朱芳雨回购徐昕,麦考尔将复出

多特体育说
2026-01-15 07:40:03
拔萝卜出泥!学历还没查清,闫学晶再迎噩耗,多位大V锤她恐坐牢

拔萝卜出泥!学历还没查清,闫学晶再迎噩耗,多位大V锤她恐坐牢

李健政观察
2026-01-14 15:01:13
勇篮湖3方交易将达成,库明加辅佐东詹,波特辅佐库里,篮网赚了

勇篮湖3方交易将达成,库明加辅佐东詹,波特辅佐库里,篮网赚了

毒舌NBA
2026-01-15 09:11:15
生理性喜欢显而易见,43岁阿Sa高调认爱,给内娱女明星们上了一课

生理性喜欢显而易见,43岁阿Sa高调认爱,给内娱女明星们上了一课

查尔菲的笔记
2026-01-14 22:00:56
中国出线太不容易!西亚裁判5分钟内3次误判:王钰栋罕见发飙

中国出线太不容易!西亚裁判5分钟内3次误判:王钰栋罕见发飙

邱泽云
2026-01-14 22:41:28
14年后,再看“京城四少”的现状,才明白娶一个好老婆有多重要

14年后,再看“京城四少”的现状,才明白娶一个好老婆有多重要

丰谭笔录
2026-01-13 07:20:11
赃款超83%来自境外,不法商人充当李勇“白手套”

赃款超83%来自境外,不法商人充当李勇“白手套”

极目新闻
2026-01-14 20:22:36
周杰伦澳网首秀止步首轮:扔掉墨镜上场准备,彼得·约维奇发出一记ACE,周杰伦站在原地没碰到球

周杰伦澳网首秀止步首轮:扔掉墨镜上场准备,彼得·约维奇发出一记ACE,周杰伦站在原地没碰到球

大象新闻
2026-01-14 18:49:07
最小红军向轩:7岁投身革命9岁长征路,1955年授衔他获封什么军衔

最小红军向轩:7岁投身革命9岁长征路,1955年授衔他获封什么军衔

磊子讲史
2026-01-14 11:16:27
比茅台还赚钱!店大欺客、杀熟、高佣?携程突遭立案调查,股价闪崩18%

比茅台还赚钱!店大欺客、杀熟、高佣?携程突遭立案调查,股价闪崩18%

金石随笔
2026-01-15 00:14:09
大爆冷!国乒全国冠军1:3不敌日本选手,国乒单打4人被淘汰出局

大爆冷!国乒全国冠军1:3不敌日本选手,国乒单打4人被淘汰出局

国乒二三事
2026-01-15 06:16:39
41岁詹姆斯晒照发声:不管你是爱我还是恨我 你们都会记住我

41岁詹姆斯晒照发声:不管你是爱我还是恨我 你们都会记住我

罗说NBA
2026-01-15 10:36:22
又要换帅!皇马出局后作出关键决定,联系齐达内,拒绝四大皆空

又要换帅!皇马出局后作出关键决定,联系齐达内,拒绝四大皆空

祥谈体育
2026-01-15 13:46:44
89岁国民党前主席连战近况曝光!

89岁国民党前主席连战近况曝光!

看看新闻Knews
2026-01-14 19:49:08
快船13战11胜小卡+145联盟封王!场均32.7分无愧战神 美媒力挺MIP

快船13战11胜小卡+145联盟封王!场均32.7分无愧战神 美媒力挺MIP

颜小白的篮球梦
2026-01-15 14:09:29
1953年斯大林走了,清点遗产的人本来准备数钱,打开柜子后全傻眼了

1953年斯大林走了,清点遗产的人本来准备数钱,打开柜子后全傻眼了

寄史言志
2026-01-12 22:30:13
因公牺牲的贺娇龙坠马频率及危害远超奥运 她为了宣传效果太拼了!

因公牺牲的贺娇龙坠马频率及危害远超奥运 她为了宣传效果太拼了!

劲爆体坛
2026-01-15 01:43:04
真相大白!11级新疆班学生发声,辟谣林傲霏是同学,班级名单曝光

真相大白!11级新疆班学生发声,辟谣林傲霏是同学,班级名单曝光

古希腊掌管月桂的神
2026-01-14 16:28:57
2026-01-15 15:00:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11077文章数 116942关注度
往期回顾 全部

科技要闻

千问接入淘宝支付宝,大模型开卷办事能力

头条要闻

51:50美参院否决限制特朗普战争权议案 万斯投关键1票

头条要闻

51:50美参院否决限制特朗普战争权议案 万斯投关键1票

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

传奇棋圣聂卫平离世,网友集体悼念

财经要闻

“疯狂的白银”,还能走多远?

汽车要闻

今年推出超40款新车,BBA要把失去的夺回来

态度原创

时尚
教育
健康
艺术
手机

最时髦的单品,难道不是背肌吗?

教育要闻

12岁小学生留遗书后,吞下100粒药自杀,家长将英语老师告上法庭

血常规3项异常,是身体警报!

艺术要闻

历代书家集字春联大集合

手机要闻

号称行业唯一内置风扇的AIR,红魔11 Air搭载驭风4.0主动散热风扇

无障碍浏览 进入关怀版