该模型特别擅长处理超长连续数据。
![]()
中国科学院自动化研究所的研究人员近日推出名为"SpikingBrain 1.0"的新型人工智能系统。研发团队称这款"类脑"大语言模型不仅能效更高,且可完全运行于国产硬件平台,无需依赖英伟达芯片。
研究人员在未经同行评审的技术论文中指出:"基于Transformer架构的主流大语言模型存在显著效率瓶颈:训练计算量随序列长度呈平方级增长,推理内存需求则线性增长。"
据研究团队介绍,SpikingBrain 1.0在完成某些任务时比传统模型快100倍,且训练所需数据量不足常规需求的2%。这项研究属于神经形态计算领域的重大科学探索,该领域旨在复现人脑仅需20瓦特功率的高效运行机制。研究人员补充道:"我们的工作从大脑运行机制中获得灵感。"
复现人脑效率的关键
SpikingBrain 1.0的核心技术是"脉冲计算",这种计算方法模拟了人脑中生物神经元的工作方式。与ChatGPT等主流AI工具需要激活整个庞大网络处理信息不同,SpikingBrain 1.0的网络大部分时间保持静默状态。它采用事件驱动机制,神经元仅在接收到输入触发时才会发射信号。这种选择性响应是实现节能和提速的关键。
为验证概念,团队构建并测试了两个版本的模型:70亿参数的小型版本和760亿参数的大型版本。两个模型仅使用约1500亿token的数据进行训练,对于该规模的模型而言数据量堪称微量。
该模型在处理长数据序列时表现尤为突出。论文中提及的一项测试显示,小型模型对包含400万token的提示词响应速度比标准系统快100倍以上。在另一项测试中,SpikingBrain 1.0的变体模型从百万token上下文生成首个token时,速度较传统Transformer架构提升26.5倍。
稳定运行数周
研究人员报告称,该系统在数百枚沐曦集成电路公司开发的MetaX芯片组成的平台上稳定运行数周。这种在国产硬件上的持续稳定表现,凸显了系统实际应用的潜力。
潜在应用领域包括长篇法律文书和医疗文档分析、高能物理研究,以及DNA测序等复杂任务 —— 这些都需要对海量数据集进行高效快速处理。研究论文总结道:"这些成果不仅证明了在非英伟达平台上进行高效大模型训练的可行性,更为未来计算系统中类脑模型的可扩展部署与应用指明了新方向。"
如果朋友们喜欢,敬请关注“知新了了”!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.