斯坦福一个研究团队最近干了一件事:他们发现AI模型里塞满了没用的零,然后专门造了块芯片来跳过这些零的计算。结果平均省电98.6%,速度还快了8倍。
零怎么就成了性能杀手
![]()
大模型参数越多,能力越强,这点没人否认。Meta最新Llama已经堆到2万亿参数,但能耗和推理时间也跟着膨胀。
业界的常规解法是砍模型规模、压低精度——用更小的模型、更短的数字。斯坦福团队选了另一条路:与其削模型,不如削计算本身。
他们的观察很直接:很多模型里,大部分参数(权重和激活值)其实是零,或者接近零到可以当成零处理。这叫「稀疏性」。理论上,跳过这些零的加减乘除,能省大量时间和电;只存非零参数,内存也能瘦身。
问题是,现在的主流硬件——多核CPU和GPU——天生不会利用这一点。它们照样一个一个算过去,零也要走完整套流程。
从零开始造一套系统
要真正榨取稀疏性的价值,得从底层重构:硬件、固件、软件,全部推倒重来。
斯坦福团队自称造出了「首个能高效处理各类稀疏与传统负载的硬件」。这不是在现有GPU上跑个优化算法,而是从头设计芯片架构。
他们的测试结果显示:不同负载下能耗差异很大,但平均下来,这块芯片能耗是CPU的七十分之一,速度是8倍。注意这个表述——「one-seventieth」,原文给的是精确分数,不是约数。
团队坦承这只是开始。他们期待硬件和模型协同演进,让AI能效再上一个台阶。
稀疏性到底是什么
神经网络和输入数据都用数字阵列表示:一维叫向量,二维叫矩阵,更高维叫张量。稀疏阵列就是零占多数的阵列。
零的比例超过50%,就能从专门的稀疏计算方法中获益。反过来,零很少的阵列叫「稠密」阵列。
稀疏性可以天然存在,也可以人为诱导。原文只说到这里,后面的内容被截断了。
这个技术路线的商业含义很清晰:当所有人都在堆卡、烧电、拼算力的时候,有人证明「跳过无效计算」可能比「拼命加卡」更划算。如果稀疏计算硬件成熟,训练万亿参数模型的成本结构会被重写——不是小修小补,是数量级的变化。
当然,从实验室芯片到量产还有距离。但这件事的价值在于:它给AI算力军备竞赛提供了另一条思路——不是买更多卡,是让每张卡少做无用功。至于这条路能走多远,得看硬件厂商跟不跟。毕竟,让行业放弃成熟的GPU生态,难度不亚于让模型自己变稀疏。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.