网易首页 > 网易号 > 正文 申请入驻

最高能效比!他又死磕存算一体2年,拿出全新端边大模型AI芯片

0
分享至

金磊 发自 WAIC
量子位 | 公众号 QbitAI

当他再次高调出现在大众面前,已经是时隔两年之久。

他就是后摩智能CEO吴强博士,很多人好奇他和他的团队在这两年时间里都在做什么。

而就在今年WAIC期间,吴强终于给出了答案——

发布潜心两年的成果:后摩漫界®M50,一款业界能效比最高的存算一体端边大模型AI芯片。

△后摩智能CEO吴强发布后摩漫界®M50

M50拥有160TOPS@INT8的物理算力,100TFLOPS@bFP16的浮点算力,以及高达153.6 GB/s的超高带宽和最大48GB的内存。

更令人侧目的是,实现这一切的典型功耗,仅仅10W——相当于一个手机快充的功率。

用吴强的话来说就是:

  • 我们希望让大模型算力像电力一样随处可得、随取随用,真正走进每一条产线、每一台设备、每一个人的指尖。

两年前,后摩智能带着第一代存算一体芯片惊艳亮相WAIC。

两年后,面对大模型时代带来的全新机遇与挑战,他们依旧稳健,选择继续死磕存算一体这条当时看来颇为“冷门”的赛道,并再次拿出了业界第一的成绩。

把存算一体推入了第二代

M50之所以能实现如此惊艳的能效比,其背后实则是后摩智能在存算一体技术上的持续深耕和迭代突破。

因为它所搭载的,正是后摩智能自研的第二代存算一体技术

要理解这一的技术,我们首先要明白什么是“存算一体”。

在传统的计算机架构(冯·诺依曼架构)中,计算单元和存储单元是分离的。CPU或GPU要计算数据,需要先从内存中把数据“搬运”过来,计算完成后再“搬运”回去。

这个“搬运”过程,就像快递运输,不仅耗费时间(带宽限制),还消耗大量能量(功耗),形成了所谓的“功耗墙”和“存储墙”,成为制约芯片性能提升的最大瓶颈。

而存算一体,顾名思义,就是将计算和存储融合在一起,让数据在存储单元内部就近完成计算,从根本上解决了数据来回搬运的问题。这好比将工厂直接建在了仓库里,省去了所有的物流环节,效率自然大大提升。

吴强在创业之初就敏锐地意识到,要想在英伟达这样的国际巨头环伺下实现“弯道超车”,就必须在架构上进行创新。存算一体,便是他认定的那条另辟蹊径的道路。

M50采用的第二代SRAM-CIM(基于SRAM的存内计算)技术,是真正的“存内计算”。

吴强解释道:

  • 很多朋友问存内和近存有什么区别?如果把SRAM的阵列或者结构改变,它就是存内。如果不改变,它只是拿标准的SRAM,在旁边做计算,那就是近存。

后摩智能选择的是更彻底、更具挑战性的前者——他们把SRAM的阵列全部打开,进行了深度的结构性改变。

这一代的存算IP实现了“双端口加载与计算并行”,权重加载和矩阵计算可以同时进行,效率倍增。

同时,为了解决量产难题,后摩智能团队自主摸索出了一套针对存算芯片的测试和可靠性保障方案(MBIST和CBIST),趟出了一条业内无人走过的路。

有了高效的存算IP,还需要一个聪明的“大脑”来调度和使用它。后摩智能为此自研了全新的第二代IPU(AI处理器)架构——天璇

天璇架构针对大模型的计算特点,做了大量优化,其中最核心的创新之一,就是弹性计算(Elastic Computing),或者叫自适应计算。

这有点类似于GPU的稀疏加速技术。

在GPU中,如果权重参数为“0”,计算时就可以跳过,从而实现加速。但这种技术的限制是,权重必须严格为“0”。而在现实应用中,要让大量权重都恰好为“0”是非常困难的,因此GPU的稀疏加速效果往往不尽如人意。

而存算一体的特性,给了后摩智能一个绝佳的机会。他们的SRAM存算,是按照一个比特(bit)一个比特进行串行计算的。这意味着,他们可以做到更细粒度的优化。

吴强对此解释道:

  • 我们并不需要它(权重)整个是0,我只要它在bit里面有0,我就可能做弹性加速,我就可能授予这个0跳过去0的加速。

这个看似微小的区别,带来了本质的不同。

它让加速的机会大大增加,也让量化变得更加灵活,可以实现7bit、6bit甚至5bit的超低精度量化,从而在不牺牲太多精度的情况下,将性能压榨到极致。根据后摩的数据,天璇架构最高可提供160%的加速效果。

此外,天璇架构还在业内首次实现了在存算架构上直接进行浮点运算,并成功量产。这意味着,开发者可以直接运行开源的FP16浮点模型,无需复杂的量化和精度调优,大大降低了应用落地的门槛和开发周期。

再强大的硬件,也需要软件来释放其全部潜能。与M50配套的,是后摩智能新一代编译器工具链——后摩大道®

这款完全重构的编译器,最大的特点是灵活易用。它支持细颗粒度的算子,能将复杂的算子自动拆分、组合和优化。

开发者不再需要面对几百个优化选项手动“炼丹”,编译器可以自动搜索最优化的策略,大大减轻了适配和部署的负担。

从底层的存算IP,到上层的IPU架构,再到顶层的编译器工具链,后摩智能通过全栈自研,将软硬件深度协同优化,最终打磨出了M50这把刺穿端边大模型计算“最后一公里”的利刃。

衍生出了更多存算一体产品

这颗业界能效比最高的芯片还只是故事的开始。

为了让M50的算力能够以最便捷的方式触达不同场景,后摩智能同步推出了一系列硬件产品,构建了覆盖终端与边缘的完整产品矩阵。

终端侧:力擎TM系列M.2卡

在终端侧,首先是力擎TMLQ50 M.2卡

这款产品的大小仅如同一块口香糖,采用标准的M.2接口,可以“即插即用”地为AI PC、AI Stick、陪伴机器人等移动终端提供强大的本地AI能力。

单卡即可支持7B/8B模型推理速度超过25 tokens/s。吴强特别提到,低功耗带来的一个巨大优势是可以使用被动散热,无需风扇,这对于智能语音设备等对噪音敏感的场景至关重要。

其次是力擎TMLQ50 Duo M.2卡

在标准M.2卡的基础上,它集成了两颗M50芯片,算力、带宽、内存全部翻倍,达到320TOPS算力,突破了14B/32B大模型在端侧部署的瓶颈。

值得一提的是,这两颗芯片并非简单的堆砌,而是通过后摩自研的C-to-C互联技术协同工作,实现1+1>2的效果。

边缘侧:力谋®系列加速卡及计算盒子

在边缘侧,后摩智能同样发布了一些利产品。

首先是力谋®LM5050/LM5070加速卡

面向对体积不那么敏感,但对算力有更高要求的边缘计算场景,后摩推出了半高半长和全高全长的加速卡,分别集成2颗和4颗M50芯片,最高可提供640TOPS的物理算力。

这样的算力足以在边缘端支持70B甚至千亿参数级别的大模型。而功耗,相比友商同等算力产品动辄几百瓦的“电老虎”,后摩的加速卡仅为几十瓦,能效优势极为突出。

其次是力谋®BX50智能计算盒

这是一款All-in-One的解决方案,在一个紧凑的机身内,集成了强大的M50芯片、丰富的I/O接口,并支持加密安全功能,可适配边缘场景,支持多达32路视频分析与本地大模型的同时运行。

从消费终端的AI PC、学习机,到智能办公的会议系统,再到智能工业的产线质检,后摩智能的产品矩阵,让离线、安全、低延迟的本地大模型应用成为可能,真正构建起一个“低功耗、高安全、好体验”的端边智能新生态。

为什么要死磕存算一体?

首先,这是差异化竞争的必然选择

面对英伟达、华为这样“大而全”的巨头,初创公司如果跟在后面亦步亦趋,很难有出头之日。

正如吴强所述:

  • 如果跟国际巨头竞争,需要一些比较创新的架构才有可能另辟蹊径弯道超车。

存算一体,就是他找到的那个“蹊径”。

其次,这是技术发展的必然趋势

大模型时代,应用对算力和带宽的需求是空前的,而传统架构的瓶颈日益凸显。

吴强和他的团队发现,大模型应用“既要算力密集,又要带宽密集”的特点,与存算一体技术“既能提升算力密度,又能提升带宽”的优势完美契合。

“我们发现这个之后就很兴奋,”吴强说,“我们决定聚焦在端边大模型AI计算,让存算和大模型形成共振,释放更大的势能。”

最终,这也是实现普惠AI的必经之路

吴强认为,未来90%的数据处理都将在端和边完成,只有10%的训练和复杂任务在云端进行。要让大模型真正走出云端,赋能千行百业,就必须解决端边设备算力不足、功耗过高的问题。

这份专注与坚持,也为后摩智能赢得了产业和资本的认可。近年来,公司陆续获得了中国移动、北京人工智能基金、亦庄国投等重量级产业方和国有资本的投资,为持续的研发创新提供了坚实的后盾。

从两年前的崭露头角,到如今的厚积薄发,吴强和他的后摩智能,正以一种近乎“执拗”的坚持,在存算一体这条道路上笃定前行。

M50的发布,只是他们交出的阶段性答卷。未来,当更强大的AI算力以更低的功耗融入我们身边的每一个设备时,我们或许会再次想起这位热爱足球、坚持跑步的技术人,以及他那个“让智能无处不在”的初心。

Two More Thing:

发布会的最后,吴强还透露了两个有趣的小细节。

一是M50的命名,之所以跳过了M40,这也算是创业公司的生存玄学了,毕竟在芯片行业——跳过“4”,可能就跳过了“生死劫”。

二是他向大家承诺:“下次不用等2年了,明年还会有新品。”

据了解,后摩智能已经启动了下一代DRAM-PIM(基于DRAM的存内处理)技术的研发。

这个技术将突破1TB/s的片内带宽,能效再提升三倍,旨在推动百亿参数大模型在PC、平板等终端设备上的普及。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
金晨交通肇事逃逸被罚款1500元,驾照是否被记6分暂未公布

金晨交通肇事逃逸被罚款1500元,驾照是否被记6分暂未公布

现代快报
2026-02-08 00:14:38
快船内部人士评价哈登:爱打球出勤率高 防守不稳有时回防非常慢

快船内部人士评价哈登:爱打球出勤率高 防守不稳有时回防非常慢

罗说NBA
2026-02-08 07:04:01
1967年,梁兴初厉声质问副政委:邓华你也敢动?谁给你的胆子?

1967年,梁兴初厉声质问副政委:邓华你也敢动?谁给你的胆子?

鉴史录
2026-02-05 16:28:29
爱泼斯坦案文件再度曝光,各国政要都有哪些被“拉下水”?

爱泼斯坦案文件再度曝光,各国政要都有哪些被“拉下水”?

上游新闻
2026-02-03 15:13:08
米兰冬奥会开幕式争议:乌克兰获热烈欢呼!以色列亮相遭巨大嘘声

米兰冬奥会开幕式争议:乌克兰获热烈欢呼!以色列亮相遭巨大嘘声

念洲
2026-02-07 07:46:06
亚团赛决赛!贾一凡/张殊贤完败韩国强档!国羽0-2陷入绝境

亚团赛决赛!贾一凡/张殊贤完败韩国强档!国羽0-2陷入绝境

小兰看体育
2026-02-08 11:42:07
随着维拉1-1,曼联2-0,阿森纳3-0,切尔西3-1,英超最新积分榜出炉

随着维拉1-1,曼联2-0,阿森纳3-0,切尔西3-1,英超最新积分榜出炉

侧身凌空斩
2026-02-08 05:50:33
即插即用!湖人新援三分王首秀闪耀砍10分+2记三分

即插即用!湖人新援三分王首秀闪耀砍10分+2记三分

体坛周报
2026-02-08 13:39:25
哈登首秀23+8米神35分,威少21+5+9难救主,国王不敌骑士吞12连败

哈登首秀23+8米神35分,威少21+5+9难救主,国王不敌骑士吞12连败

钉钉陌上花开
2026-02-08 13:26:03
某上海三甲医院医生薪资曝光:月薪45698,季度奖2万5,年终39万

某上海三甲医院医生薪资曝光:月薪45698,季度奖2万5,年终39万

时尚的弄潮
2026-02-08 10:00:59
上海两会炸锅!取消中高考是必然?82%家长怒怼:断了普通娃活路

上海两会炸锅!取消中高考是必然?82%家长怒怼:断了普通娃活路

户外小阿隋
2026-02-07 08:46:28
苹果变瓷砖后续:同事曝内幕,提前调包早有预谋,涉事人恐遭重罚

苹果变瓷砖后续:同事曝内幕,提前调包早有预谋,涉事人恐遭重罚

离离言几许
2026-02-07 13:30:06
原来世界上真的有长得很标准的东西!网友:白色的云越看越红!

原来世界上真的有长得很标准的东西!网友:白色的云越看越红!

夜深爱杂谈
2026-02-02 18:29:01
女子给“男友”寄现金,7万元藏进6个泡面桶

女子给“男友”寄现金,7万元藏进6个泡面桶

现代快报
2026-02-06 19:38:10
陈道明曾告诫女儿:宁可嫁个没文化的,也别碰这种“精致流氓”。

陈道明曾告诫女儿:宁可嫁个没文化的,也别碰这种“精致流氓”。

阿废冷眼观察所
2026-02-07 19:59:27
杭州明早-2℃,接着冲20℃……这个春节会很热吗?

杭州明早-2℃,接着冲20℃……这个春节会很热吗?

都市快报橙柿互动
2026-02-08 13:30:24
难受,公司宣布全员停发工资!

难受,公司宣布全员停发工资!

黯泉
2026-02-07 22:03:18
鲁迅跟国民党当局唱了多年的对台戏,为何始终没被逮捕或遭暗杀?

鲁迅跟国民党当局唱了多年的对台戏,为何始终没被逮捕或遭暗杀?

小豫讲故事
2026-02-07 06:00:13
德比逆转!赵心童取代名将进红包赛,创2纪录,追平塞尔比1成就?

德比逆转!赵心童取代名将进红包赛,创2纪录,追平塞尔比1成就?

刘姚尧的文字城堡
2026-02-08 07:53:01
柬埔寨国王病重,洪森代行元首职责

柬埔寨国王病重,洪森代行元首职责

亚太观澜
2026-02-07 20:21:28
2026-02-08 13:51:00
量子位 incentive-icons
量子位
追踪人工智能动态
12136文章数 176373关注度
往期回顾 全部

科技要闻

欧盟认定存在"上瘾"设计 TikTok:结论错误

头条要闻

美国拉拢 阿根廷明确表态:不排除来自中国的投资

头条要闻

美国拉拢 阿根廷明确表态:不排除来自中国的投资

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

曝带女星回老家小区,罗云熙紧急回应

财经要闻

金银震荡144小时 大爷大妈排队「抄底」

汽车要闻

VLA司机大模型优化 理想汽车OTA8.3版本更新

态度原创

家居
手机
亲子
房产
军事航空

家居要闻

现代轻奢 温馨治愈系

手机要闻

华为双喜临门,鸿蒙OS 6开发者招募,Mate80系列销量强势破280万

亲子要闻

辛集萌娃领舞《中国范儿》展示燕赵风采

房产要闻

新春三亚置业,看过这个热盘再说!

军事要闻

捐钱造航母的男孩登上军舰

无障碍浏览 进入关怀版