网易首页 > 网易号 > 正文 申请入驻

上交大和辉羲把LLM刻进ROM!推理性能冲2万token/s,GPU时代终结?

0
分享至


新智元报道

编辑:犀牛

【新智元导读】当硅谷Taalas将大模型「物理焊死」进芯片引爆全球半导体圈,来自上海交大、辉羲智能与微软亚洲研究院的研究团队早已走得更远——他们用ROM+SRAM异构架构,将端侧LLM推理速度推至20,000 tokens/s,端侧算力直接起飞。

近期,硅谷初创公司 Taalas 提出的「模型即芯片(Model-on-Chip)」方案引发了全球半导体业界对「硬核 AI」的深度反思。

他们绕开了所有热门概念,直接把AI大模型,物理焊死在硅片里!

芯片运行Llama 3.1 8B的速度达到了17,000tokens/秒

足足比业界最顶端的英伟达GPU提升了将近10倍!


英伟达这边也没闲着,GTC 2026前夕,英伟达释放明确信号:即将发布的Feynman架构将与Groq LPU技术实现深度融合。

LPU架构通过预编排的固定指令流驱动模型,摒弃传统HBM主存,转而采用片上SRAM存储权重,大幅突破了原有的访问速度与带宽瓶颈。

这些都预示着,在Scaling Law驱动的大模型时代,传统的通用指令集正成为锁死算力的枷锁。

如何从物理层面彻底击碎困扰大语言模型(LLM)部署的「内存墙」,已成为定义生成式 AI 下半场的关键。


现有端侧存储方案不能同时满足LLM推理的存储容量和访存带宽需求

事实上,针对 LLM 的访存特性,来自上海交大、辉羲智能及微软亚洲研究院的研究团队早已展开了一场存储层次结构的创新研究。

通过ROMA与TOM系列研究,团队展现了与 Taalas 不谋而合的架构洞察:通过对只读存储(ROM)的颠覆性应用与「算法-架构」深度协同,成功将LLM 的端侧推理速度推向 20,000 tokens/s的水平,这一突破性成果在具身智能等前沿领域展现了巨大的应用潜力。


ROMA:打破传统存储层次

重塑端侧能效

在大模型端侧部署的实战中,传统的内存层次结构正面临前所未有的挑战。

研究团队提出的 ROMA(Read-Only-Memory-based Accelerator) 架构,针对端侧场景的特殊需求,给出了一套系统的解法。


ROMA的计算架构,采用ROM+SRAM的方案

1.引入只读存储(ROM):从源头解决访存能效

研究团队发现,大模型推理的能效瓶颈主要源于权重数据在外部内存(如 LPDDR)与计算单元之间的频繁搬运。

ROMA 另辟蹊径,利用高集成密度、低功耗的只读存储(ROM)作为权重的存储载体,将模型参数从源头上固化在芯片内部,大幅度降低了访存功耗。

2.QLoRA 赋能灵活性:在「固化」中寻找演进空间

完全硬连线的芯片往往难以应对算法的快速迭代。ROMA 巧妙地引入了 QLoRA 机制,通过ROM(基座模型)+ SRAM(LoRA 适配器)的混合设计,确保了芯片在拥有「硬核」性能的同时,依然保留了强大的应用灵活性。

开发者只需下发极小规模的 LoRA 插件,即可让固化的基座模型在不同垂直任务间快速切换。

3.架构与物理设计协同:极致的物理实现

为了实现真正的片上全模型存储,团队进行了深度的 架构与物理设计协同优化。

通过独创的 B-ROM 设计,将计算单元与存储阵列进行紧耦合的物理布局,极大地缩短了信号传输路径。

这种协同设计让 ROMA 在有限的芯片面积内,实现了对数亿参数模型的高效容纳与实时调度。

最终,ROMA的规格和指标与Taalas非常接近:ROMA采用7nm工艺库,芯片面积约 500 mm²,可以完整容纳4bit LLaMA3.2-3B 或者 2bit LLaMA3-8B,推理性能达到20,000 tokens/s,而同样采用ROM+SRAM的方案的Taalas是6nm工艺,面积约800mm²,可容下3-6bit llama3.1-8B,性能接近20,000 tokens/s。

TOM:深度挖掘三值化大模型

带来的存储红利

在 ROMA 的基础上,最新的TOM(Ternary-Oriented Memory)架构进一步将优化的触角延伸到了算法底层的存储特征中,把ROMA扩展到BitNet/Ternary量化这个场景,利用低比特权重的0值稀疏性,继续提升了ROM的存储密度。


低比特模型0值分布特征,带来ROM存储密度提升潜力

1.捕捉 BitNet 的硬件友好性:开启「以逻辑代存储」范式

研究团队发现,以 BitNet-b1.58 为代表的三值化({-1, 0, 1})模型展现出了极佳的硬件友好性 。

基于这一发现,TOM 摒弃了传统的存储阵列,通过逻辑合成技术直接利用标准逻辑门实现模型权重的固化存储 。

在这种新范式下,硬件能够直接识别并物理消除权重中「0」元素的存储电路 。这一极致收益的实现,得益于三值模型中零值参数本就占据绝大多数的天然稀疏特性,加上定制的编码方法(使用「10」而非「11」来表示 -1),从而大幅拉高了 0-bit 的整体占比,从根本上降低了物理开销 。

2.存储逻辑的深度合并与复用:极限压缩芯片面积

为了进一步推高面积效率,TOM 引入了精细的逻辑优化策略:通过识别并提取不同权重存储逻辑中的公共子序列,对重复的逻辑门进行深度合并与复用。

这种从物理层对存储逻辑进行的「极限去重」,使得 TOM 相比 ROMA 实现了片上存储密度的数倍提升与芯片面积的大幅削减。

这也再次印证了算法-硬件联合设计在突破 AI 算力边界时的核心重要性。

具身智能与极端场景

ROM 架构的「降维打击」

「模型即芯片」方案的兴起,精准捕捉到了当前端侧应用的两大痛点:

1.具身智能的「实时确定性」

在机器人、无人设备等具身智能场景中,毫秒级的响应延迟往往决定了系统的物理安全性。

ROMA 提供的 20,000+ tokens/s 吞吐量,是为了提供一种高确定性的实时反馈。

这让机器人能够像拥有脊髓反射一样,在感知到复杂的物理环境变化时,瞬时做出语义理解与避障决策。

2.极端环境下的生存优势:深海与火星

在深海探测器、火星漫游车等极端场景下,DRAM 等易失性存储器不仅能耗高,且容易受到高能射线干扰产生软错误。

ROM 架构具有天然的稳定性和抗辐射性。

在能源匮乏、通信隔绝的极端环境下,搭载 ROMA/TOM 架构的设备依然能独立、稳定地完成复杂的智能任务,且待机功耗极低。

这使得大模型能够真正走出实验室,进入人类探索的「无人区」。

3.智能终端的隐私「防火墙」

对于手机端本地文本处理等场景,用户对模型基座的频繁更新需求并不高,但对隐私极其敏感。

将成熟、稳定的模型能力固化在本地隔离电路中,不仅免去了频繁联网的能耗,更在物理层面上杜绝了数据外泄的风险。

结语

开启端侧内存层次结构的新纪元

从 Taalas 的破圈到研究团队ROMA与TOM系列工作的深度探索,我们正见证 AI 硬件架构的一个重要转向。

这种引入ROM+SRAM异构存储层次结构的创新,结合对三值逻辑存储特性的极致挖掘,为端侧大模型部署提供了一条全新的进路。

ROMA与TOM系列研究的诞生,植根于“模型即芯片”的设计思维。

团队的这种强调算法与硬件深度耦合的思维来源,最早可追溯至微软亚洲研究院(MSRA)时期。

核心作者中,王文强与曹士杰曾先后作为MSRA实习生在徐宁仪老师指导下开展研究,积淀了深厚的工业界系统经验;张毅佳在上海交大攻读博士期间师从徐老师,并先后在 MSRA 系统组与辉羲智能实习。

研究团队长期从事算法-芯片联合设计的研究,在AI芯片架构设计、大模型轻量化等方面有丰富经验。

这种由资深架构师、企业研究员与学术新生代构成的多重纽带,让团队得以将前沿的实战思维与学术界的理论创新高效结合,在大模型范式下实现了从通用计算向 LLM 原生架构的协同突破。

团队介绍

关于上交大团队:团队来自上海交通大学计算机学院定制计算中心(Customized Computing Center - CCC,ccc.sjtu.edu.cn),CCC聚焦于解决数据中心、边缘设备和传感器的所面临的各种计算挑战。

关于辉羲智能:辉羲智能致力于成为全球领先的具身智能AI计算平台供应商,以卓越算力促进人工智能发展。成立三年,公司已实现大算力端侧旗舰芯片R1的成功流片与量产交付,率先在具身智能领域走通“芯片-平台-产品”的全栈自主国产化路径。

参考资料:

ROMA:https://arxiv.org/pdf/2503.12988

TOM:https://arxiv.org/abs/2602.20662

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2026春节档总票房破20亿

2026春节档总票房破20亿

界面新闻
2026-02-18 15:44:52
小米车主败诉!小米SU7Ultra挖孔机盖案宣判,法院:不涉及虚假宣传销售欺诈

小米车主败诉!小米SU7Ultra挖孔机盖案宣判,法院:不涉及虚假宣传销售欺诈

DeepAuto车探
2026-03-02 11:45:43
“人寿尽,屋先知”!家里出现这3种“怪象”,别迷信但要多留心

“人寿尽,屋先知”!家里出现这3种“怪象”,别迷信但要多留心

三农老历
2026-03-02 11:00:07
宁波一旅游团所乘邮轮滞留迪拜,船上有约200名中国游客

宁波一旅游团所乘邮轮滞留迪拜,船上有约200名中国游客

上观新闻
2026-03-02 16:27:07
真香啊!个税退税退回21606.18元,浙江一网友晒出自己的“经验”

真香啊!个税退税退回21606.18元,浙江一网友晒出自己的“经验”

另子维爱读史
2026-03-01 21:23:21
令人担心的事发生,多位明星全家被困中东,甄子丹的话,有人信了

令人担心的事发生,多位明星全家被困中东,甄子丹的话,有人信了

墨印斋
2026-03-02 13:44:53
英媒爆出猛料:中国或违反联合国规定,运送超高音速导弹给伊朗!

英媒爆出猛料:中国或违反联合国规定,运送超高音速导弹给伊朗!

快看张同学
2026-02-26 14:22:43
美以刺杀伊朗最高领袖和总统失败

美以刺杀伊朗最高领袖和总统失败

财联社
2026-02-28 18:48:32
俄铁公司将于3月开通前往中国的客运列车

俄铁公司将于3月开通前往中国的客运列车

俄罗斯卫星通讯社
2026-03-01 16:07:36
他亲手选的接班人,竟不是儿子?哈梅内伊之死藏着的最大反转!

他亲手选的接班人,竟不是儿子?哈梅内伊之死藏着的最大反转!

浯江孤舟
2026-03-02 09:49:10
现货黄金失守5320美元/盎司

现货黄金失守5320美元/盎司

每日经济新闻
2026-03-02 09:06:28
一博主称本计划搭乘在迪拜转机的航班,因妻子看错时间误机,结果第二天机场被炸:如果赶上飞机后果不敢想象!

一博主称本计划搭乘在迪拜转机的航班,因妻子看错时间误机,结果第二天机场被炸:如果赶上飞机后果不敢想象!

大象新闻
2026-03-02 16:46:15
基辛格坦言:如果爆发核战争,中国可能只有5个地方可以躲避危险

基辛格坦言:如果爆发核战争,中国可能只有5个地方可以躲避危险

混沌录
2026-03-02 17:15:04
中东谁也打不过的以色列,在东亚算什么水平?韩国:谁也打不过

中东谁也打不过的以色列,在东亚算什么水平?韩国:谁也打不过

比利
2025-11-29 18:49:51
“反诈老陈”账号被封,本人回应:问心无愧!MCN机构:即刻解除所有合约,双方合作立即终止

“反诈老陈”账号被封,本人回应:问心无愧!MCN机构:即刻解除所有合约,双方合作立即终止

都市快报橙柿互动
2026-03-01 07:15:47
美以空袭伊朗,阿拉伯国家联盟发声:“阿拉伯-以色列冲突升级为全面地区战争的时刻”

美以空袭伊朗,阿拉伯国家联盟发声:“阿拉伯-以色列冲突升级为全面地区战争的时刻”

环球网资讯
2026-03-01 11:00:18
中东最大港口暂停运营

中东最大港口暂停运营

时间财经
2026-03-02 16:17:05
国行 iPhone NFC 即将全面开放 ,终于有希望了!

国行 iPhone NFC 即将全面开放 ,终于有希望了!

果粉易查
2026-03-01 19:10:03
78-72,中国男篮传来喜讯!日本帮大忙,晋级形势豁然开朗

78-72,中国男篮传来喜讯!日本帮大忙,晋级形势豁然开朗

杨仔述
2026-03-02 10:46:08
中国地震台网正式测定:3月2日11时55分在日本火山列岛地区(北纬23.10度,东经144.15度)发生5.9级地震

中国地震台网正式测定:3月2日11时55分在日本火山列岛地区(北纬23.10度,东经144.15度)发生5.9级地震

每日经济新闻
2026-03-02 12:26:27
2026-03-02 20:31:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14625文章数 66647关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

美记者询问就伊朗局势中方会采取什么行动 外交部回应

头条要闻

美记者询问就伊朗局势中方会采取什么行动 外交部回应

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

美伊以冲突爆发,多位明星被困中东

财经要闻

金银大涨 市场仍在评估冲突会否长期化

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

家居
旅游
本地
手机
公开课

家居要闻

万物互联 享科技福祉

旅游要闻

重庆市荣昌区清升镇第二届清升李花文化旅游节将于3月3日启幕

本地新闻

津南好·四时总相宜

手机要闻

卢伟冰回应小米新机海外售价1.6万元:有信心冲击iPhone!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版