网易首页 > 网易号 > 正文 申请入驻

万亿大模型推理时代,深明奥思的LPU芯片解法

0
分享至



【摘要】AI芯片的竞争正在转向"谁能把每个token算得更便宜"。深明奥思LPU是面向大语言模型推理流程重新设计的计算架构,通过数据流计算、软硬协同和板卡级交付,解决低延迟、高安全、低功耗的本地推理需求。

01 从抢GPU到算token

过去两年,AI产业的核心叙事围绕GPU展开。但当大模型走向企业与终端,一个核心矛盾浮现:训练是一次性研发投入,推理却是每天持续发生的运营成本。

tokens/s、tokens/W、上下文长度、部署成本——这些推理侧指标,正取代参数规模成为产业关注焦点。一个智能体如果每天调用上千次模型,单位token的经济性就是核心约束。这也是LPU——LLM Processing Unit——在当下变得重要的原因。

端侧推理同样在被重新定义。过去说端侧AI,很多人联想到耳机、手机、座舱语音这类轻量任务。但深明奥思创始人张强指出,真正高价值的端侧推理将出现在政务、金融、律所、研发、制造、医疗等场景:数据不能上云、知识产权不能外泄、延迟不能不可控。AI一旦从聊天工具变成生产工具,采购逻辑就成立——只要它能在数月内创造足够回报。这些场景对芯片的要求不是更万能,而是在成本、功耗、带宽与本地化之间取得更优平衡。

未来MoE模型和长上下文将进一步抬高带宽与存储需求。以传统低功耗小芯片的思路做端侧大模型,架构定义层面即存在先天瓶颈。AI基础设施将形成云端、边缘端和设备端并存格局:云端负责大规模算力调度,边缘与设备端承担低延迟、高安全的本地推理任务。

02 LPU的推理架构逻辑

判断一颗芯片是否真正面向大模型推理设计,不能只看它是否被冠以"LPU"之名,更要看其计算方式、数据通路和软件栈是否发生了系统性变化。深明奥思LPU的架构逻辑,可以从一个核心转变说起。

传统通用计算架构在运行时不断处理任务调度、缓存命中和执行顺序等问题。LPU的设计理念则反其道行之:面向大模型推理中相对稳定、重复且带宽敏感的计算路径,在编译期提前规划计算图、数据通路和存储分配,让数据沿预设路径持续流动,实现数据驱动的执行触发(data-driven execution)。换言之,LPU不是在运行时"见招拆招",而是在编译期就把推理全程的"剧本"写好。对Transformer这类逐层前向推进的模型,这种方式天然贴合其执行过程——权重、激活值、KV cache可被组织为连续、可预测的数据流,从而提升有效带宽利用率并稳定推理延迟。

之所以强调带宽利用率,是因为大模型推理的真正瓶颈往往不在算力本身,而在存储层级间的冗余数据搬移。GPU/NPU也会通过缓存层级和片上SRAM提升数据复用,但它们需要兼顾广泛的任务形态。LPU的差异在于围绕prefill、decode、KV cache访问和矩阵/向量算子进行专项优化,通过自研数据流通路减少DDR到计算阵列间的搬运开销。根据公司架构设计目标,LPU在典型推理负载下有效带宽利用率目标达85%以上。在长上下文和连续decode场景中,这一指标直接决定单位token的能效和成本。

但仅有硬件层面的优化远远不够。大模型演进速度极快——模型结构、算子形态、量化方式、MoE路由和上下文长度都在持续变化。如果芯片仍沿用"硬件先行、软件补课"的模式,量产时就可能已经落后于模型生态。因此,深明奥思让指令集、编译器、运行时与硬件架构从立项起并行设计。编译器负责将模型计算图映射到芯片内部的数据流和执行单元上,在编译期确定调度方式,减少运行时不确定性。这也是LPU最核心的壁垒——不在于芯片设计本身,而在于能否通过编译器将模型结构转化为高效、稳定、可预测的硬件执行过程。对智能体和企业本地大模型等应用,推理体验不仅取决于平均tokens/s,更取决于token输出的稳定性和延迟的可控性。

在具体计算单元上,深明奥思采用矩阵计算单元(MMA)与向量处理单元(VPU)异构协同的方式。矩阵乘法是Transformer推理最核心的算子,由专用MMA高效执行;而归一化、激活函数、MoE路由等灵活算子,以及未来不断演进的新算子,则由基于RISC-V向量扩展的自研VPU承担——既保持专用加速效率,又保留对模型变化的适配弹性。

03 占住端侧智能入口

中国AI芯片若正面复制GPU路线,将受制于先进制程、HBM供应、CUDA生态和超大资本开支。深明奥思选择从端侧大模型推理切入——客户要低延迟、数据安全、能跑大模型、快速部署、稳定运行。这些需求不需要万能GPU,而需要专门面向推理的板卡级方案。

因此深明奥思不只卖芯片,而强调核心板卡和系统级交付。对B端客户而言,真正有价值的是:插上板卡、加载模型、通过OpenAI-compatible API接入现有应用,在本地完成推理。只有走到这一层,芯片公司才真正进入客户的业务流程。

公司目前聚焦的方向——AI一体机、企业本地大模型、coding工作站、具身智能、政务金融法律等场景——共同指向"高价值本地推理"。其中具身智能尤其值得关注:当前机器人展示的多是运动能力("小脑"),但未来分水岭在"大脑"——理解上下文、拆解任务、实时推理与决策。据公开资料,深明奥思已与万通智控在该方向展开合作。

公司成立于2025年,已完成第一代LPU芯片功能设计,计划于2026年流片。团队在研发中系统性使用AI工具辅助芯片验证和软件开发,由工程师定义架构目标和判断边界,AI辅助局部实现,从而以更小团队实现更高研发效率。未来AI芯片公司比拼的不只是架构效率,也包括研发组织效率——更快理解模型变化,把变化翻译成指令集、编译器和产品定义,才有可能避免量产即落后。

04 尾声

计算架构的演进从来不是凭空发生。CPU让出图形渲染,GPU无法包打一切——每一代新架构的出现,都是新应用将旧架构的成本结构逼到极限。今天大模型推理正在扮演这个角色。

当AI进入办公桌、工作站、机器人和车端,所有推理最终都归结为一笔账:每个token多少钱,每瓦多少智能,每毫秒延迟损失多少体验。LPU的价值在于从架构层面重算这笔账——不取代GPU,而是在低延迟、确定性、本地化部署和token成本敏感的场景中,提供更专门化的路径。

未来AI基础设施大概率不会是一种芯片统治一切,而是训练、云端推理、端侧推理各自形成精细的硬件分工。深明奥思这样的中国LPU芯片公司,将在其中扮演什么角色,值得期待。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子病逝留巨额财产引纠纷:生前立遗嘱遗产归弟弟,其女起诉舅舅、表弟返还857万元及房产

女子病逝留巨额财产引纠纷:生前立遗嘱遗产归弟弟,其女起诉舅舅、表弟返还857万元及房产

红星新闻
2026-05-12 14:37:40
“新能源车普遍偏大一点,我停在车位上,左右车门都不能打得特别开,有时候人都出不去……”最近不少车主感叹:停车位缩水了?

“新能源车普遍偏大一点,我停在车位上,左右车门都不能打得特别开,有时候人都出不去……”最近不少车主感叹:停车位缩水了?

都市快报橙柿互动
2026-05-12 15:26:35
狼队面临淘汰!爱德华兹更衣室放狠话:没人害怕,准备死战

狼队面临淘汰!爱德华兹更衣室放狠话:没人害怕,准备死战

仰卧撑FTUer
2026-05-13 13:45:02
德国这座“盐山”高达250多米,含有2亿吨盐,它是当地的生态灾难

德国这座“盐山”高达250多米,含有2亿吨盐,它是当地的生态灾难

怪罗
2026-05-11 10:01:52
深扒后发现,39岁未婚生子,袒露处境的热依扎,已不是头一次离谱

深扒后发现,39岁未婚生子,袒露处境的热依扎,已不是头一次离谱

一盅情怀
2026-05-13 09:50:39
斯嘉丽首演美剧,Prime Video硬刚Netflix年度爆款

斯嘉丽首演美剧,Prime Video硬刚Netflix年度爆款

热搜摘要官
2026-05-12 07:34:46
中国乒协发布公示

中国乒协发布公示

极目新闻
2026-05-12 15:00:21
火箭中锋申京和女友社媒相互取关,疑似分手

火箭中锋申京和女友社媒相互取关,疑似分手

懂球帝
2026-05-13 10:45:10
性生活不足,原来会短寿!每周多少次比较合适?研究告诉你答案

性生活不足,原来会短寿!每周多少次比较合适?研究告诉你答案

医学原创故事会
2026-05-12 15:34:03
2026抗癌新突破!中晚期患者的春天来了,目前已全额纳入医保

2026抗癌新突破!中晚期患者的春天来了,目前已全额纳入医保

牛锅巴小钒
2026-05-12 18:55:38
中西部第一大省,正在撑起“战略大后方”

中西部第一大省,正在撑起“战略大后方”

西部城市
2026-05-12 16:42:18
欧美为什么希望我们也不要加班?

欧美为什么希望我们也不要加班?

罗sir财话
2026-05-11 17:35:24
连续5次止步次轮仅次于大帝!哈登连续5轮打天王山,能否进东决?

连续5次止步次轮仅次于大帝!哈登连续5轮打天王山,能否进东决?

无术不学
2026-05-13 10:18:03
张本美和不再沉默!终于说出日乒不愿承认的事实,难怪马琳有底气

张本美和不再沉默!终于说出日乒不愿承认的事实,难怪马琳有底气

似水流年忘我
2026-05-13 05:32:27
CCTV5直播上海男篮VS北京队,5个位置球员对比,谁强谁弱一目了然

CCTV5直播上海男篮VS北京队,5个位置球员对比,谁强谁弱一目了然

体育大学僧
2026-05-13 10:09:51
深成指站上16000点

深成指站上16000点

界面新闻
2026-05-13 13:47:31
彭加木被找到了!知情人:DNA专家说99%就是彭加木,但有个遗憾!

彭加木被找到了!知情人:DNA专家说99%就是彭加木,但有个遗憾!

拳击时空
2026-05-12 05:55:35
就是他了!BBC确认,穆里尼奥与皇马进行最终谈判,头号目标也是唯一目标

就是他了!BBC确认,穆里尼奥与皇马进行最终谈判,头号目标也是唯一目标

懂个球
2026-05-12 23:15:58
震惊!网传番禺老板找做饭的小姐姐,15000元月薪,注明不需陪睡

震惊!网传番禺老板找做饭的小姐姐,15000元月薪,注明不需陪睡

火山詩话
2026-05-13 08:59:22
一个冰冷现实:中印冲突正全方位升级,中国越避让,印度越对抗

一个冰冷现实:中印冲突正全方位升级,中国越避让,印度越对抗

陈腕特色体育解说
2026-05-13 13:51:11
2026-05-13 14:35:00
芯流智库 incentive-icons
芯流智库
助力科技产业融智
813文章数 205关注度
往期回顾 全部

科技要闻

谷歌剧透安卓重大升级 Gemini深度集成底层

头条要闻

特朗普访华随行名单:夫人缺席 次子夫妇、鲁比奥随行

头条要闻

特朗普访华随行名单:夫人缺席 次子夫妇、鲁比奥随行

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

巩俐用中文宣布戛纳开幕,彰显国际地位

财经要闻

深圳夫妻囤芯片,身家飙涨320亿

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

艺术
时尚
游戏
本地
公开课

艺术要闻

果然是经济强省!浙江县域第一高楼,高约300米!

没八卦、纯素人、不惊艳,可她赢麻了

曝索尼PS商城将迎来重磅改动!568港元或真成历史

本地新闻

用苏绣的方式,打开江西婺源

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版