网易首页 > 网易号 > 正文 申请入驻

初创用3000万造不可编程的AI芯片,推理速度是Nvidia最强GPU 50倍

0
分享至

来源:市场资讯

(来源:DeepTech深科技)

2026 年 2 月 21 日,一家名为 Taalas 的芯片初创公司正式揭开面纱,发布了它的第一款产品:一颗将 Meta 的 Llama 3.1 8B 大语言模型几乎完整“刻进”硅片的推理芯片 HC1。按照该公司公布的数据,这颗芯片在单用户场景下可以跑到 17,000 tokens/s 的输出速度,大约是目前市面上最快竞品 Cerebras 的近 9 倍,是 Nvidia Blackwell 架构 GPU 的近 50 倍。构建成本据称只有同等 GPU 方案的二十分之一,功耗低一个数量级。


图丨TaalasHC1(来源:Taalas)

不过这颗芯片的局限也非常明显,那就是它只能跑 Llama 3.1 8B。要想换个模型?就只能再造一颗芯片。

这是 AI 芯片行业迄今为止最激进的专用化尝试,没有之一。

当前主流的推理部署依赖 GPU,尤其是 Nvidia 的 H100/H200 和最新的 Blackwell 系列。GPU 的优势在于通用性和成熟的软件生态,但它的架构天然存在一个瓶颈:计算单元和存储单元是分离的。模型的参数存储在 HBM(High Bandwidth Memory,高带宽内存)中,计算核心每次运算都需要从 HBM 搬运数据,这个搬运过程消耗大量能量和时间。

为了缓解这个问题,整个行业在先进封装、3D 堆叠、液冷散热、高速互联等方向上投入了巨大的工程资源。Nvidia 的 GB200 NVL72 机柜级系统就是这种路线的极致体现:72 颗 GPU 通过 NVLink 互联,单机柜功耗接近 120 kW,需要液冷支持,造价以百万美元计。


(来源:Taalas)

Taalas 的做法是把这套复杂性连根拔掉。

他们的核心思路可以概括为三个词:全面专用化、存算合一、极度简化。HC1 芯片采用 Mask ROM(掩模只读存储器)工艺将模型权重直接编码在芯片的金属互连层中,和计算逻辑共存于同一块硅片上,不再需要外部 DRAM 或 HBM。芯片上保留了一小块 SRAM(Static Random-Access Memory,静态随机存取存储器),用于存放 KV Cache(键值缓存,Transformer 推理时缓存历史注意力信息的数据结构)和 LoRA(Low-Rank Adaptation,低秩适配)微调权重,提供有限的灵活性,但整体架构的可编程性几乎为零。

据报道,HC1 基于台积电 N6 工艺制造,芯片面积 815 mm²,接近光罩极限(reticle limit),单颗芯片即可容纳完整的 8B 参数模型。功耗约 250W,10 块 HC1 板卡装进一台服务器总功耗约 2.5 kW,可以在标准风冷机架中运行。这和动辄数十千瓦、必须上液冷的 GPU 服务器差别很大。

Taalas 的 CEO Ljubisa Bajic 是 Tenstorrent 的联合创始人,曾担任该公司的 CEO 和 CTO。Tenstorrent 是 AI 芯片领域另一家知名初创企业,走的是基于 RISC-V 架构的可编程 AI 加速器路线,后来由芯片行业传奇人物 Jim Keller 接任 CEO 并继续发展。Bajic 离开 Tenstorrent 后大约在 2023 年中创立了 Taalas,走了一条和 Tenstorrent 几乎完全相反的路:不追求通用性,而是把专用化推到极端。目前,Taalas 团队规模约 25 人,累计融资超过 2 亿美元,但据 Bajic 本人披露,第一款产品实际只花费了约 3000 万美元。


图丨LjubisaBajic(来源:Tenstorrent)

Taalas 的芯片定制流程借鉴了 2000 年代早期结构化 ASIC(Application-Specific Integrated Circuit,专用集成电路)的思路。结构化 ASIC 通过固化门阵列和硬化 IP 模块,只修改互连层来适配不同工作负载,在成本和性能上介于 FPGA(Field-Programmable Gate Array,现场可编程门阵列)和全定制 ASIC 之间。

Taalas 的做法类似但更进一步:每次为新模型定制芯片时只需更换两层掩模,这两层掩模同时决定模型权重的编码和数据在芯片内部的流动路径。Bajic 表示,从拿到一个新模型到生成 RTL(Register Transfer Level,寄存器传输级描述)大约只需要一周的工程工作量,整个从模型到芯片的周期目标是两个月。

这个两个月的周转速度如果能稳定实现,意味着什么?意味着当一个模型在生产环境中被验证有效、用户粘性足够高、预计至少运行一年时,Taalas 可以在较短时间内为它制造专用硅片,以远低于 GPU 的成本和功耗来提供推理服务。Bajic 承认,这种模式要求客户对某个特定模型做出至少一年的承诺,“肯定有很多人不愿意,但会有人愿意”。

那么,这种极端专用化能扩展到更大的模型吗?Taalas 给出了他们对 DeepSeek R1 671B 的模拟数据。671B 参数的模型需要大约 30 颗芯片协同工作,每颗芯片承载约 20B 参数(采用 MXFP4 格式,并将 SRAM 分离到独立芯片以提高密度)。30 颗芯片意味着 30 次增量流片,但 Bajic 指出由于每次只改两层掩模,增量流片成本并不高。

模拟结果显示,这套 30 芯片系统在 DeepSeek R1 上可以达到约 12,000 tokens/s/user,而当前 GPU 最优水平大约在 200 tokens/s/user。推理成本约 7.6 美分/百万 token,不到 GPU 吞吐优化方案的一半。

这些数字当然还停留在模拟阶段。实际多芯片系统面临的互联、同步、良率等工程挑战不可小觑,30 颗大面积芯片协同工作的验证复杂度也是指数级增长的。Bajic 自己也提到,因为芯片完全不可编程,“出错的余地基本为零”,唯一能建立信心的方法就是在流片前对整个模型进行完整的仿真——如何在合理时间内完成 30 颗芯片的联合仿真,本身就是一个巨大的工程问题。Taalas 声称已经建立了可以在大规模计算集群上运行的仿真流程来应对。

还有一个值得关注的细节是,HC1 使用了自定义的 3-bit 基础数据类型进行激进量化,结合 3-bit 和 6-bit 参数,会带来相对于标准量化模型的质量损失。Taalas 对此并未回避,承认模型在质量基准测试中会有退化。他们的第二代硅平台 HC2 将采用标准 4-bit 浮点格式以改善这一问题。第二款产品预计是一个中等规模的推理模型,计划今年春季在实验室完成,随后接入推理服务。基于 HC2 平台的前沿大模型则计划冬季部署。

当前 AI 推理芯片市场大致可以按专用化程度排列成一个光谱:一端是 Nvidia GPU 这样的高度通用方案;中间是 Groq、Cerebras、SambaNova 等,它们设计了针对 LLM 推理优化的定制架构,但仍保留可编程性,能运行多种模型;Etched 更往前走一步,专门针对 Transformer 架构设计芯片,牺牲部分灵活性换效率;而 Taalas 直接站在了最末端,把一个特定模型焊死在硅片里。


(来源:Gemini生成)

这种极端策略的风险很明显。AI 领域模型迭代速度极快,去年的前沿模型今年可能就被淘汰。如果一颗芯片只能跑一个模型,而那个模型在芯片寿命结束前就过时了,投资就打了水漂。这也是 Bajic 所说的“为什么之前没人敢走到这个角落”。但他认为随着行业成熟,总有一些模型在实际业务中被长期使用。Taalas 产品副总裁 Paresh Kharya(此前曾在 Nvidia 长期任职)也对 EE Times 表示,对于在重要业务场景中运行的模型,用户粘性可能持续一年甚至更久。

商业模式上 Taalas 还在摸索。Kharya 透露了几种可能方向:自建基础设施运行开源模型并提供 API 推理服务;直接向客户出售芯片;或者与模型开发者合作,为他们的模型定制专用芯片供其自有推理基础设施使用。哪种模式最终能跑通,取决于市场对这种极端专用化方案的接受程度。

不过从纯技术角度来说,Taalas 的方案确实触及了一个被主流路线忽略的设计空间。存算分离带来的带宽墙(memory wall)是当前推理硬件的核心瓶颈,而 Taalas 通过将权重以 Mask ROM 形式与计算逻辑同层集成,从根本上消除了这个瓶颈。代价是灵活性的彻底丧失,但如果应用场景允许这种刚性,换来的性能和成本优势是实打实的。

Bajic 还透露,Taalas 能用单个晶体管同时存储 4-bit 模型参数并完成乘法运算。他拒绝透露更多,但确认计算仍然是全数字的。如果属实,这意味着 Taalas 在电路层面实现了一种极为高效的存内计算(Compute-in-Memory)机制,虽然不同于学术界讨论较多的模拟存内计算方案,但目标一致:让数据就地参与运算,不再搬来搬去。

硬接线芯片还带来了一个意想不到的副产品:软件栈的极度简化。Bajic 说“软件作为一个东西基本消失了”,公司只有一个工程师负责软件栈,而且这人还兼顾其他工作。对比当前 GPU 推理系统中 vLLM、TensorRT-LLM、PagedAttention 等复杂软件优化层的工程投入,这种简化几乎是降维式的。当然,这种简化是以极端硬件专用化为前提的,不具有一般性。

Bajic 在博客中用 ENIAC 到晶体管的演化做类比,暗示当前以 GPU 数据中心为核心的 AI 基础设施可能只是早期的“笨重原型”,未来终将被更高效的方案取代。这个类比有一定道理,但也不宜过度引申。GPU 数据中心的“暴力”不仅仅是硬件层面的,它背后是整个 CUDA 软件生态、成熟的开发工具链和庞大的工程师社区。颠覆硬件容易,颠覆生态难。Taalas 的芯片或许在特定场景下拥有压倒性的性能和成本优势,但要成为主流路线的替代方案,需要的远不止一颗跑得快的芯片。

不过,Taalas 可能也从未打算成为“替代方案”。Kharya 表示:“模型最优硅片不会取代满是 GPU 的大型数据中心,但它会适合某些应用。”

参考资料:

1.https://taalas.com/the-path-to-ubiquitous-ai/

2.https://www.eetimes.com/taalas-specializes-to-extremes-for-extraordinary-token-speed/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
48岁欧阳夏丹父母双亡独自过年,一个人吃7道菜,大口吃饭不矫情

48岁欧阳夏丹父母双亡独自过年,一个人吃7道菜,大口吃饭不矫情

离离言几许
2026-02-20 23:38:28
冬奥会最大遗憾:中国队获得第1名却拿不到金牌!韩国狂拿1金2银

冬奥会最大遗憾:中国队获得第1名却拿不到金牌!韩国狂拿1金2银

何老师呀
2026-02-21 07:14:25
暴涨!暴涨!这个龙头迎来主升浪!中国乃至全球的绝对寡头,终于被看见了!国家队、社保、外资抢疯了!

暴涨!暴涨!这个龙头迎来主升浪!中国乃至全球的绝对寡头,终于被看见了!国家队、社保、外资抢疯了!

价值事务所所长
2026-02-21 21:03:43
华为手机基本走向没落了

华为手机基本走向没落了

月光作笺a
2026-02-21 06:06:45
再见了,私人账户避税!2月起,个人账户进账超过这个数要注意了!

再见了,私人账户避税!2月起,个人账户进账超过这个数要注意了!

祥顺财税俱乐部
2026-02-21 09:02:08
湛江妈祖事件发酵升级!有网友称,当地年轻人外出找工作都难了…

湛江妈祖事件发酵升级!有网友称,当地年轻人外出找工作都难了…

火山詩话
2026-02-21 12:06:43
妈祖乩童要凳子后续!手势全程不变,网友:是不是真心一看就懂

妈祖乩童要凳子后续!手势全程不变,网友:是不是真心一看就懂

奇思妙想草叶君
2026-02-21 18:04:11
妈祖事件真相大白,红衣女孩已做多年乩童,这三年来变化越来越大

妈祖事件真相大白,红衣女孩已做多年乩童,这三年来变化越来越大

观察鉴娱
2026-02-21 10:51:24
俄罗斯战机被击落,欧尔班投票阻援乌

俄罗斯战机被击落,欧尔班投票阻援乌

名人苟或
2026-02-21 16:58:13
7名中国游客在贝加尔湖遇难,目击者称事发冰面表面光滑但下方有裂缝,总领事馆:已与遇难人员家属建立联系

7名中国游客在贝加尔湖遇难,目击者称事发冰面表面光滑但下方有裂缝,总领事馆:已与遇难人员家属建立联系

极目新闻
2026-02-21 14:31:40
华为完蛋的信号?鸿蒙6失败,被迫退回鸿蒙4.3

华为完蛋的信号?鸿蒙6失败,被迫退回鸿蒙4.3

雪中风车
2026-02-21 13:36:38
“谈判陷入僵局”,外媒爆料:伊朗外长拒绝打开美方装有导弹提议的信函,并将其退回

“谈判陷入僵局”,外媒爆料:伊朗外长拒绝打开美方装有导弹提议的信函,并将其退回

环球网资讯
2026-02-21 17:27:11
反转!初中生扶摔倒老人遭索赔22万后续: 细节曝光,确实被吓到了

反转!初中生扶摔倒老人遭索赔22万后续: 细节曝光,确实被吓到了

离离言几许
2026-02-20 10:17:52
和谈破裂,俄乌将全面开战,英国再援乌229亿美元

和谈破裂,俄乌将全面开战,英国再援乌229亿美元

史政先锋
2026-02-21 16:46:58
恒大集团创始人许家印的靠山体系

恒大集团创始人许家印的靠山体系

地产微资讯
2026-02-21 18:49:14
中国第一监狱:关的几乎全是高官,为防止泄密,牢房内有特殊布置

中国第一监狱:关的几乎全是高官,为防止泄密,牢房内有特殊布置

瓦伦西亚月亮
2026-02-20 17:37:18
实测44台手机撕碎行业遮羞布:除苹果,国产全线作弊?

实测44台手机撕碎行业遮羞布:除苹果,国产全线作弊?

小兔子发现大事情
2026-02-21 10:44:54
省直机关女工程师陷美男计,拉公职人员丈夫当间谍17年,央视披露:将工作中的涉密文件私自带回家拍照拷贝,伺机出境,2人均获刑

省直机关女工程师陷美男计,拉公职人员丈夫当间谍17年,央视披露:将工作中的涉密文件私自带回家拍照拷贝,伺机出境,2人均获刑

极目新闻
2026-02-21 15:57:38
谷爱凌:人们之所以对我有意见,是因为讨厌中国

谷爱凌:人们之所以对我有意见,是因为讨厌中国

懂球帝
2026-02-21 16:53:05
多国敦促在伊朗公民尽快撤离

多国敦促在伊朗公民尽快撤离

每日经济新闻
2026-02-21 10:10:52
2026-02-21 23:11:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2231864文章数 5505关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

立陶宛总统继续"嘴硬":不会跪下认错 中方要展现诚意

头条要闻

立陶宛总统继续"嘴硬":不会跪下认错 中方要展现诚意

体育要闻

冬奥第一"海王"?一人和13国选手都有关系

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

家居
教育
房产
健康
公开课

家居要闻

本真栖居 爱暖伴流年

教育要闻

本科生毕业进工厂,薪资赶超互联网

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版