挑战英伟达算力霸权？多伦多一家创企将大模型“刻进”芯片|gpu|hbm|asic

挑战英伟达算力霸权？多伦多一家创企将大模型“刻进”芯片

分享至

翼言商业观察

是破局突围，还是刻舟求剑？

在硅谷当下的宏大叙事中，算力即权力。

英伟达的 GPU 似乎成了通往AGI唯一且昂贵的门票。当整个行业都在狂热地堆叠“更大、更贵、更耗电”的 GPU 集群时，一种极具颠覆性的底层技术叛逆却在暗处悄然发生。

近日，一家成立不到三年、位于多伦多的初创公司 Taalas 抛出了一个让半导体与 AI 业界侧目的方案：他们将 Meta 的 Llama 大模型直接“硬连线”（Hardwired）进了 ASIC（专用集成电路）芯片。这并非一次常规的硬件制程升级，而是一场物理层面的暴力重构。

由Tenstorrent前联合创始人Ljubisa Bajic带队的这群工程师，不再依赖昂贵的HBM显存，抛弃了液冷：模型不再是以软件代码的形式运行在通用硬件上，也不再需要频繁地从高带宽显存（HBM）中吞吐成百上千 GB 的权重数据。Llama 庞大的神经网络结构和数十亿参数，被直接固化进物理电路，成为了芯片本身——芯片即模型，模型即芯片。

在这块采用台积电6纳米工艺、面积达815平方毫米的芯片上，单用户运行Llama 3.1 8B的推理吞吐达到了令人瞠目的17,000 tokens/秒。作为对比，这个速度是英伟达最顶尖GPU的数十倍，是人类阅读或思考速度的成百上千倍。生成一部详尽的二战逐月编年史，仅需0.138秒。

这一反常识的技术路线，究竟是打破算力瓶颈的终极突破，还是无视模型迭代规律的“刻舟求剑”？

一、历史的钟摆

天下苦“内存墙”久矣

Taalas 之所以做如此激进的尝试，是因为当前 AI 产业有一个隐疾：内存墙（Memory Wall）。

自计算机诞生以来，统治整个行业的基石是“冯·诺依曼架构”，其设计中就存在计算与存储分离的特点：需要计算时，就从后台把数据搬运到舞台上，算完再搬回去。

在模型只有几兆、几十兆的时代，这个架构运转良好。但是，当大语言模型膨胀到几百亿、上千亿参数时，这一经典架构正在成为最大的绊脚石。GPU 运行大模型进行推理时，它并没有把大部分精力花在计算上，而是被迫变成了一个疲于奔命的“搬运工”——海量的模型权重数据需要在显存和计算单元之间来回穿梭，高达 80% 的功耗和延迟都浪费在了这种数据的物理搬运上。这不仅造就了英伟达庞大的护城河，也直接捧红了价格极其昂贵的 HBM 存储芯片。AI行业苦“内存墙”久矣，它让 AI 推理的成本居高不下，让数据中心变成了吞噬电力的巨兽。

Taalas 的 ASIC 路线，本质上是对这笔“算力税”的彻底逃避。当模型权重不再是以数据的形式存在于内存中，而是变成了固化的晶体管开闭状态，数据搬运的动作就在物理层面上被抹除了。

二、绝对速度与“电子牛马”

商业落地的场景价值

Taalas打破内存墙带来的最直接后果，是成本和能效比的恐怖断层。

传统的GPU数据中心是名副其实的“电老虎”，动辄需要液冷伺候。而Taalas的HC1芯片，单颗功耗仅约250W。即使部署10颗芯片，总功耗不过2.5千瓦，仅靠常规的空气冷却就能稳定运行。根据Taalas官方及业界测算，其百万Token的推理成本仅为0.0075美元左右，是传统GPU方案的二十分之一甚至更低。在“唯快不破”和“降本增效”成为行业铁律的今天，这组数据的冲击力毋庸多言。

从工程学的角度来看，这显然是一次惊人的效率跃升；而在模型快速迭代的今天，一个不能更新、不能运行其他模型的芯片，听起来显然又像个笑话。但是，如果我们跳出“打造全知全能AGI”的宏大叙事，将目光投向海量的商业垂直场景，也许会发现，这种“固化”非但不是缺陷，反而可能是某些场景下的最优解。

在真实的商业世界里，并非所有场景都需要一个通晓量子力学、能写莎士比亚十四行诗的GPT5甚至更新的模型。大部分场景需要的，是一个极其稳定、便宜、速度极快且不需要休息的“电子牛马”。

想象一下工业流水线上的毫秒级残次品视觉识别、智能汽车里需要绝对零延迟响应的端侧语音中枢、数以亿计的家用陪伴机器人或儿童玩偶……在这些场景中，企业根本不在乎你能否兼容最新的大模型框架，他们在乎的是：能不能用几美分的成本，把手头这件特定的任务做到光速？

Taalas的HC1，正好可以解决这种“规模化单一任务”。当17,000 tokens/秒的速度应用在语音助手上，AI的回答将比人类的神经反射还要快，“等待LLM思考”的转圈动画将彻底成为历史。一个原本需要几百瓦功率、必须插在液冷服务器上的大模型，未来也许只需几瓦的电量，就能被轻易塞进一台扫地机器人、一部智能手机，甚至是一副轻薄的AI眼镜中。真正的“万物皆 AI”，也只有在算力和功耗被极度压缩后才可能实现。

三、刻舟求剑的隐忧

被“冻结”在芯片里的智慧

尽管如此，鉴于当前 AI 算法一日千里的演进速度，Taalas 的路线极具风险的另一面也是不容忽视的。将流动的软件代码固化为冰冷的物理电路，意味着牺牲了灵活性。这里有两个极其尖锐的现实错位。

首先是迭代周期的错位。如今，开源大模型的进化是以“月”甚至“周”为单位的。但一颗先进制程的芯片，从架构设计、流片到最终量产，通常需要 18 到 24 个月。而当它走下产线时，它所“冻结”的 Llama 模型，在日新月异的算法世界里，是否已经沦为一个落后的“古董”？

再者是容错率的错位。大模型如果出现严重的幻觉或安全漏洞，可以通过微调或推送 OTA 补丁来迅速修复。但是，一块已经刻好物理电路的芯片该怎么打补丁呢？一旦芯片内固化的模型存在致命缺陷，整批昂贵的芯片大概率只能沦为硅垃圾。

对于这些致命的商业风险，Taalas也给出了他们的防守策略。首先是微调的保留， HC1虽然锁死了基础权重，但依然保留了对低秩自适应（LoRA）微调的支持。这意味着企业可以在物理大模型的外部，外挂小型的“知识补丁”来调整特定任务的表现。其次是极速的物理迭代，Taalas CEO 透露，改变模型并不需要重新设计整个底层硅片，而只需更改芯片最上层的两层金属层。这种制造工艺的创新，将新模型的硬件化周期压缩到了惊人的两个月，从而帮助模型实现小幅迭代。

纵然如此，这依然是一场与时间赛跑的豪赌。在这场博弈中，Taalas试图用硬件的极致静态，去捕捉 AI 算法的极致动态，不可避免地带有一些“刻舟求剑”的悲壮色彩。

四、蝴蝶效应

谁在战栗，谁在狂欢？

尽管局限性很明显，但Taalas这种“模型即芯片”的路线的面世，依然撕开了英伟达绝对垄断帝国的一道裂痕。

英伟达的地位，很大程度上归功于其CUDA软件生态。全世界的开发者都在用CUDA写程序，这使得硬件的壁垒变成了坚不可摧的软件生态壁垒。但是，如果AI的尽头不再需要软件呢？

Taalas的路线意味着，在推理这个占据未来AI算力90%以上份额的市场中，CUDA的护城河被彻底绕过了。模型训练依然离不开英伟达的GPU，但在最终落地应用的端侧和专业推理数据中心，ASIC专有芯片正在掀起一场“去英伟达化”的起义。

另外，随着生成式AI加速进入商业落地，Taalas之外，Groq、Cerebras、Etched等公司也分别在极速响应、海量吞吐、特定算法加速方面进行着不同的探索，都有可能一点点蚕食推理市场，撼动曾经固若金汤的英伟达帝国。

同时，存储巨头的狂欢也极可能降温。目前，HBM芯片是存储行业的超级印钞机。但如果模型权重被内化于电路，对庞大显存的依赖将大幅降低。无存算分离架构一旦普及，存储厂商在 AI 时代的暴利预期将被大幅挤压。

正因如此，Taalas将大模型刻进硅片，绝不是AI算力的终点，在不远的未来，我们也许会看到算力市场的明显分化：

云端与训练场依然是英伟达GPU和通用加速器的天下，用于探索AGI的智力边界，处理那些最复杂、最多变的未知任务。

端侧与流水线则是Taalas这类“物理硬化”芯片的汪洋大海，它们如沙子般便宜，如光速般敏捷，渗透进每一个路灯、每一台家电、每一个工业机器人中。

甚至，当我们把目光放得更长远一些，当量子计算真正走向实用，或者类脑计算实现突破时，今天我们为了突破冯·诺依曼架构所做的所有努力，可能都会成为技术史上一次次充满勇气而又略显笨拙的尝试。

结语

从“全能大脑”到“硬件本能”

计算架构的演进从来不是单向的直线，而是螺旋上升的复调。从早期的专用打孔机，到通用CPU，到专为图形处理诞生的GPU，再到如今的AI ASIC，计算的历史，就是在“通用灵活性”与“专用极致效率”之间不断摇摆的过程。

Taalas的探索，或许在今天看来略显激进，甚至面临“出厂即落后”的窘境，但它向我们抛出了一个极具哲学意味的产业命题：

AI的终极演化形态究竟是什么？

它是否必须永远保持像水一样可以随意重塑的“通用软件大脑”？

还是说，就像生物历经亿万年进化一样，AI 也会将其最基础、最成熟的智能（比如基础的视觉识别、语言逻辑解析），内化为无需思考、极低功耗运行的“硅基硬件本能”？

回望科技史，任何伟大的范式转换，往往都在非议与豪赌中诞生。

也许，未来的 AI 计算基座并不是非此即彼。云端依然是算力磅礴的通用 GPU 集群，而在万物互联的终端，则是无数颗被固化了“本能”的低功耗 AI 芯片。

当大模型不再是云端的高岭之花，而是变成像电阻、电容一样廉价且随处可见的电子元器件时，AI 真正的大爆发，才算真的拉开大幕。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.