![]()
![]()
翼言商业观察
是破局突围,还是刻舟求剑?
在硅谷当下的宏大叙事中,算力即权力。
英伟达的 GPU 似乎成了通往AGI唯一且昂贵的门票。当整个行业都在狂热地堆叠“更大、更贵、更耗电”的 GPU 集群时,一种极具颠覆性的底层技术叛逆却在暗处悄然发生。
![]()
近日,一家成立不到三年、位于多伦多的初创公司 Taalas 抛出了一个让半导体与 AI 业界侧目的方案:他们将 Meta 的 Llama 大模型直接“硬连线”(Hardwired)进了 ASIC(专用集成电路)芯片。 这并非一次常规的硬件制程升级,而是一场物理层面的暴力重构。
由Tenstorrent前联合创始人Ljubisa Bajic带队的这群工程师,不再依赖昂贵的HBM显存,抛弃了液冷:模型不再是以软件代码的形式运行在通用硬件上,也不再需要频繁地从高带宽显存(HBM)中吞吐成百上千 GB 的权重数据。Llama 庞大的神经网络结构和数十亿参数,被直接固化进物理电路,成为了芯片本身——芯片即模型,模型即芯片。
在这块采用台积电6纳米工艺、面积达815平方毫米的芯片上,单用户运行Llama 3.1 8B的推理吞吐达到了令人瞠目的17,000 tokens/秒。作为对比,这个速度是英伟达最顶尖GPU的数十倍,是人类阅读或思考速度的成百上千倍。生成一部详尽的二战逐月编年史,仅需0.138秒。
这一反常识的技术路线,究竟是打破算力瓶颈的终极突破,还是无视模型迭代规律的“刻舟求剑”?
一、历史的钟摆
天下苦“内存墙”久矣
Taalas 之所以做如此激进的尝试,是因为当前 AI 产业有一个隐疾:内存墙(Memory Wall)。
自计算机诞生以来,统治整个行业的基石是“冯·诺依曼架构”,其设计中就存在计算与存储分离的特点:需要计算时,就从后台把数据搬运到舞台上,算完再搬回去。
![]()
在模型只有几兆、几十兆的时代,这个架构运转良好。但是,当大语言模型膨胀到几百亿、上千亿参数时,这一经典架构正在成为最大的绊脚石。GPU 运行大模型进行推理时,它并没有把大部分精力花在计算上,而是被迫变成了一个疲于奔命的“搬运工”——海量的模型权重数据需要在显存和计算单元之间来回穿梭,高达 80% 的功耗和延迟都浪费在了这种数据的物理搬运上。这不仅造就了英伟达庞大的护城河,也直接捧红了价格极其昂贵的 HBM 存储芯片。AI行业苦“内存墙”久矣,它让 AI 推理的成本居高不下,让数据中心变成了吞噬电力的巨兽。
Taalas 的 ASIC 路线,本质上是对这笔“算力税”的彻底逃避。当模型权重不再是以数据的形式存在于内存中,而是变成了固化的晶体管开闭状态,数据搬运的动作就在物理层面上被抹除了。
二、绝对速度与“电子牛马”
商业落地的场景价值
Taalas打破内存墙带来的最直接后果,是成本和能效比的恐怖断层。
![]()
传统的GPU数据中心是名副其实的“电老虎”,动辄需要液冷伺候。而Taalas的HC1芯片,单颗功耗仅约250W。即使部署10颗芯片,总功耗不过2.5千瓦,仅靠常规的空气冷却就能稳定运行。根据Taalas官方及业界测算,其百万Token的推理成本仅为0.0075美元左右,是传统GPU方案的二十分之一甚至更低。在“唯快不破”和“降本增效”成为行业铁律的今天,这组数据的冲击力毋庸多言。
从工程学的角度来看,这显然是一次惊人的效率跃升;而在模型快速迭代的今天,一个不能更新、不能运行其他模型的芯片,听起来显然又像个笑话。但是,如果我们跳出“打造全知全能AGI”的宏大叙事,将目光投向海量的商业垂直场景,也许会发现,这种“固化”非但不是缺陷,反而可能是某些场景下的最优解。
在真实的商业世界里,并非所有场景都需要一个通晓量子力学、能写莎士比亚十四行诗的GPT5甚至更新的模型。大部分场景需要的,是一个极其稳定、便宜、速度极快且不需要休息的“电子牛马”。
![]()
想象一下工业流水线上的毫秒级残次品视觉识别、智能汽车里需要绝对零延迟响应的端侧语音中枢、数以亿计的家用陪伴机器人或儿童玩偶……在这些场景中,企业根本不在乎你能否兼容最新的大模型框架,他们在乎的是:能不能用几美分的成本,把手头这件特定的任务做到光速?
Taalas的HC1,正好可以解决这种“规模化单一任务”。当17,000 tokens/秒的速度应用在语音助手上,AI的回答将比人类的神经反射还要快,“等待LLM思考”的转圈动画将彻底成为历史。一个原本需要几百瓦功率、必须插在液冷服务器上的大模型,未来也许只需几瓦的电量,就能被轻易塞进一台扫地机器人、一部智能手机,甚至是一副轻薄的AI眼镜中。真正的“万物皆 AI”,也只有在算力和功耗被极度压缩后才可能实现。
三、刻舟求剑的隐忧
被“冻结”在芯片里的智慧
尽管如此,鉴于当前 AI 算法一日千里的演进速度,Taalas 的路线极具风险的另一面也是不容忽视的。将流动的软件代码固化为冰冷的物理电路,意味着牺牲了灵活性。这里有两个极其尖锐的现实错位。
首先是迭代周期的错位。如今,开源大模型的进化是以“月”甚至“周”为单位的。但一颗先进制程的芯片,从架构设计、流片到最终量产,通常需要 18 到 24 个月。而当它走下产线时,它所“冻结”的 Llama 模型,在日新月异的算法世界里,是否已经沦为一个落后的“古董”?
再者是容错率的错位。大模型如果出现严重的幻觉或安全漏洞,可以通过微调或推送 OTA 补丁来迅速修复。但是,一块已经刻好物理电路的芯片该怎么打补丁呢?一旦芯片内固化的模型存在致命缺陷,整批昂贵的芯片大概率只能沦为硅垃圾。
对于这些致命的商业风险,Taalas也给出了他们的防守策略。首先是微调的保留, HC1虽然锁死了基础权重,但依然保留了对低秩自适应(LoRA)微调的支持。这意味着企业可以在物理大模型的外部,外挂小型的“知识补丁”来调整特定任务的表现。其次是极速的物理迭代,Taalas CEO 透露,改变模型并不需要重新设计整个底层硅片,而只需更改芯片最上层的两层金属层。这种制造工艺的创新,将新模型的硬件化周期压缩到了惊人的两个月,从而帮助模型实现小幅迭代。
纵然如此,这依然是一场与时间赛跑的豪赌。在这场博弈中,Taalas试图用硬件的极致静态,去捕捉 AI 算法的极致动态,不可避免地带有一些“刻舟求剑”的悲壮色彩。
四、蝴蝶效应
谁在战栗,谁在狂欢?
尽管局限性很明显,但Taalas这种“模型即芯片”的路线的面世,依然撕开了英伟达绝对垄断帝国的一道裂痕。
英伟达的地位,很大程度上归功于其CUDA软件生态。全世界的开发者都在用CUDA写程序,这使得硬件的壁垒变成了坚不可摧的软件生态壁垒。但是,如果AI的尽头不再需要软件呢?
![]()
Taalas的路线意味着,在推理这个占据未来AI算力90%以上份额的市场中,CUDA的护城河被彻底绕过了。模型训练依然离不开英伟达的GPU,但在最终落地应用的端侧和专业推理数据中心,ASIC专有芯片正在掀起一场“去英伟达化”的起义。
另外,随着生成式AI加速进入商业落地,Taalas之外,Groq、Cerebras、Etched等公司也分别在极速响应、海量吞吐、特定算法加速方面进行着不同的探索,都有可能一点点蚕食推理市场,撼动曾经固若金汤的英伟达帝国。
同时,存储巨头的狂欢也极可能降温。目前,HBM芯片是存储行业的超级印钞机。但如果模型权重被内化于电路,对庞大显存的依赖将大幅降低。无存算分离架构一旦普及,存储厂商在 AI 时代的暴利预期将被大幅挤压。
正因如此,Taalas将大模型刻进硅片,绝不是AI算力的终点,在不远的未来,我们也许会看到算力市场的明显分化:
云端与训练场依然是英伟达GPU和通用加速器的天下,用于探索AGI的智力边界,处理那些最复杂、最多变的未知任务。
端侧与流水线则是Taalas这类“物理硬化”芯片的汪洋大海,它们如沙子般便宜,如光速般敏捷,渗透进每一个路灯、每一台家电、每一个工业机器人中。
甚至,当我们把目光放得更长远一些,当量子计算真正走向实用,或者类脑计算实现突破时,今天我们为了突破冯·诺依曼架构所做的所有努力,可能都会成为技术史上一次次充满勇气而又略显笨拙的尝试。
结语
从“全能大脑”到“硬件本能”
计算架构的演进从来不是单向的直线,而是螺旋上升的复调。从早期的专用打孔机,到通用CPU,到专为图形处理诞生的GPU,再到如今的AI ASIC,计算的历史,就是在“通用灵活性”与“专用极致效率”之间不断摇摆的过程。
Taalas的探索,或许在今天看来略显激进,甚至面临“出厂即落后”的窘境,但它向我们抛出了一个极具哲学意味的产业命题:
AI的终极演化形态究竟是什么?
它是否必须永远保持像水一样可以随意重塑的“通用软件大脑”?
还是说,就像生物历经亿万年进化一样,AI 也会将其最基础、最成熟的智能(比如基础的视觉识别、语言逻辑解析),内化为无需思考、极低功耗运行的“硅基硬件本能”?
![]()
回望科技史,任何伟大的范式转换,往往都在非议与豪赌中诞生。
也许,未来的 AI 计算基座并不是非此即彼。云端依然是算力磅礴的通用 GPU 集群,而在万物互联的终端,则是无数颗被固化了“本能”的低功耗 AI 芯片。
当大模型不再是云端的高岭之花,而是变成像电阻、电容一样廉价且随处可见的电子元器件时,AI 真正的大爆发,才算真的拉开大幕。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.