![]()
·聚焦:人工智能、芯片等行业
欢迎各位客官关注、转发
前言:
2026年2月,一家名为Taalas的多伦多初创公司,宣布完成1.69亿美元新一轮融资,累计融资约2.19亿美元,并同步亮相其首款芯片HC1。
作者| 方文三
图片来源 |网 络
![]()
Taalas的MSIC路线“炸掉内存墙”
HC1运行Llama 3.1 8B的速度达到惊人的17,000 tokens/秒,是英伟达B200的数十倍,成本却仅为后者的1/20。这场“模型即芯片”的豪赌,撕开了AI算力市场的一道裂痕。
![]()
自1945年冯·诺依曼架构确立以来,计算与存储分离的设计统治了芯片行业八十年——数据需要不断在内存和计算单元之间“搬运”,这道“内存墙”成为AI算力的核心瓶颈。Taalas发明了“Mask ROM recall fabric + SRAM”架构,将Llama 3.1 8B的数十亿参数通过掩模ROM固化在硅片金属层中,同时保留部分SRAM区域用于处理KV缓存和LoRA微调。
![]()
HC1基于台积电6nm工艺,面积815mm²,集成了530亿颗晶体管,功耗仅200W左右,10张卡组成的系统也只需2.5千瓦空气冷却。Taalas CEO Ljubisa Bajic曾是AMD与英伟达架构师,也是明星芯片公司Tenstorrent的创始人,他带领25人团队、仅用3000万美元研发成本,两年半时间造出了这颗“反常识”的芯片。
固化硬件的代价与“刻舟求剑”的风险
上世纪90年代末,3dfx Voodoo显卡曾是3D图形领域的霸主,它将3D渲染的光栅步骤做成“固定管线”刻死在电路中。但到了1999年,当开发者开始探索可编程着色器以实现更丰富的3D效果时,Voodoo因硬件固化无法支持新功能,最终被英伟达GeForce取代,公司走向破产。
![]()
2016-2018年的AI芯片潮中,一大批初创公司针对CNN(卷积神经网络)设计了专门的“卷积加速引擎”,在人脸识别、自动驾驶等图像任务中表现抢眼。但2017年《Attention is All You Need》发布后,Transformer架构彻底改变了AI的底层数学逻辑,那些将CNN固化在芯片里的企业,因缺乏通用矩阵计算能力而黯然退场。
![]()
对比这两个案例可以发现,硬件固化的程度决定了风险等级:Voodoo固化的是渲染管线,虽画面落后但依然能用;CNN芯片固化的是算法,适用场景大幅收窄但仍有价值;而Taalas固化的是特定的模型版本——一旦模型更新,芯片便可能直接沦为“电子垃圾”。模型换了,芯片就是废铁,这种极致绑定让Taalas押注于一个前提:AI算法已经进入“平台期”,架构不再剧烈变化。
专用芯片在垂直场景中的生存逻辑
尽管风险极高,但Taalas并非在追逐一个虚无的梦想。在真实的商业世界里,并非所有场景都需要一个通晓万物的“通用神灵”。大量垂直场景需要的,是一个极其稳定、便宜、速度极快的“电子牛马”,把手头那件事干到极致。
![]()
Taalas的HC1精准命中了三类对延迟敏感、模型版本稳定的应用场景:
企业专用模型:金融、医疗、法律等行业长期使用固定版本的私有化模型,推理成本降至传统方案的1/266,足以让许多此前不可行的AI应用具备商业价值。
边缘推理:人形机器人、自动驾驶汽车、智能手机等设备对实时性要求极高,且无需运行多模型。汽车遇到临时修路等突发状况时,需要低于1毫秒的“本能推理反射”,固化了大模型的专用芯片能实现本地极速响应。
大规模客服:电商、运营商的智能客服常年运行标准化对话模型,HC1的“秒级响应”能显著提升用户体验,同时将运营成本削减90%以上。
这种“互补而非替代”的定位,为Taalas在英伟达的阴影下找到了生存空间。
模型迭代与硬件交付的时间赛跑
然而,定位清晰并不能消除商业模式的核心不确定性——模型迭代周期与芯片开发周期之间的巨大错位。
如今,开源大模型的进化是以“月”甚至“周”为单位的。但一颗先进制程的芯片,从架构设计到流片量产,通常需要18到24个月。当芯片走下产线时,它所“冻结”的模型在日新月异的算法世界里,将沦为“古董”,且一旦固化模型存在致命缺陷,整批芯片只能报废。
![]()
Taalas对此给出的防守策略是“极速物理迭代”。他们与台积电合作开发了“两层金属”方案——改变模型不需要重新设计整个底层硅片,只需更改芯片最上层的两层金属掩模,将新模型的硬件化周期压缩到两个月左右。同时,HC1保留了LoRA微调的支持,企业可以在物理大模型外部挂载小型的“知识补丁”来调整特定任务表现。
![]()
从“通用主导”走向“通用与专用并存”
在推理成为AI算力新主战场的2026年,市场正在从“通用主导”向“通用与专用并存”的分裂格局演进。
英伟达通过200亿美元收购Groq的推理技术,已释放出“通用巨头向专用赛道妥协”的信号。与此同时,Etched选择固化Transformer架构,Groq采用纯SRAM的LPU路线,Cerebras用晶圆级引擎突破内存墙,Tenstorrent拥抱RISC-V的可编程架构——多元技术路线各显神通,共同蚕食着曾经固若金汤的推理市场。
![]()
未来的AI算力版图,或许将呈现“三分天下”的格局:英伟达GPU和通用加速器主导,用于探索AGI的智力边界,处理最复杂、最多变的未知任务;Taalas这类“物理硬化”芯片渗透进每一个路灯、家电、工业机器人中;谷歌TPU、微软Azure Maia等云厂商自研芯片深耕云内部署。
结语:Taalas的HC1证明,当大模型变成像电阻、电容一样廉价且随处可见的电子元器件时,AI真正的大爆发才算拉开大幕。
网络援引:
钛媒体:《1.69亿融资押注专用芯片:Taalas要靠“去GPU化”改写AI算力格局》
维科网:《挑战英伟达算力霸权?多伦多一家创企将大模型“刻进”芯片》
芯智讯:《17000 Tokens/s!48倍碾压英伟达B200!这家把大模型“刻”进芯片的公司,什么来头?》
搜狐:《全球芯片圈炸锅:这个“疯子”把模型刻进硅片,80年架构说废就废 》
本公众号所刊发稿件及图片来源于网络,仅用于交流使用,如有侵权请联系回复,我们收到信息后会在24小时内处理。
请务必注明:
「姓名 + 公司 + 合作需求」
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.