网易首页 > 网易号 > 正文 申请入驻

复盘AI芯片技术路线 专用芯片复刻矿机历程

0
分享至

近期,境外Taalas公司展示了一种非传统的AI硬件路线,他们将Llama 3.1 8B模型在物理层面直接“硬连线”到了一颗芯片中。这种“模型即硬件”的设计,放弃了传统的软件加载与运行模式,实现了模型参数的物理固化。

如果你在其实际演示网站中体验,最直观的改变是极低的输出延迟。与目前常见的逐字生成的流式输出不同,其文本近乎瞬间完整呈现。这并非单纯的工程优化,而是对当前AI算力底层架构瓶颈的一次直接回应。

内存墙当前AI算力的核心限制

要理解Taalas的路线,需要审视当前GPU架构在运行大模型时面临的“内存墙”效应。

目前,计算核心的处理速度已远远超过显存的读写带宽。在模型推理时,系统必须不断将庞大的参数从显存搬运至计算单元,计算完成后再进行回写。这导致系统的大部分时间与能耗实际上消耗在了数据传输的路上,而非真正的矩阵运算。

在Agent应用逐渐普及的背景下,这一效率损耗被进一步放大。当Agent需要执行复杂的思维链推理或大量高频的自我迭代时,底层频繁的数据搬运会带来显著的延迟。尽管英伟达的H200、B200等顶级GPU在持续推高硬件规格,但通用计算架构在运行特定模型时,必然存在因数据搬运带来的效率折损。

面对这一问题,Taalas的解决思路非常直接。既然搬运数据的成本过高,就通过硬件级别的定制,直接在物理结构上省去参数调取的环节。

三种算力卡演进路线

探讨Taalas的技术路线前,有必要重新审视“专用集成电路(ASIC)”中“专用”的定界。当前主流的AI芯片架构大致可划分为三种演进方向:

英伟达GPU:以通用性为核心的计算架构

英伟达GPU的核心优势在于极高的通用性。其底层设计通过海量的CUDA核心、Tensor Core,配合高带宽显存及先进封装,实现对各类算法和任务的广泛兼容。这种架构的代价是面临较高的成本与功耗,并且在执行具体任务时,由于数据必须在显存和计算核心之间频繁调度,始终受制于内存带宽瓶颈。

传统NPU/AI加速器:专用ASIC

以昇腾、寒武纪等为代表的NPU,其“专用性”体现在针对特定任务类型的架构优化。这类硬件提供了一套专用的AI指令集,能够高效处理被拆解为基础矩阵运算的各类模型。但在硬件结构上,它们依然保留了可编程逻辑与通用存储空间,模型权重仍需从存储单元搬运至计算核心,并未从根本上消除数据调度带来的延迟与功耗损耗。

Taalas:面向特定权重的模型级ASIC

Taalas选择了更为激进的定制化路线。其“专用性”直接下探至特定的模型算法与参数权重。该架构舍弃了通用的指令集和取指逻辑,将特定的模型权重通过金属布线直接固化在电路层面,实现了“硬件即模型”。

通过这种硬连线设计,Taalas移除了传统架构中用于数据搬运、缓存和寻址的绝大部分逻辑电路。数据流经硬件即等同于完成计算,直接跳过了传统计算架构中“取指令、读数据、执行、写回”的循环,从而在物理层面上规避了内存带宽的限制。

将这三条路线放在一起对比,其底层架构的差异一目了然:


从算法固化到物理重构

理解了上述的技术路线分野,就能更清晰地看到Taalas方案的工程价值。他们放弃了让通用GPU去“适配”大模型的传统思路,转而采取逆向工程,直接根据特定大模型的逻辑,反向定制硬件。这一过程,本质上是一次从“算法硬化”到“物理流片”的完整重构。

具体的实施路径可以拆解为四个关键环节。首先,团队选定架构相对稳定的大模型(如Llama 3.1),对其进行深度量化,并通过专用的EDA编译器,将复杂的数学逻辑直接转换为逻辑门电路图。接着,利用自动化设计流程,将庞大的权重参数直接“刻”在芯片顶层的金属布线中。这意味着,模型参数不再是储存于外部内存、需要频繁搬运的数据,而是直接成为了硬件电路的物理组成部分。随后,在制造环节,由于去除了昂贵的HBM显存和复杂的CoWoS先进封装,该方案可以选择台积电N6等成熟制程进行流片,大幅降低了生产成本与工艺门槛。最终,这种基于“金属掩膜定制”的ASIC方案,能够在约60天的周期内完成从软件算法到硅片硬件的转化,交付出一颗专属于特定模型的“硬连线”芯片。

根据2026年2月的公开资料,这颗被命名为Taalas HC1的芯片展现出了显著的性能指标。在吞吐量方面,单颗芯片运行Llama 3.1 8B模型时,推理速度可达16,000至17,000 Tokens/秒,在量级上超越了传统的GPU架构。同时,其系统延迟被控制在1毫秒以内,实现了极高的交互实时性。在能效与成本控制上,相比主流GPU,其能效比提升了约10倍;而得益于对HBM显存和复杂冷却系统的剥离,生产成本则降低了约20倍。

人类的平均阅读速度约为每秒5个词,该芯片单秒输出的文本量,相当于人类一个小时的常规阅读量。此外,项目的工程效率同样值得关注,整个项目由24名工程师耗资约3000万美元完成。在“每秒每用户Token数”这一核心评估维度上,Taalas HC1相较于Nvidia H200、B200以及Groq等竞品,展现出了明显的底层架构优势。


客观而言,该方案目前仍存在局限性,现阶段仅提供了4bit量化版本的Llama 3.1 8B模型演示,尚未能全面胜任复杂多变的生产级任务。但这套已经跑通的工程流程,足以证明“模型即硬件”的路线具备现实可行性,为打破当前AI算力的内存墙瓶颈提供了一种全新的破局思路。

当推理跨越延迟鸿沟

业界普遍将2026年视作Agent应用落地的关键节点。然而,Agent要真正实现大规模普及,其底层前提在于,推理过程必须具备极低的延迟与成本。Taalas这种高度定制化的物理固化方案,有望在以下几个核心场景中打破现有算力的物理瓶颈。

在复杂决策与推演场景中,当Agent需要在极短时间内模拟大量方案并输出最优解时,单芯片每秒过万Token的吞吐量将提供坚实的底层支撑。无论是高频金融交易、实时策略推演,还是复杂的多步逻辑规划,算力延迟将不再是制约系统表现的短板。

对于具身智能而言,消除数据传输延迟是其走向现实的关键。若将此类ASIC芯片直接集成至机器人的硬件系统中,其推理延迟可压缩至毫秒级。这意味着机器人在物理世界中能够进行高频的实时决策,如避障、抓取与人机协作,彻底消除传统云端通信带来的迟滞感。

在本地化计算与数字分身领域,近期openClaw等应用的受关注,再次引发了业界对云端数据处理隐私风险的讨论。Taalas的方案本质上提供了一种端侧的高效算力节点。未来可能出现类似家用路由器的本地“Agent节点”,在不依赖网络的前提下,凭借固化模型的低功耗与高隐私特性,实现个人数据的本地化闭环处理。这种物理层面的数据隔离,从根源上规避了隐私泄露风险。

更进一步,从边缘计算的角度来看,在特定或单一应用场景下,企业或个人部署大模型可能不再需要构建高成本的算力集群。只需在本地PC或局域网服务器配备搭载特定开源模型的专用算力卡,即可实现高速、低成本的模型全量复用。

灵活性与专用化的技术选择

显然,这种极端的固化方案面临着关于“灵活性”的严峻拷问。当底层模型更新换代时,已经物理流片的芯片是否会迅速沦为沉没成本?这是所有专用计算架构都必须回应的质疑。

Taalas的应对逻辑在于其极短的工程流片周期。在约60天的研发交付速度下,“模型即硬件”的模式实际上改变了芯片的生命周期定义。随着前期约3000万美元的开发成本在规模化生产中被迅速摊薄,硬件的更新节奏有望与模型的迭代周期实现同步。未来,终端设备升级大模型,可能将简化为更换一块低成本的物理算力模块。

这一路线之争,最终触及了当前AI基础设施的核心议题,即行业正处于一个关键的技术分水岭。一端是追求极致通用性但成本与功耗高昂的GPU架构,另一端是牺牲通用性以换取极致能效与单点性能的特定任务ASIC。

历史的技术演进往往具有相似性。正如加密货币挖矿经历了从通用CPU到GPU,最终被专用ASIC矿机全面主导的过程;当AI大模型的底层架构逐渐收敛、特定算法趋于稳定时,专用的推理芯片极有可能复刻这一路径,在推理端重塑现有的AI算力市场格局。

算法定义硬件的范式转移

Taalas的设计可以被视为“模型级专用ASIC”。其之所以在当下节点具备落地的可能,核心动因在于大模型发展环境的宏观变迁。当前,国内外主流大模型的底层架构与性能表现已呈现出明显的趋同态势。当模型算法步入收敛期,高度专用的硬件定制便具备了产业层面的生存土壤。回顾从英伟达GPU、寒武纪NPU再到Taalas的演进路线,本质上正是AI芯片在舍弃部分通用性的同时,向极致专用性能不断倾斜的历程。以此观之,单芯片每秒1.7万Token的吞吐量,仅仅是这一硬件演进趋势的开端。

客观而言,通用计算架构并不会因此走向消亡。在训练前沿模型、探索全新架构以及应对长尾和未知应用场景时,以英伟达GPU为代表的通用算力依然具有不可替代的地位。但在推理端,面对模型结构固定、任务目标单一的应用场景,专用芯片在能效比与性价比上的底层优势将逐步显现。简而言之,不同架构的AI芯片在生态中并非绝对的零和博弈,而是各司其职的互补关系。未来的算力市场格局,将取决于各类计算架构如何在自身的优势区间内,精准匹配并落地对应的核心应用。

从英伟达到寒武纪,再到Taalas,就是AI芯片通用性逐渐降低,专用性能逐步提升。

对于模型收敛,任务单一的应用,专用芯片有更好的能效比、性价比,但在探索未知,任务多样化的应用,英伟达的GPU依然不可撼动。

简言之,各类AI芯片之间不是取代关系,而是互补关系,关键在于挖掘出自己的比较优势和杀手级应用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
郭可盈女儿参加毕业舞会,16岁完美继承母亲颜值

郭可盈女儿参加毕业舞会,16岁完美继承母亲颜值

TVB剧评社
2026-06-26 20:56:32
精神小妹的生活原来是这样的!网友:终于知道她们为啥都这么瘦了

精神小妹的生活原来是这样的!网友:终于知道她们为啥都这么瘦了

深度报
2026-02-11 23:35:03
可怕的不是日本连续3届晋级,而是他们根本没想过要避开巴西!

可怕的不是日本连续3届晋级,而是他们根本没想过要避开巴西!

十点街球体育
2026-06-26 13:46:05
阿根廷好命! 在4强前可能不会遇传统豪门梅西会在约旦比赛上场

阿根廷好命! 在4强前可能不会遇传统豪门梅西会在约旦比赛上场

80后体育大蜀黍
2026-06-26 14:07:19
上海44岁独居男子突然病重昏迷,“救命钱”取不出!七旬母亲苦求“监护权”

上海44岁独居男子突然病重昏迷,“救命钱”取不出!七旬母亲苦求“监护权”

上观新闻
2026-06-26 14:51:48
特朗普:伊朗女子小学遭袭并导致大量儿童丧生一事,责任方可能永远无法查明,“没人故意那样做……犯错难免,战争是肮脏的”

特朗普:伊朗女子小学遭袭并导致大量儿童丧生一事,责任方可能永远无法查明,“没人故意那样做……犯错难免,战争是肮脏的”

政知新媒体
2026-06-25 10:38:15
A股:证监会最新出手,开出私募史上最重罚单!下周一将迎新变化

A股:证监会最新出手,开出私募史上最重罚单!下周一将迎新变化

云鹏叙事
2026-06-27 00:00:07
据爆料:听说某大厂西安研究所一个女员工,终身合同耗了三年不走,今年被hr带着保安抬出公司了。

据爆料:听说某大厂西安研究所一个女员工,终身合同耗了三年不走,今年被hr带着保安抬出公司了。

纯洁的微笑
2026-06-25 12:49:08
广州博士生点外卖备注“吃了你们家7年,拍毕业照能邀请你们来吗”,老板收到后整个人都蒙了!最新回应:一定会去

广州博士生点外卖备注“吃了你们家7年,拍毕业照能邀请你们来吗”,老板收到后整个人都蒙了!最新回应:一定会去

环球网资讯
2026-06-26 20:09:14
中国正在崛起的3座城市,有望赶上北上广深,晋升为国际大都市!

中国正在崛起的3座城市,有望赶上北上广深,晋升为国际大都市!

混沌录
2026-06-27 00:10:55
媳妇是老师,我俩5年没孩子,体检正常,直到我去她办公室才发现

媳妇是老师,我俩5年没孩子,体检正常,直到我去她办公室才发现

黑猫故事所
2026-06-21 21:58:12
央视刘芳菲:两任爱人一死缓一惨死,原来这才是她最正确的决定

央视刘芳菲:两任爱人一死缓一惨死,原来这才是她最正确的决定

飘飘然的娱乐汇
2026-06-26 19:40:06
谈掰了!新“梅西接班人”不会回归皇马,伯纳乌开价6000万卖给谁

谈掰了!新“梅西接班人”不会回归皇马,伯纳乌开价6000万卖给谁

里芃芃体育
2026-06-27 06:00:24
13票全过没一个反对,菲参议院一夜变天,杜特尔特家族命运悬了

13票全过没一个反对,菲参议院一夜变天,杜特尔特家族命运悬了

云上乌托邦
2026-06-26 14:29:28
厄瓜多尔28岁总统夫人,年轻貌美身材高挑,勾搭总统婚内出轨上位

厄瓜多尔28岁总统夫人,年轻貌美身材高挑,勾搭总统婚内出轨上位

霁寒飘雪
2026-06-26 22:02:35
意外!曝意甲第4砸6000万欧永久签下21岁天才 皇马可8000万欧回购

意外!曝意甲第4砸6000万欧永久签下21岁天才 皇马可8000万欧回购

风过乡
2026-06-26 20:47:36
内马尔也没想到,被全足坛都往死里针对的他,如今对手却不敢铲?

内马尔也没想到,被全足坛都往死里针对的他,如今对手却不敢铲?

小莜读史
2026-06-26 18:46:05
众明星纷纷给《抓特务》包场!韩红终于能“走个面”了……

众明星纷纷给《抓特务》包场!韩红终于能“走个面”了……

麦杰逊
2026-06-26 11:30:07
因性交易丑闻隐退的她宣告复出了!

因性交易丑闻隐退的她宣告复出了!

奋斗在韩国
2026-06-24 18:18:51
中国为什么总说要扩大消费,却迟迟没有进行大规模收入分配改革?

中国为什么总说要扩大消费,却迟迟没有进行大规模收入分配改革?

素衣读史
2026-06-25 22:12:10
2026-06-27 06:36:49
铁流1988
铁流1988
芯片、通信
414文章数 78关注度
往期回顾 全部

科技要闻

拿了500亿的梁文锋,只挖地基,不信销售

头条要闻

世界杯:塞内加尔5-0十人伊拉克 盖伊世界波双响

头条要闻

世界杯:塞内加尔5-0十人伊拉克 盖伊世界波双响

体育要闻

我在世界杯的每次奔跑,都为了证明你没看错

娱乐要闻

玥儿不回北京,马筱梅解释后妈身份

财经要闻

"索具龙头"领大额罚单

汽车要闻

11.99万起 捷途自由者7 PLUS/山海T1四驱版上市

态度原创

时尚
房产
亲子
家居
教育

殡葬专业,我可以干一辈子

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

亲子要闻

“人永远不知道自己的天赋技能点被随机点到哪了”

家居要闻

绿意盎然 自然之境

教育要闻

广东头部前50名高中格局与生源分布

无障碍浏览 进入关怀版