网易首页 > 网易号 > 正文 申请入驻

复盘AI芯片技术路线 专用芯片复刻矿机历程

0
分享至

近期,境外Taalas公司展示了一种非传统的AI硬件路线,他们将Llama 3.1 8B模型在物理层面直接“硬连线”到了一颗芯片中。这种“模型即硬件”的设计,放弃了传统的软件加载与运行模式,实现了模型参数的物理固化。

如果你在其实际演示网站中体验,最直观的改变是极低的输出延迟。与目前常见的逐字生成的流式输出不同,其文本近乎瞬间完整呈现。这并非单纯的工程优化,而是对当前AI算力底层架构瓶颈的一次直接回应。

内存墙当前AI算力的核心限制

要理解Taalas的路线,需要审视当前GPU架构在运行大模型时面临的“内存墙”效应。

目前,计算核心的处理速度已远远超过显存的读写带宽。在模型推理时,系统必须不断将庞大的参数从显存搬运至计算单元,计算完成后再进行回写。这导致系统的大部分时间与能耗实际上消耗在了数据传输的路上,而非真正的矩阵运算。

在Agent应用逐渐普及的背景下,这一效率损耗被进一步放大。当Agent需要执行复杂的思维链推理或大量高频的自我迭代时,底层频繁的数据搬运会带来显著的延迟。尽管英伟达的H200、B200等顶级GPU在持续推高硬件规格,但通用计算架构在运行特定模型时,必然存在因数据搬运带来的效率折损。

面对这一问题,Taalas的解决思路非常直接。既然搬运数据的成本过高,就通过硬件级别的定制,直接在物理结构上省去参数调取的环节。

三种算力卡演进路线

探讨Taalas的技术路线前,有必要重新审视“专用集成电路(ASIC)”中“专用”的定界。当前主流的AI芯片架构大致可划分为三种演进方向:

英伟达GPU:以通用性为核心的计算架构

英伟达GPU的核心优势在于极高的通用性。其底层设计通过海量的CUDA核心、Tensor Core,配合高带宽显存及先进封装,实现对各类算法和任务的广泛兼容。这种架构的代价是面临较高的成本与功耗,并且在执行具体任务时,由于数据必须在显存和计算核心之间频繁调度,始终受制于内存带宽瓶颈。

传统NPU/AI加速器:专用ASIC

以昇腾、寒武纪等为代表的NPU,其“专用性”体现在针对特定任务类型的架构优化。这类硬件提供了一套专用的AI指令集,能够高效处理被拆解为基础矩阵运算的各类模型。但在硬件结构上,它们依然保留了可编程逻辑与通用存储空间,模型权重仍需从存储单元搬运至计算核心,并未从根本上消除数据调度带来的延迟与功耗损耗。

Taalas:面向特定权重的模型级ASIC

Taalas选择了更为激进的定制化路线。其“专用性”直接下探至特定的模型算法与参数权重。该架构舍弃了通用的指令集和取指逻辑,将特定的模型权重通过金属布线直接固化在电路层面,实现了“硬件即模型”。

通过这种硬连线设计,Taalas移除了传统架构中用于数据搬运、缓存和寻址的绝大部分逻辑电路。数据流经硬件即等同于完成计算,直接跳过了传统计算架构中“取指令、读数据、执行、写回”的循环,从而在物理层面上规避了内存带宽的限制。

将这三条路线放在一起对比,其底层架构的差异一目了然:


从算法固化到物理重构

理解了上述的技术路线分野,就能更清晰地看到Taalas方案的工程价值。他们放弃了让通用GPU去“适配”大模型的传统思路,转而采取逆向工程,直接根据特定大模型的逻辑,反向定制硬件。这一过程,本质上是一次从“算法硬化”到“物理流片”的完整重构。

具体的实施路径可以拆解为四个关键环节。首先,团队选定架构相对稳定的大模型(如Llama 3.1),对其进行深度量化,并通过专用的EDA编译器,将复杂的数学逻辑直接转换为逻辑门电路图。接着,利用自动化设计流程,将庞大的权重参数直接“刻”在芯片顶层的金属布线中。这意味着,模型参数不再是储存于外部内存、需要频繁搬运的数据,而是直接成为了硬件电路的物理组成部分。随后,在制造环节,由于去除了昂贵的HBM显存和复杂的CoWoS先进封装,该方案可以选择台积电N6等成熟制程进行流片,大幅降低了生产成本与工艺门槛。最终,这种基于“金属掩膜定制”的ASIC方案,能够在约60天的周期内完成从软件算法到硅片硬件的转化,交付出一颗专属于特定模型的“硬连线”芯片。

根据2026年2月的公开资料,这颗被命名为Taalas HC1的芯片展现出了显著的性能指标。在吞吐量方面,单颗芯片运行Llama 3.1 8B模型时,推理速度可达16,000至17,000 Tokens/秒,在量级上超越了传统的GPU架构。同时,其系统延迟被控制在1毫秒以内,实现了极高的交互实时性。在能效与成本控制上,相比主流GPU,其能效比提升了约10倍;而得益于对HBM显存和复杂冷却系统的剥离,生产成本则降低了约20倍。

人类的平均阅读速度约为每秒5个词,该芯片单秒输出的文本量,相当于人类一个小时的常规阅读量。此外,项目的工程效率同样值得关注,整个项目由24名工程师耗资约3000万美元完成。在“每秒每用户Token数”这一核心评估维度上,Taalas HC1相较于Nvidia H200、B200以及Groq等竞品,展现出了明显的底层架构优势。


客观而言,该方案目前仍存在局限性,现阶段仅提供了4bit量化版本的Llama 3.1 8B模型演示,尚未能全面胜任复杂多变的生产级任务。但这套已经跑通的工程流程,足以证明“模型即硬件”的路线具备现实可行性,为打破当前AI算力的内存墙瓶颈提供了一种全新的破局思路。

当推理跨越延迟鸿沟

业界普遍将2026年视作Agent应用落地的关键节点。然而,Agent要真正实现大规模普及,其底层前提在于,推理过程必须具备极低的延迟与成本。Taalas这种高度定制化的物理固化方案,有望在以下几个核心场景中打破现有算力的物理瓶颈。

在复杂决策与推演场景中,当Agent需要在极短时间内模拟大量方案并输出最优解时,单芯片每秒过万Token的吞吐量将提供坚实的底层支撑。无论是高频金融交易、实时策略推演,还是复杂的多步逻辑规划,算力延迟将不再是制约系统表现的短板。

对于具身智能而言,消除数据传输延迟是其走向现实的关键。若将此类ASIC芯片直接集成至机器人的硬件系统中,其推理延迟可压缩至毫秒级。这意味着机器人在物理世界中能够进行高频的实时决策,如避障、抓取与人机协作,彻底消除传统云端通信带来的迟滞感。

在本地化计算与数字分身领域,近期openClaw等应用的受关注,再次引发了业界对云端数据处理隐私风险的讨论。Taalas的方案本质上提供了一种端侧的高效算力节点。未来可能出现类似家用路由器的本地“Agent节点”,在不依赖网络的前提下,凭借固化模型的低功耗与高隐私特性,实现个人数据的本地化闭环处理。这种物理层面的数据隔离,从根源上规避了隐私泄露风险。

更进一步,从边缘计算的角度来看,在特定或单一应用场景下,企业或个人部署大模型可能不再需要构建高成本的算力集群。只需在本地PC或局域网服务器配备搭载特定开源模型的专用算力卡,即可实现高速、低成本的模型全量复用。

灵活性与专用化的技术选择

显然,这种极端的固化方案面临着关于“灵活性”的严峻拷问。当底层模型更新换代时,已经物理流片的芯片是否会迅速沦为沉没成本?这是所有专用计算架构都必须回应的质疑。

Taalas的应对逻辑在于其极短的工程流片周期。在约60天的研发交付速度下,“模型即硬件”的模式实际上改变了芯片的生命周期定义。随着前期约3000万美元的开发成本在规模化生产中被迅速摊薄,硬件的更新节奏有望与模型的迭代周期实现同步。未来,终端设备升级大模型,可能将简化为更换一块低成本的物理算力模块。

这一路线之争,最终触及了当前AI基础设施的核心议题,即行业正处于一个关键的技术分水岭。一端是追求极致通用性但成本与功耗高昂的GPU架构,另一端是牺牲通用性以换取极致能效与单点性能的特定任务ASIC。

历史的技术演进往往具有相似性。正如加密货币挖矿经历了从通用CPU到GPU,最终被专用ASIC矿机全面主导的过程;当AI大模型的底层架构逐渐收敛、特定算法趋于稳定时,专用的推理芯片极有可能复刻这一路径,在推理端重塑现有的AI算力市场格局。

算法定义硬件的范式转移

Taalas的设计可以被视为“模型级专用ASIC”。其之所以在当下节点具备落地的可能,核心动因在于大模型发展环境的宏观变迁。当前,国内外主流大模型的底层架构与性能表现已呈现出明显的趋同态势。当模型算法步入收敛期,高度专用的硬件定制便具备了产业层面的生存土壤。回顾从英伟达GPU、寒武纪NPU再到Taalas的演进路线,本质上正是AI芯片在舍弃部分通用性的同时,向极致专用性能不断倾斜的历程。以此观之,单芯片每秒1.7万Token的吞吐量,仅仅是这一硬件演进趋势的开端。

客观而言,通用计算架构并不会因此走向消亡。在训练前沿模型、探索全新架构以及应对长尾和未知应用场景时,以英伟达GPU为代表的通用算力依然具有不可替代的地位。但在推理端,面对模型结构固定、任务目标单一的应用场景,专用芯片在能效比与性价比上的底层优势将逐步显现。简而言之,不同架构的AI芯片在生态中并非绝对的零和博弈,而是各司其职的互补关系。未来的算力市场格局,将取决于各类计算架构如何在自身的优势区间内,精准匹配并落地对应的核心应用。

从英伟达到寒武纪,再到Taalas,就是AI芯片通用性逐渐降低,专用性能逐步提升。

对于模型收敛,任务单一的应用,专用芯片有更好的能效比、性价比,但在探索未知,任务多样化的应用,英伟达的GPU依然不可撼动。

简言之,各类AI芯片之间不是取代关系,而是互补关系,关键在于挖掘出自己的比较优势和杀手级应用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伟伟道来 | 伊朗为什么越来越强硬

伟伟道来 | 伊朗为什么越来越强硬

经济观察报
2026-04-27 12:08:53
史上“最懒”富二代!27年不动本金,用17亿利息滚出人生赢家

史上“最懒”富二代!27年不动本金,用17亿利息滚出人生赢家

小兰聊历史
2026-04-15 12:25:29
33+30!再见了,布克!人家才是太阳第一核心

33+30!再见了,布克!人家才是太阳第一核心

篮球实战宝典
2026-04-26 18:56:07
我入住养老院6年,劝告想来养老的老人,要先看自己能否做到这4点

我入住养老院6年,劝告想来养老的老人,要先看自己能否做到这4点

小马达情感故事
2026-04-26 18:50:03
一季度外贸高增长背后:一批中国工厂,正在“系统升级”

一季度外贸高增长背后:一批中国工厂,正在“系统升级”

正解局
2026-04-24 14:31:48
中方宣布:普雷沃、黄英贤将访华

中方宣布:普雷沃、黄英贤将访华

极目新闻
2026-04-27 15:27:45
女大学生泰国旅游被转卖缅甸园区,照片流出长这么好看被折磨太惨

女大学生泰国旅游被转卖缅甸园区,照片流出长这么好看被折磨太惨

老猫观点
2026-04-27 07:20:19
为了外贸数据排名,南京市江宁经济开发区公款“购买”异地出口数据,有关部门只考不核

为了外贸数据排名,南京市江宁经济开发区公款“购买”异地出口数据,有关部门只考不核

三言四拍
2026-04-27 09:06:00
曝杨子新女友已产子!与黄圣依婚姻存续期疑云重重,去年否定关系

曝杨子新女友已产子!与黄圣依婚姻存续期疑云重重,去年否定关系

一盅情怀
2026-04-27 14:27:14
广告使用“清朝长辫”被指辱华,法国品牌Lemaire致歉

广告使用“清朝长辫”被指辱华,法国品牌Lemaire致歉

南方都市报
2026-04-26 20:40:18
台湾最新民调出炉,蒋万安、郑丽文支持率惊人,民众党大将已表态

台湾最新民调出炉,蒋万安、郑丽文支持率惊人,民众党大将已表态

老头的传奇色彩
2026-04-27 12:52:27
难以置信!洛阳某三甲医院给孩子脱臼复位花1分钟,收费100元举报

难以置信!洛阳某三甲医院给孩子脱臼复位花1分钟,收费100元举报

火山詩话
2026-04-26 07:23:48
山姆29.9元的盆栽被抢空,有人一次就抱走七八盆

山姆29.9元的盆栽被抢空,有人一次就抱走七八盆

深圳晚报
2026-04-27 08:11:06
22个省级政府主要负责人担任省级责任人!这一名单对外公布

22个省级政府主要负责人担任省级责任人!这一名单对外公布

知知贵阳
2026-04-26 18:02:26
饶毅教授发文:痛斥一门三代七博士学术不端乱象

饶毅教授发文:痛斥一门三代七博士学术不端乱象

TOP大学来了
2026-04-27 09:31:01
革命卫队敢不敢切断霍尔木兹海底的光缆?

革命卫队敢不敢切断霍尔木兹海底的光缆?

高博新视野
2026-04-27 00:53:46
美媒:以色列总统暂不赦免内塔尼亚胡,寻求促成认罪协议

美媒:以色列总统暂不赦免内塔尼亚胡,寻求促成认罪协议

澎湃新闻
2026-04-27 15:06:07
十分之一的休学率,海淀妈妈“投降”了?

十分之一的休学率,海淀妈妈“投降”了?

显微故事
2026-04-27 09:54:11
增长320%!印度人蜂拥到上海!一夜醒来,上海人感觉天都塌了

增长320%!印度人蜂拥到上海!一夜醒来,上海人感觉天都塌了

步论天下事
2026-04-26 10:00:40
日韩股市涨势扩大,均创历史新高

日韩股市涨势扩大,均创历史新高

澎湃新闻
2026-04-27 10:40:28
2026-04-27 17:24:49
铁流1988
铁流1988
芯片、通信
367文章数 72关注度
往期回顾 全部

科技要闻

DeepSeek V4上线三天,第一批实测出来了

头条要闻

吉林突现200万豪华住宅式墓地 独门独户地上地下两层

头条要闻

吉林突现200万豪华住宅式墓地 独门独户地上地下两层

体育要闻

最抽象的天才,正在改变瓜迪奥拉

娱乐要闻

黄杨钿甜为“耳环风波”出镜道歉:谣言已澄清

财经要闻

DeepSeek融资、字节加码 AI开始真烧钱了

汽车要闻

张纯伟:奇瑞油电同进不做选择题 重新定义新燃油

态度原创

房产
本地
艺术
家居
数码

房产要闻

信号!海南商业版图,迎来大变局!

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

艺术要闻

你绝对想不到,摄影能让她成为女神!

家居要闻

江景风格 流动的秩序

数码要闻

拒绝烧显卡!华硕ROG Equalizer线材公布售价:一根卖341元

无障碍浏览 进入关怀版