网易首页 > 网易号 > 正文 申请入驻

成本低20倍速度高10倍,“芯片即模型”打破GPU神话?(附论文原文)

0
分享至

两天前,AI芯片创业公司 Taalas 发布了一篇颇具宣言意味的文章:《The Path to Ubiquitous AI》(《通往无处不在的 AI 之路》,原文附后)


核心观点只有一句话:AI 要真正普及,必须解决两个问题,延迟和成本。

该文指出,如今的AI基础设施正在走向一种“数据中心+电厂”的畸形路径。

房间大小的服务器、数百千瓦功耗、液冷系统、HBM堆叠、复杂封装、成公里长的电缆。

这被认为不是AI的终局。

因为真正普及的技术,必须变得更简单、更快、更便宜。

为此,Taalas提出一个极端方向,为每一个模型,生产专用芯片。

也就是说,不搞通用 GPU,而是“模型即芯片”。

为此, Taalas 开发了一个平台,可以将任何 AI 模型转化为定制硅芯片。“从收到一个全新的模型开始,只需两个月,就能将其硬件化”。

据介绍,Taalas的核心开发理念有三点,即极致专用化、计算与存储融合,及激进简洁

他们发布的首款产品,是硬编码的 Llama 3.1 8B,性能表现十分抢眼。

据介绍,该产品由 24 人团队完成,仅花费 3000 万美元。


比如,17,000 tokens/秒、接近现有方案 10 倍速度、成本降低约 20 倍、功耗降低约 10 倍……

Taalas由此还提出“即时 AI”的概念。

一些资深开发者在 X 上的发帖,“17000 tokens/s…,等待模型思考的时代结束了”。


Basecamp 创始人 DHH 试用后称,“感觉像作弊一样快”。

半导体行业投资人 Pierre Lamond 称,团队做芯片的经验业内顶级,认为他们的方向能 1000倍成本改善,从而推动AI成为基础设施级能力。

Cambrian-AI首席分析师 Karl Freund 在 Forbes 专栏里称,早期用户把它的性能形容为“insane(疯狂)”。


他指出,如果被大规模数据中心采用,可能会改变行业格局。


Freund 的担忧是,每个模型一颗芯片,那么模型升级是否意味着换硬件?数据中心是否愿意承担这种不灵活?

因此他认为,模型即芯片方向很有吸引力,但能否成为主流还说不好。

行业媒体 Financial Express分析指出,这种架构更适合稳定、高规模、单模型场景,在多模型频繁迭代环境中可能受限。

而目前大模型的状态,更显然是后者。

但如果未来进入一个“少数基础模型长期统治”的阶段,那GPU是否仍是最优解?

尽管有所争议,但Taalas在 AI 基础设方向与架构的探索值得反思。

比如,这是否意味着AI算力可能发生第三次的路线分裂?

第一次分裂,是 CPU → GPU。
深度学习爆发后,通用CPU迅速被淘汰。并行计算取代串行计算,成为基础设施底座。

NVIDIA 凭借GPU完成市值跃迁,成为AI时代最大赢家。

第二次分裂,是自建GPU → AI 云。

模型越来越大,企业越来越难自己部署,算力被抽象为API。

GPU不再只是硬件,而成为云服务的一部分。

亚马逊Web Services、微软 Azure、谷歌 Cloud 、阿里云、字节火山云等,成为 AI 基础设施代名词。

第三次分裂,会不会是 Taalas 提出的,模型即芯片?

不再依赖HBM、复杂封装,也不依赖液冷,不是“更强GPU”,而是“推理专用ASIC的极端版本”。

或者,更本质的,Taalas 路线真正可能改变的,是AI的边际成本曲线?

以下为Taalas博文原文

《通往无处不在的 AI 之路》

作者:Ljubisa Bajic

许多人相信,AI 确实已经进入真正可用的阶段。在一些狭窄领域,它的表现已经超过人类。如果使用得当,它将成为前所未有的人类创造力与生产力放大器。

但它的大规模普及仍然受到两个关键障碍的限制:高延迟和天文级成本。

与语言模型的交互速度远远跟不上人类思考的节奏。编程助手可能要思考几分钟,这会打断程序员的心流状态,限制人与 AI 的高效协作。而自动化的智能体应用需要的是毫秒级响应,而不是按人类节奏慢慢输出。

在成本方面,部署现代模型需要巨大的工程投入和资本支出:占据整间房间的超级计算机,耗电数百千瓦,依赖液冷、先进封装、堆叠内存、复杂 I/O,以及成公里的线缆。这最终扩展为城市规模的数据中心园区和配套网络,带来极高的运营成本。

虽然当下的趋势似乎指向一个由数据中心和电厂构成的“反乌托邦未来”,但历史往往走向另一条路。过去的技术革命,往往始于笨重而夸张的原型,随后被更实用的突破所取代。

例如 ENIAC——一个充满真空管和电缆、占据整间房间的庞然大物。它让人类第一次见识到计算的魔力,但速度慢、成本高、无法扩展。晶体管的出现带来了快速演进:从工作站、个人电脑到智能手机,最终实现了无处不在的计算,世界并没有被 ENIAC 式机器所淹没。

通用计算之所以进入主流,是因为它变得易于制造、速度更快、成本更低。

AI 也必须走同样的道路。

关于 Taalas

成立于两年半前,Taalas 开发了一个平台,可以将任何 AI 模型转化为定制硅芯片。从收到一个全新的模型开始,只需两个月,就能将其硬件化。

由此生成的“硬核模型”(Hardcore Models),在速度、成本和功耗方面,相比软件实现提升一个数量级。

Taalas 的工作基于三大核心原则:


1. 极致专用化

在计算发展史上,深度首款产品由 24 人团队完成专用化始终是关键任务实现极致效率的最佳路径。

AI 推理是人类面临过的最重要计算负载之一,也是最适合专用化的领域。

其计算需求推动一个方向:为每一个模型生产最优的专用芯片。


2. 存储与计算融合

现代推理硬件受到一个人为分割的限制:内存与计算分离,而且运行速度完全不同。

这种分离源于一个长期矛盾:

DRAM 密度更高、成本更低,但访问片外 DRAM 的速度比片上内存慢数千倍;而计算芯片又无法采用 DRAM 工艺制造。

这种分割带来了现代推理硬件的大量复杂性:先进封装、HBM 堆叠、巨大的 I/O 带宽、不断上升的功耗,以及液冷系统。

Taalas 打破了这一边界。通过在单芯片上统一存储与计算,并达到 DRAM 级密度,其架构实现了前所未有的性能水平。


3. 激进简化

通过消除存储与计算的分离,并为每个模型定制芯片,Taalas 从第一性原理重新设计了整个硬件栈。

结果是一个不依赖复杂或前沿工艺的系统:无需 HBM、先进封装、3D 堆叠、液冷或高速 I/O。

工程上的简洁,带来了系统总成本数量级的下降。

首批产品


基于上述理念,Taalas 打造了全球最快、成本和功耗最低的推理平台。

目前发布的首款产品,是一个硬编码的 Llama 3.1 8B 模型,既提供聊天演示,也提供推理 API 服务。

这款硅基 Llama 实现:

  • 每用户 17K tokens/秒

  • 接近当前最先进方案的 10 倍速度

  • 构建成本降低 20 倍

  • 功耗降低 10 倍


之所以选择 Llama 3.1 8B,是因为它体积适中且开源,便于快速硬化部署。

虽然模型为速度进行了大量硬编码,但仍支持可配置上下文窗口,并通过 LoRA 进行微调。

第一代芯片采用自定义 3-bit 基础数据类型,并结合 3-bit 与 6-bit 量化,因此在质量上相较 GPU 基准略有下降。

第二代硅平台将采用标准 4-bit 浮点格式,在保持高性能的同时改善质量问题。

即将推出的模型

第二个模型将是一个中型推理型 LLM,仍基于第一代 HC1 平台,预计今年春季进入实验室并很快上线服务。

随后,将基于第二代 HC2 平台制造一个前沿级模型。HC2 具有更高密度和更快执行速度,计划于冬季部署。

即时 AI,触手可及

首个模型并非最前沿,但团队仍以 Beta 形式发布,希望开发者体验:当 LLM 推理达到亚毫秒级速度、接近零成本时,会带来什么可能性。

他们相信,这将使许多此前不可行的应用成为现实,并鼓励开发者探索新的应用场景。

关于团队与方法

Taalas 的核心团队规模很小,成员多为合作超过二十年的长期伙伴。团队增长缓慢,重视专业能力、使命一致性和工程纪律。

  • 实质重于声势

  • 工艺重于规模

  • 严谨重于冗余


在许多深科技创业公司依靠庞大团队、巨额融资和市场声量“围城式推进”的环境中,Taalas 选择的是一次精准打击。

首款产品由 24 人团队完成,仅使用 3000 万美元(总融资超过 2 亿美元)。这证明:明确目标与专注执行,可以胜过蛮力投入。

未来,团队将持续开放迭代,尽早发布系统,让开发者参与验证与完善。

结语

创新始于对既有假设的质疑,以及对被忽视路径的探索,这正是 Taalas 选择的方向。

他们的技术在性能、能效和成本上实现了跃迁式提升,并代表一种不同于主流的架构理念——重新定义 AI 系统的构建与部署方式。

真正的颠覆性技术,最初往往并不熟悉。团队将致力于推动行业理解并采用这一新范式。

从硬编码的 Llama 开始,并快速扩展到更强模型,Taalas 正在消除 AI 普及的两大核心障碍:高延迟与高成本。

他们已经把即时、超低成本的智能交到开发者手中,现在,期待看到人们将用它创造什么。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
林青霞也没想到,距离过年仅剩五天,杨紫琼竟高调官宣了喜讯

林青霞也没想到,距离过年仅剩五天,杨紫琼竟高调官宣了喜讯

梨花黛娱
2026-02-23 17:49:00
赫鲁晓夫做梦也没想到,那个在宴会上指着他鼻子怒吼“我块头大”的中国硬汉,最后竟一语成谶!

赫鲁晓夫做梦也没想到,那个在宴会上指着他鼻子怒吼“我块头大”的中国硬汉,最后竟一语成谶!

源溯历史
2026-01-03 20:11:11
14战11胜,三杆火枪创队史纪录!三球飚10记三分轰37+8+7连创新高

14战11胜,三杆火枪创队史纪录!三球飚10记三分轰37+8+7连创新高

锅子篮球
2026-02-23 11:54:54
ESPN:梅西并未闯入裁判更衣室,他没有违反联赛规定

ESPN:梅西并未闯入裁判更衣室,他没有违反联赛规定

懂球帝
2026-02-23 10:50:07
阿斯:赫伊森社媒辱华事件引众怒,皇马非首次卷入类似风波

阿斯:赫伊森社媒辱华事件引众怒,皇马非首次卷入类似风波

懂球帝
2026-02-23 17:42:06
保罗谈2015年被库里背后运球晃倒:我确实踩到了他的脚

保罗谈2015年被库里背后运球晃倒:我确实踩到了他的脚

懂球帝
2026-02-23 14:46:04
长期唱衰房地产“一路向北”博主账号终于被封了!

长期唱衰房地产“一路向北”博主账号终于被封了!

恪守原则和底线
2026-02-22 06:10:05
俄乌迎来大结局?泽连斯基终于表示愿意妥协,但有个条件!

俄乌迎来大结局?泽连斯基终于表示愿意妥协,但有个条件!

甜到你心坎
2026-02-23 17:49:18
惨遭30多国围攻,美国紧急警告中国:别在特朗普最惨的时候捅刀子

惨遭30多国围攻,美国紧急警告中国:别在特朗普最惨的时候捅刀子

东极妙严
2026-02-23 15:12:17
黄金白银开盘暴涨 瑞银看高金价至6200美元

黄金白银开盘暴涨 瑞银看高金价至6200美元

每日经济新闻
2026-02-23 10:59:43
造福76亿人!中国突破赤泥炼铁技术,将令全世界产生巨大的变革

造福76亿人!中国突破赤泥炼铁技术,将令全世界产生巨大的变革

青烟小先生
2026-02-16 11:28:34
儿子跟大S女儿是同学…品冠曝小玥儿近况! 过年砸50万宠岳父母

儿子跟大S女儿是同学…品冠曝小玥儿近况! 过年砸50万宠岳父母

ETtoday星光云
2026-02-23 17:50:19
黄岩岛以东发生激烈对峙!052D合肥舰不顾阻挠,强行加入美菲舰队

黄岩岛以东发生激烈对峙!052D合肥舰不顾阻挠,强行加入美菲舰队

谛听骨语本尊
2026-02-19 23:47:56
黄金白银双双上涨

黄金白银双双上涨

财闻
2026-02-23 17:36:45
三峡大坝收支出炉:运行20余年,总投资近2500亿,如今回本了吗?

三峡大坝收支出炉:运行20余年,总投资近2500亿,如今回本了吗?

青梅侃史啊
2026-02-21 09:46:58
美国网友被打脸,谷爱凌夺冠后凭一个举动口碑暴涨,邓亚萍说对了

美国网友被打脸,谷爱凌夺冠后凭一个举动口碑暴涨,邓亚萍说对了

老好人的愤怒
2026-02-23 00:04:24
从“天才少女”跌落神坛后,17岁的姜萍如今在服装厂踩缝纫机?一家人去向成谜

从“天才少女”跌落神坛后,17岁的姜萍如今在服装厂踩缝纫机?一家人去向成谜

阿芒娱乐说
2026-02-21 23:50:14
看懂《飞驰人生3》中,对中国足球的暗讽,才真正看明白这部电影

看懂《飞驰人生3》中,对中国足球的暗讽,才真正看明白这部电影

喜欢历史的阿繁
2026-02-23 17:59:11
对越反击战,世界上只有两个国家支持中国,是敌是友一目了然!

对越反击战,世界上只有两个国家支持中国,是敌是友一目了然!

叹为观止易
2026-02-17 13:08:02
新加坡大满贯赛:男单大爆冷!世界冠军2:3被淘汰,国乒2人出局

新加坡大满贯赛:男单大爆冷!世界冠军2:3被淘汰,国乒2人出局

国乒二三事
2026-02-23 09:36:57
2026-02-23 18:28:49
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
435文章数 52关注度
往期回顾 全部

科技要闻

腾讯字节,“火拼”漫剧

头条要闻

德国总理默茨将访华

头条要闻

德国总理默茨将访华

体育要闻

哈登版骑士首败:雷霆的冠军课

娱乐要闻

谷爱凌奶奶去世,谷爱凌泪奔

财经要闻

美国海关将停止征收被裁定违法的关税

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

数码
艺术
亲子
时尚
健康

数码要闻

春晚同款扫地机追觅X60 Pro,看见全球智能清洁的“中国答案”

艺术要闻

十大名家画春,送给春天的你!

亲子要闻

印第安纳预报可能有龙卷风,提前去超市屯点物资,这一车得多少钱

今年春天一定要拥有的针织,这样穿减龄又好看!

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版