两天前,AI芯片创业公司 Taalas 发布了一篇颇具宣言意味的文章:《The Path to Ubiquitous AI》(《通往无处不在的 AI 之路》,原文附后)
![]()
核心观点只有一句话:AI 要真正普及,必须解决两个问题,延迟和成本。
该文指出,如今的AI基础设施正在走向一种“数据中心+电厂”的畸形路径。
房间大小的服务器、数百千瓦功耗、液冷系统、HBM堆叠、复杂封装、成公里长的电缆。
这被认为不是AI的终局。
因为真正普及的技术,必须变得更简单、更快、更便宜。
为此,Taalas提出一个极端方向,为每一个模型,生产专用芯片。
也就是说,不搞通用 GPU,而是“模型即芯片”。
为此, Taalas 开发了一个平台,可以将任何 AI 模型转化为定制硅芯片。“从收到一个全新的模型开始,只需两个月,就能将其硬件化”。
据介绍,Taalas的核心开发理念有三点,即极致专用化、计算与存储融合,及激进简洁。
他们发布的首款产品,是硬编码的 Llama 3.1 8B,性能表现十分抢眼。
据介绍,该产品由 24 人团队完成,仅花费 3000 万美元。
![]()
比如,17,000 tokens/秒、接近现有方案 10 倍速度、成本降低约 20 倍、功耗降低约 10 倍……
Taalas由此还提出“即时 AI”的概念。
一些资深开发者在 X 上的发帖,“17000 tokens/s…,等待模型思考的时代结束了”。
![]()
Basecamp 创始人 DHH 试用后称,“感觉像作弊一样快”。
半导体行业投资人 Pierre Lamond 称,团队做芯片的经验业内顶级,认为他们的方向能 1000倍成本改善,从而推动AI成为基础设施级能力。
Cambrian-AI首席分析师 Karl Freund 在 Forbes 专栏里称,早期用户把它的性能形容为“insane(疯狂)”。
![]()
他指出,如果被大规模数据中心采用,可能会改变行业格局。
![]()
Freund 的担忧是,每个模型一颗芯片,那么模型升级是否意味着换硬件?数据中心是否愿意承担这种不灵活?
因此他认为,模型即芯片方向很有吸引力,但能否成为主流还说不好。
行业媒体 Financial Express分析指出,这种架构更适合稳定、高规模、单模型场景,在多模型频繁迭代环境中可能受限。
而目前大模型的状态,更显然是后者。
但如果未来进入一个“少数基础模型长期统治”的阶段,那GPU是否仍是最优解?
尽管有所争议,但Taalas在 AI 基础设方向与架构的探索值得反思。
比如,这是否意味着AI算力可能发生第三次的路线分裂?
第一次分裂,是 CPU → GPU。
深度学习爆发后,通用CPU迅速被淘汰。并行计算取代串行计算,成为基础设施底座。
NVIDIA 凭借GPU完成市值跃迁,成为AI时代最大赢家。
第二次分裂,是自建GPU → AI 云。
模型越来越大,企业越来越难自己部署,算力被抽象为API。
GPU不再只是硬件,而成为云服务的一部分。
亚马逊Web Services、微软 Azure、谷歌 Cloud 、阿里云、字节火山云等,成为 AI 基础设施代名词。
第三次分裂,会不会是 Taalas 提出的,模型即芯片?
不再依赖HBM、复杂封装,也不依赖液冷,不是“更强GPU”,而是“推理专用ASIC的极端版本”。
或者,更本质的,Taalas 路线真正可能改变的,是AI的边际成本曲线?
以下为Taalas博文原文
《通往无处不在的 AI 之路》
作者:Ljubisa Bajic
许多人相信,AI 确实已经进入真正可用的阶段。在一些狭窄领域,它的表现已经超过人类。如果使用得当,它将成为前所未有的人类创造力与生产力放大器。
但它的大规模普及仍然受到两个关键障碍的限制:高延迟和天文级成本。
与语言模型的交互速度远远跟不上人类思考的节奏。编程助手可能要思考几分钟,这会打断程序员的心流状态,限制人与 AI 的高效协作。而自动化的智能体应用需要的是毫秒级响应,而不是按人类节奏慢慢输出。
在成本方面,部署现代模型需要巨大的工程投入和资本支出:占据整间房间的超级计算机,耗电数百千瓦,依赖液冷、先进封装、堆叠内存、复杂 I/O,以及成公里的线缆。这最终扩展为城市规模的数据中心园区和配套网络,带来极高的运营成本。
虽然当下的趋势似乎指向一个由数据中心和电厂构成的“反乌托邦未来”,但历史往往走向另一条路。过去的技术革命,往往始于笨重而夸张的原型,随后被更实用的突破所取代。
例如 ENIAC——一个充满真空管和电缆、占据整间房间的庞然大物。它让人类第一次见识到计算的魔力,但速度慢、成本高、无法扩展。晶体管的出现带来了快速演进:从工作站、个人电脑到智能手机,最终实现了无处不在的计算,世界并没有被 ENIAC 式机器所淹没。
通用计算之所以进入主流,是因为它变得易于制造、速度更快、成本更低。
AI 也必须走同样的道路。
关于 Taalas
成立于两年半前,Taalas 开发了一个平台,可以将任何 AI 模型转化为定制硅芯片。从收到一个全新的模型开始,只需两个月,就能将其硬件化。
由此生成的“硬核模型”(Hardcore Models),在速度、成本和功耗方面,相比软件实现提升一个数量级。
Taalas 的工作基于三大核心原则:
1. 极致专用化
在计算发展史上,深度首款产品由 24 人团队完成专用化始终是关键任务实现极致效率的最佳路径。
AI 推理是人类面临过的最重要计算负载之一,也是最适合专用化的领域。
其计算需求推动一个方向:为每一个模型生产最优的专用芯片。
2. 存储与计算融合
现代推理硬件受到一个人为分割的限制:内存与计算分离,而且运行速度完全不同。
这种分离源于一个长期矛盾:
DRAM 密度更高、成本更低,但访问片外 DRAM 的速度比片上内存慢数千倍;而计算芯片又无法采用 DRAM 工艺制造。
这种分割带来了现代推理硬件的大量复杂性:先进封装、HBM 堆叠、巨大的 I/O 带宽、不断上升的功耗,以及液冷系统。
Taalas 打破了这一边界。通过在单芯片上统一存储与计算,并达到 DRAM 级密度,其架构实现了前所未有的性能水平。
3. 激进简化
通过消除存储与计算的分离,并为每个模型定制芯片,Taalas 从第一性原理重新设计了整个硬件栈。
结果是一个不依赖复杂或前沿工艺的系统:无需 HBM、先进封装、3D 堆叠、液冷或高速 I/O。
工程上的简洁,带来了系统总成本数量级的下降。
首批产品
![]()
基于上述理念,Taalas 打造了全球最快、成本和功耗最低的推理平台。
目前发布的首款产品,是一个硬编码的 Llama 3.1 8B 模型,既提供聊天演示,也提供推理 API 服务。
这款硅基 Llama 实现:
每用户 17K tokens/秒
接近当前最先进方案的 10 倍速度
构建成本降低 20 倍
功耗降低 10 倍
![]()
之所以选择 Llama 3.1 8B,是因为它体积适中且开源,便于快速硬化部署。
虽然模型为速度进行了大量硬编码,但仍支持可配置上下文窗口,并通过 LoRA 进行微调。
第一代芯片采用自定义 3-bit 基础数据类型,并结合 3-bit 与 6-bit 量化,因此在质量上相较 GPU 基准略有下降。
第二代硅平台将采用标准 4-bit 浮点格式,在保持高性能的同时改善质量问题。
即将推出的模型
第二个模型将是一个中型推理型 LLM,仍基于第一代 HC1 平台,预计今年春季进入实验室并很快上线服务。
随后,将基于第二代 HC2 平台制造一个前沿级模型。HC2 具有更高密度和更快执行速度,计划于冬季部署。
即时 AI,触手可及
首个模型并非最前沿,但团队仍以 Beta 形式发布,希望开发者体验:当 LLM 推理达到亚毫秒级速度、接近零成本时,会带来什么可能性。
他们相信,这将使许多此前不可行的应用成为现实,并鼓励开发者探索新的应用场景。
关于团队与方法
Taalas 的核心团队规模很小,成员多为合作超过二十年的长期伙伴。团队增长缓慢,重视专业能力、使命一致性和工程纪律。
实质重于声势
工艺重于规模
严谨重于冗余
在许多深科技创业公司依靠庞大团队、巨额融资和市场声量“围城式推进”的环境中,Taalas 选择的是一次精准打击。
首款产品由 24 人团队完成,仅使用 3000 万美元(总融资超过 2 亿美元)。这证明:明确目标与专注执行,可以胜过蛮力投入。
未来,团队将持续开放迭代,尽早发布系统,让开发者参与验证与完善。
结语
创新始于对既有假设的质疑,以及对被忽视路径的探索,这正是 Taalas 选择的方向。
他们的技术在性能、能效和成本上实现了跃迁式提升,并代表一种不同于主流的架构理念——重新定义 AI 系统的构建与部署方式。
真正的颠覆性技术,最初往往并不熟悉。团队将致力于推动行业理解并采用这一新范式。
从硬编码的 Llama 开始,并快速扩展到更强模型,Taalas 正在消除 AI 普及的两大核心障碍:高延迟与高成本。
他们已经把即时、超低成本的智能交到开发者手中,现在,期待看到人们将用它创造什么。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.