最近在硅谷和华尔街,都在传一个数字:17,000。
不是道指、纳指,而是 Taalas 这家公司的芯片速度(基于Llama 3.18B):
每秒 1.7 万个 Token。
比 NVIDIA 的主流方案快了接近 10 倍。 比已经很快的专用芯片 Groq 还要快 17 倍 以上。
而且不需要昂贵的HBM、以及高性能散热组件,成本只有 GPU 的几十分之一。
这很可能意味着,AI 迎来了一个全新的分水岭:端侧商业化普及。
Taalas是怎么实现的呢?
其采用了两个原则:
1、全面专业化:为每个独立模型定制最优化硅芯片;
2.、融合存储与计算:冯诺伊曼结构中,存储和计算分离,就导致二者之间数据交换存在隔阂;AI时代,这种隔阂限制了AI推理发挥。
Taalas则重新设计,基于存储与计算的融合和模型定制化,从底层重新设计硬件堆栈。
比如这一次就是把 Llama 3.18B大模型,直接“刻”在了硅片里。
这样做优势和劣势都很明显。
硬件和模型完全定制,不支持其他模型,甚至模型更新后也不一定能良好兼容。
那不是白费了吗?海外对Taalas的做法也很有争议。
我觉得有两个点:
1、对于场景清晰、需求明确、且 模型已经标准化/ 收敛路径清晰, 那Taalas的方案可以大幅降低成本,从而推动AI普及。
例如一些智能家居、AI小硬件产品。
2、Taalas在打造芯片定制设计平台,希望能实现快速、低成本的模型适配。
总体而言,NVIDIA 让 AI 变聪明了。而 Taalas 们,正在让 AI 变廉价。
价格是 AI 走进千家万户的关键。未来也是 端+云的配合。
Taalas的消息意味着,端侧AI、边缘计算又有了新催化。
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.