多伦多大学电气与计算机工程本科生 Luthira Abeykoon 和 Krish Chhajer 把 Karpathy 的 MicroGPT(200 行纯 Python 实现的迷你 GPT,仅 4,192 个参数)用 SystemVerilog 完整搬进了 FPGA。没有 GPU,没有 PyTorch,没有 CPU 推理循环,transformer 的每一步都是硬件电路,生成速度超过 5 万 tokens/秒。项目叫 TALOS-V2(Tensor Accelerated Logic for On-Chip Systems),已在 GitHub 开源。
跑在 DE1-SoC 的 Cyclone V 上,一块教学级 Intel FPGA。权重用 Q4.12 定点格式存在片上 ROM 里。模型里反复出现的矩阵向量乘法被做成一个 16 通道脉动阵列(systolic array),Q/K/V 投影、MLP、LM head 共用这一个单元,轮流跑。
注意力是最难搬的部分。Python 里 attention 一行公式写完,到硬件要拆成八步:生成 Q/K/V、扫描点积、跟踪最大值、近似 exp、累加、除法、混合 V、投影回去。作者说,做这个项目不是为了跑大模型,而是想把 transformer 推理的每一步都变成看得见的硬件:存储器、计数器、状态机、查找表。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.