前不久,OpenAI正式官宣了首款自研芯片Jalapeño。
这名字取自一种墨西哥辣椒,硅谷给内部项目起名一向随性,倒也符合一贯的路数。
操刀这个项目的负责人叫Richard Ho,是OpenAI的硬件主管。
此人此前在谷歌待了将近九年,是Cloud TPU项目的核心工程师,主导过多代TPU从概念走向量产。
![]()
更早之前还联合创办过EDA公司,担任过光计算芯片公司Lightmatter的高级副总裁。
履历横跨芯片设计、AI加速和光互联三个领域,几乎是为“设计下一代AI推理芯片”量身定制的背景。
![]()
但无论如何,这颗芯片对整个AI和半导体行业来说,都算得上一个特殊的产物。
![]()
这颗芯片从开始设计到流片,只用了九个月。
传统芯片公司同等规模的项目通常需要两到三年,谷歌第一代TPU从架构到流片大约花了三年。
OpenAI在公告里直言,这应该是高性能半导体领域有史以来最快的ASIC开发周期。
![]()
之所以这么快,除了Richard Ho团队的经验,还有一个关键因素——OpenAI自己的大模型深度参与了芯片的设计过程。
据称开发团队开辟了数百个AI代理,通宵运行复杂任务,人类工程师主要负责设定目标、审查结果和做出高层决策。
![]()
OpenAI总裁Brockman透露,模型在加速设计优化方面的表现“令团队自己都感到惊讶”。
说白了,AI正在帮人类设计运行AI自己的硬件。
当然,效率这么高也跟钱有关。
![]()
Richard Ho是带资进场的——OpenAI为这个项目投入的资源,不是一般创业公司能比的。
![]()
Jalapeño是一颗推理芯片,不是用来做训练的。
它采用的是专用集成电路(ASIC)方案,专为大语言模型的推理场景量身打造。
这颗芯片的核心设计哲学,其实跟谷歌TPU的思路一脉相承——脉动阵列。
![]()
大模型90%的计算都落在矩阵乘法上,脉动阵列解决的就是这个问题。
具体怎么干活?先把权重存到整个计算网格上,保持不动,输入数据像流水一样挨个穿过所有的计算单元,每个单元算完把结果传给下一个,最终得出答案。
![]()
整个过程像波浪一样持续向前推进,几乎不需要频繁访问内存。
![]()
这么做最大的好处,就是大幅度减少了数据搬运的开销。
对推理芯片来说,数据搬运目前是最耗能也是最耗时的瓶颈。
能少搬一次数据,就省下一份电、抢回一毫秒。
有人可能会问:脉动阵列又不是什么新鲜东西,谷歌TPU都成熟了,OpenAI直接照搬不就行了?
![]()
事情没那么简单。
设计哲学可以借鉴,但具体的电路实现得自己从头做IP。
更重要的是,Jalapeño不是拿现成的AI芯片改一改凑出来的——它是OpenAI结合自家ChatGPT、Codex、API以及未来Agent产品的真实运行负载,从零开始定制的推理芯片。
![]()
用官方的话说,这是一次“原生设计”。
合作分工上,OpenAI负责架构设计,博通负责芯片的物理实现和网络互联,台积电用3纳米制程代工制造,加拿大电子制造商Celestica提供板卡、机柜和整机系统方案。
博通CEO陈福阳对路透社说,这颗芯片的性能可以跟英伟达Blackwell和谷歌TPU掰手腕。
![]()
目前工程样片已经在实验室里跑通了GPT-5.3-Codex-Spark这样的模型,频率和功耗全部达标。
![]()
按照规划,Jalapeño将在2026年底部署到微软及其他合作伙伴的数据中心。
芯片和服务器系统都不会对外销售,仅供OpenAI内部使用。
有消息说推理成本预计能降低大约50%。
![]()
OpenAI总裁Brockman说了一句话——“世界正迈向以计算为核心的经济时代”。
当算力成为核心生产资料,没有哪家AI公司愿意把命脉完全交给英伟达。
谷歌、亚马逊、微软、Meta已经先后走上了自研芯片这条路。
OpenAI现在是其中最新的一员。
这颗Jalapeño到底辣不辣,年底部署之后就能见分晓了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.