![]()
本文由半导体产业纵横(ID:ICVIEWS)综合
硅光子学、集成光电子学的进步,以及模拟计算与人工智能概率算法的融合,使之成为光计算领域的一个重要转折点。
光计算是人工智能领域的“新摩尔定律”。它突破了电子技术的规模限制,在矩阵运算方面,能够提供更高的速度、更低的功耗以及与问题规模成正比的效率提升。
半个多世纪以来,摩尔定律一直引领着半导体行业的发展,决定着计算速度、效率和成本的提升方向。通过大约每两年将晶体管密度翻一番,工程师们在降低成本的同时,实现了处理性能的指数级增长,从而推动了从移动设备到互联网兴起等各个领域的发展。但人工智能已经打破了这一规律。
我们所知的规模化时代的终结
训练和部署大型神经网络所需的计算资源增长速度远超晶体管技术的进步速度。最先进的模型拥有数千亿个参数,需要数千个GPU以及兆瓦甚至吉瓦级的电力。即使半导体工艺不断改进并配备了专用加速器,实际性能提升也已达到瓶颈,而功耗却持续攀升。
这就造成了一个悖论:我们拥有比以往任何时候都更多的数据、更优秀的算法和更大的需求,但仅靠电力却难以满足扩展需求。数据中心目前已消耗全球约1%—2% 的电力,而人工智能工作负载的激增更是推动了这一趋势。到 2028 年,仅美国数据中心就可能消耗全国 12% 的电力,是目前用量的三倍。
正是在这个时候,光计算变得至关重要。
![]()
光学计算实现人工智能加速的速度比单独使用电子系统快得多。
计算的另一种物理学
光计算用光子代替电子来完成某些计算任务,最显著的是矩阵乘法,而矩阵乘法正是人工智能工作负载的核心(也是主导)运算。光系统并非通过晶体管和片上电阻连接来传输电荷,而是将数据编码到光束中,利用光的物理特性来执行相同的数学运算。
光子相比电子具有根本性的优势。由于光子不像电子那样相互作用,它们传播时不会因电阻而产生热量,从而能够实现超低能耗和高带宽的计算。此外,光可以轻松支持并行处理,即可以使用多束光束同时处理信息。
这并非新概念,光计算研究可以追溯到几十年前,但直到最近我们才达到技术成熟,并满足了使其实用化的应用需求。如今,光计算已真正融入数据中心,最初用于机架间的长距离连接,现在也用于机架内的短距离连接。
光互连技术的普及带来了光交换技术——例如,谷歌已经部署这项技术近十年了。硅光子学、集成光电子学的进步,以及模拟计算与人工智能概率算法的融合,使之成为光计算领域的一个重要转折点。
两种范式:集成光子学与三维光学
并非所有光计算方法都相同。该领域沿着两条截然不同的架构路径发展,每条路径都有其独特的优势和不足。
集成光子学将光限制在波导(蚀刻在硅或其他材料上的狭窄通道)内,从而实现类似于传统集成电路的紧凑型芯片级设计。这种方法与现有的半导体制造工艺具有良好的集成性。然而,集成光子学在计算方面面临着固有的局限性:光在波导中传播时会累积光损耗,密集封装的组件之间的热串扰会降低性能,芯片布局的二维特性也限制了可实现的并行度。
3D(自由空间)光学采用了一种截然不同的方法,它允许光在三维空间中传播,而不是被限制在波导中。这消除了集成光子学中的损耗和串扰问题,同时实现了真正的并行性。在自由空间光学系统中,光束可以在所有三个空间维度上同时进行分束、调制和重组,从而能够在一次传输中完成在电子或集成光子系统中需要数千个顺序步骤才能完成的矩阵运算。
![]()
利用3D 维度,光学计算提供了一种新的扩展规律——效率随着性能的提高而提高。
总部位于英国牛津的Lumai 公司正在开发一种应用这种 3D 光学方法的 AI 加速器。在其架构中,输入向量由光源阵列编码,并通过透镜扩展到 3D 空间,从而覆盖矩阵的整个宽度。矩阵权重在空间光调制器(例如电子显示面板)上实现,其中每个像素的强度都会调制穿过它的光,从而有效地执行乘法运算。
最终透镜将调制后的光线组合成输出向量。在这种方案中,乘加运算(人工智能推理中的主要计算瓶颈)几乎不消耗能量;功耗主要限于光源和转换、矩阵更新以及数字控制电子设备。
这种3D光学方法可以利用市售技术实现,例如激光器、透镜等,这些元件可以针对光学计算进行优化,从而降低大规模生产的成本。更重要的是,它提供了清晰的拓展路径:随着组件密度和精度的提高,并行运算的数量呈二次方增长而非线性增长,这为持续提升性能提供了空间。
光学人工智能加速器的架构
光学计算系统并非取代通用处理器,而是对其进行增强。关键在于,人工智能推理工作负载主要由矩阵向量乘法构成,而矩阵向量乘法可能占用80% 到 90% 的计算周期——光学系统能够以极高的效率执行这些运算。
混合架构将用于矩阵运算的光内核与用于其他所有操作的数字电子器件相结合。
光核:利用光进行矩阵向量乘法。数字控制:基于ASIC 或 FPGA 的控制器处理非线性激活、归一化、数据格式化和系统编排。
最终得到的协处理器可通过PCIe 插槽插入标准数据中心基础设施,与现有软件堆栈无缝集成,同时在推理工作负载的速度和能源效率方面实现数量级的提升。
![]()
基于光学计算的人工智能加速器采用标准数据中心外形尺寸。
近期的演示验证了这种方法的有效性。微软研究院的模拟光计算机(AOC)在优化问题和人工智能推理任务中实现了100倍的能效提升,解决了传统计算方式难以实现的复杂银行交易和MRI重建问题。
Lumai 的架构显著扩展了这些概念。该公司的路线图旨在实现比纯硅系统性能提升高达 50 倍,同时功耗仅为后者的约 10%——这种 AI 代币/瓦效率水平是纯硅系统难以实现的。
由于光系统在模拟域中运行,信号电平可以调节,系统设计人员可以直接调整能耗:降低信号幅度即可减少整体计算能耗。结合能够使模型精度适应模拟信号的优化量化算法,可以在保持模型精度的同时大幅降低功耗。由此可见,光计算的模拟特性提供了更大的设计自由度。
人工智能中的内存瓶颈与计算瓶颈
人工智能工作负载中内存带宽和计算能力之间的关系比通常所描述的要复杂得多。虽然人们普遍认为人工智能工作负载受内存限制,但实际情况会因具体操作、模型架构和部署场景的不同而有显著差异。
注意力层和全连接网络中的稠密矩阵乘法计算量巨大,而这正是光计算的优势所在。在光场中,整个矩阵向量运算可以在一个周期内完成,与需要数百个周期和大量数据传输的数字脉动阵列相比,显著降低了延迟和能耗。
最佳的系统级解决方案结合了与每种操作类型相匹配的技术。例如,针对计算应用优化的光加速器可以处理现代Transformer模型中常见的繁重矩阵乘法运算(例如在预填充阶段),而配备额外内存的版本则可以用于内存密集型操作。这种混合方法针对实际存在的瓶颈进行优化,而不是一概而论地应用单一解决方案。
光学尺度物理学
光学计算最显著的特性,尤其是在三维应用中,是其效率会随着问题规模的增大而提高。这与传统电子器件形成鲜明对比,在传统电子器件中,更大或更快的芯片会消耗不成比例的更多功率,而效率提升却会递减。
考虑光矩阵-向量乘法,这是许多人工智能模型的核心运算。所需的光能与向量宽度N成线性关系,但计算吞吐量与N²成正比,因为N个输出中的每一个都依赖于所有N 个输入。
由此得出了一个非凡的标度律:Energy ∝ N, Performance ∝ N² → Efficiency ∝ N
换句话说,光学计算量越大,效率就越高。
与传统硅芯片不同,光学器件的微缩并不依赖于晶体管的小型化,而是依赖于增加光矢量宽度、提高光电转换效率和光时钟频率。区别在于,光学器件的微缩空间更大,而传统的电子器件解决方案则需要增加晶体管数量,从而导致器件结构更加复杂、功耗和发热量更高。
继续扩展之旅
光计算开辟了电子技术无法企及的多种可扩展性维度:
矢量宽度缩放上,如前所述,矩阵尺寸越大,效率越高。更大的光学系统每焦耳性能更佳,使其成为数据中心和大型模型推理应用的理想选择。
组件效率上,每一代调制器、探测器和光源都会提高电光转换效率。这些提升直接转化为系统级的节能效果。
更高的光时钟频率上,光信号可以以数十甚至数百吉赫兹的频率进行调制和检测。随着光电接口技术的进步,时钟频率将持续提高,而不会像电子开关那样产生热损耗。
这些趋势共同表明,光计算不仅会赶上硅计算,而且在晶体管技术进步达到瓶颈之后,它还将继续发展壮大。
如果说摩尔定律定义了电子小型化和高密度化的时代,那么下一个时代或许将由计算多样性来定义,即针对每项任务采用最佳的物理介质。光子并非取代电子,而是与之互补——利用光来处理关键的人工智能工作负载,并释放出更符合人工智能发展轨迹的性能扩展能力。
在这种新兴范式中,衡量进步的标准不再是晶体管的数量,而是利用光速和并行计算的特性在人工智能计算中所取得的成就。随着这些特性的增长,每焦耳能量所能完成的工作量也随之增加。
其结果是,计算领域的扩展性不再是通过更小的晶体管来实现,而是通过更智能的物理技术来实现。
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.