这里说的不是大号透镜那套光学计算(Optical Computing),而是能上芯片、能做产品路线图的光子计算(Photonic Computing)。
1)它到底牛在哪里?
带宽恐怖:光的并行度高、天然支持多路复用(颜色=波长),数据大巴一车一车拉。
几乎没热:波导里没有电阻电容那套焦耳热,通道级能耗很低(注意,是通道,不是系统)。
时延极低:光速加成,尤其适合超低时延互连/推理链路。
翻译成人话:做“搬运”和“加权求和”类的密集操作,光子像开了挂;但要当全能选手,还早。2)为什么现在你买不到“光子计算芯片”? 工程大Boss:两座“转换大山”
光↔电(OE/EO)转换
模↔数(ADC/DAC)转换
真正烧功耗的往往不是“光算”,而是这些转换环节,系统里能吃掉大半的能耗。
产业界的务实选择:先把“光互联”做强做满(NVLink的光版、Intel Optical I/O、Ayar Labs 这类 ),先不做“光计算”核心。
因为今天把芯片间/板间的电连线换成光纤,账能算得过;把矩阵乘法全丢给光,账常常算不过。
光器件要“喂光”才耦合得进去,尺寸很难无脑缩;微环谐振器做到 ~10 μm 左右已经逼近极限,再小耦合就崩。
端侧/可穿戴不友好:你不会给手环塞个 5 cm × 5 cm 的芯片。
但在数据中心/HPC:大 die 不是原罪。甚至可以玩wafer-scale(整片晶圆上阵),工艺节点也不用卷 7 nm,150 nm 级就能跑。
Possible 路线:光子晶体、超表面、薄膜铌酸锂等新型器件,把“有效尺寸”再往纳米量级推。坑B:可重构性与通用性
纯衍射“全光计算”(比如固定光掩模做卷积)能效爆表但难以重构,换任务要换“mask”。
做成“通用图灵机”意义上,光+电混合是现实解:可编程、可更新、可上量产配套。
你绕不开一圈外围:DAC/ADC、驱动、探测、时钟、温稳、校准……
项目管理翻译:BOM 胖、版图大、良率风险高、测试门槛高。
学术爽点:傅里叶、卷积、矩阵乘法等能“光学一次性做完”。
产品现实:重构难、任务窄,一换任务就要换结构;相比之下,存内计算(电子)在小模型推理上又快又可编程。
结论:做特定算法的“光加速器”可以;做通用CPU/GPU的替身,不现实(目前)。
光互联优先(Now)
芯片内/芯片间/机柜间的高速低功耗链路,最有ROI。
KPI 关注:带宽密度(Tbps/mm)、能效(pJ/bit)、BER、插损预算、耦合良率。
“少转换”的光子计算(Next)
目标:减少 OE/EO + ADC/DAC 次数,把“算”尽量放在光域里做完、一次性读出。
典型器件:MZI(马赫-曾德尔阵列)、微环谐振器(MRR)做矩阵运算。
光子存内计算 / 相变材料(PCM)(Next-Plus)
用相变材料当“可调电/光学权重”,做类模拟矩阵乘。
风险点:耐久度、器件偏差、写入一致性、温漂。
适配场景:推理为主、低精度友好的模型块(如注意力/全连接)。
光学蓄水池(Reservoir)计算(Exploring)
很前沿,偏黑箱;适合时序/信号处理。
产品不确定性高,先做PoC别一上来排期。
光子 cache/register(延迟环)(Exploring)
用延迟环暂存数据,做流水/调度。
难点在系统级调度与时钟对齐,工程复杂度爆表。
算存融合(Compute-in-Memory with Photonics)(Moonshot)
MZI/MRR + 其他存储体融合,潜在收益大,工艺复杂度更大。
需求场景
光互联
光子计算
芯片/板/机柜之间超大带宽(> Tbps)
✅ 立刻上
❌ 不必
超低时延链路
✅ 高性价比
⚠️ 仅特定算子
数据中心/HPC(面积不敏感)
⚠️ 试点特定算子(如矩阵乘)
端侧/可穿戴(面积/成本敏感)
⚠️ 极少数高速接口
❌ 基本不考虑
特定固定算子(卷积/矩阵)且低重构需求
⚠️
✅ 作为加速器
通用可编程计算
❌ 还是交给CPU/GPU/ASIC
7)做产品要盯的 KPI/风控点
系统能效:别只看“光路”pJ/OP,要把 OE/EO + ADC/DAC 算进去。
带宽密度 & 耦合效率:fibre-to-chip / chip-to-chip 的耦合良率、封装良率。
可重构规模:权重更新速度、可编程维度(多少×多少的矩阵)、精度(比特数)。
温度与漂移:谐振器热漂补偿成本(功耗+控制复杂度)。
良率 & 测试:大面积/wafer-scale 的工艺波动、量产测试时长。
软硬协同:编译栈/校准/映射工具是否跟上(没有工具链,硬件等于摆设)。
Phase 0:光互联打底(0–12个月)
目标:把板级/机柜级链路先光起来,做实测 pJ/bit闭环。
里程碑:可量产的800G/1.6T 模块或Chiplet 光I/O小批验证。
Phase 1:特定算子光加速(并行推进,PoC 6–12个月)
选单一矩阵乘场景(如 Transformer FC/Attention 的某段),用MZI/MRR 阵列做演示。
做系统级能效对比(含转换),设定“赢面阈值”(比如 >1.5× GPU 的系统能效才考虑集成)。
Phase 2:少转换架构(12–24个月)
系统架构把ADC/DAC 从环外挪到环内,或降低位宽/采样率;
打通编译/映射/校准工具链,和模型同学一起定精度容错策略。
Phase 3:量产可行性评审(18–36个月)
看BOM/良率/可测性是否达标;选DC/HPC 单一场景先小规模商用。
我们的目标算子是什么?是矩阵乘还是卷积?算子稀疏/低比特能不能利用?
一条数据从“电域进”到“电域出”,经历了几次转换?每次的能耗/时延是多少?
温控怎么做?热漂补偿的功耗是否把优势吃掉了?
良率与校准策略是什么?大规模阵列如何快速量产测试?
上层软件/编译栈是否能把模型自动映射到光域阵列,并做误差感知训练/校准?
短期:把“光”用在互联上,立竿见影。
中期:把“光”用在特定算子的加速器上,谨慎尝鲜,一切以系统级能效为王。
长期:等“少转换”架构与新器件成熟,才可能迎来通用性更强的光子计算平台。
欢迎加入行业交流群,备注岗位+公司,请联系老虎说芯
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.