当10月13日零点的钟声掠过北大燕园,一缕暗红色指示灯在理科五号楼地下室骤然亮起——像有人把一颗极小的超新星塞进指甲盖。孙仲盯着示波器上那条几乎平直的电压线,屏住呼吸,直到它完成第10次迭代后仍稳在10⁻⁷误差以内,才用沙哑嗓音对身旁学生说:“成了。”那一刻,窗外银杏叶正无声坠落。
![]()
打开百度APP畅享高清图片
“把十伏电压直接当成数字‘十’,无需再转成‘1010’。”孙仲在采访里习惯用这句大白开场,然后抬手比划一条波浪线——那是模拟计算的语言:连续、平滑、没有0与1的悬崖。上世纪60年代,人类曾用真空管搭出同类机器计算火箭轨道,却因“算不准”被数字洪流淹没;如今,他的团队把“精度”这只漏水的船重新拖上岸,用阻变存储器(RRAM)做桨,划进Matrix Inverse的深海——那里是AI二阶训练的百慕大,时间复杂度高达O(N³),顶级GPU也要烧掉整座小型水电站的能量。
![]()
论文刊于《自然·电子学》的当天,审稿人在附件里留下一句罕见的感性评语:“仿佛看见冯·诺依曼的墙被凿开一扇窗。”墙内是数字世界——计算与存储分立,数据像行李在CPU与内存之间来回托运;墙外是模拟原野——电压即数值,电流即结果,存储与运算在同一块RRAM十字阵列里完成,无需“转译”也无需“缓存”,功耗被拦腰斩断,延迟被压成薄片。孙仲把这块指甲大的芯片放在显微镜下,金属线像阡陌,阻变单元像稻田,“让电子自己跑一趟,就把矩阵方程解完”。
![]()
精度是悬在模拟头顶四十年的达摩克利斯之剑。团队用“分块+校正”两把钳子夹住误差:先把大矩阵切成16×16的小块,局部求逆后实时比对金色样本,误差反馈回偏压发生器,像给每根电压线装上微型方向盘;再引入自校准ADC,把模拟结果高速数字化抽检,一旦发现漂移立即拉回正轨。于是,示波器上出现一条近乎傲慢的曲线——24比特定点数精度,相对误差10⁻⁷,足以让传统模拟老将们汗颜。
![]()
性能数据更像一辆脱轨的列车:32×32矩阵求逆,单核算力超越高端GPU;128×128规模,吞吐量飙升到数字处理器的1000倍,能效提升百倍。为了让学生有直观感受,孙仲在实验室黑板上写下一行公式,然后指了指墙角那台用于对比的RTX 4090:“理论上,它跑一天的模型预热,咱们芯片只需一杯咖啡的散热时间。”学生们把这句玩笑做成表情包——“GPU:我咖啡呢?”——传进各大IC群,一夜之间点赞破万。
![]()
但孙仲反复强调:这不是“取代”,而是“补缺”。CPU仍是通用总指挥,GPU继续把矩阵乘法跑成烟花;他们的模拟芯只做一件事——矩阵逆,却做得又狠又准。“未来机器人关节控制、大模型二阶优化、实时信号处理,这些最耗能的环节可以交给模拟芯做‘能效刺客’,其余留给成熟生态。”他把这种架构比作交响乐团:CPU是指挥,GPU是弦乐,他们的芯片则是那面只在高潮出现的定音鼓——一锤定音,余音绕梁。
![]()
产业界已闻到鼓声。国内某头部服务器厂商悄悄把团队请去亦庄,现场摆出整套液冷机柜;华为2012实验室送来自研的AI框架,希望把矩阵逆算子直接写进编译器;甚至连做工业机器人控制的老牌德企也飞到北京,只为亲眼看一次“一分钟干一天活”的魔术。孙仲在黑板写下三个字母——“PPA”(Power, Performance, Area),然后画一条向上箭头:“模拟芯的PPA曲线还远没到顶,接下来我们要把规模做到1024×1024,让误差继续下探到10⁻⁹,把GPU的散热片卷成我们的书签。”
![]()
凌晨两点,实验室的灯依旧亮着。学生们围着测试台,看一块刚流片回来的新芯在示波器上跑第十万次迭代,电压线依旧稳如直线。窗外,中关村大街的车流已稀疏,可每一束车灯掠过墙面,都像给那条电压线镀上一层银色——仿佛替未来AI的算力夜空,提前点亮一颗极小的、却持续发光的模拟星。
在新加坡生活
512篇原创
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.