![]()
手术导航系统的延迟,有时候比手术刀还致命。斯坦福医学院和英伟达(Nvidia)联合团队最近搞了个新思路:跳过3D重建,让AI直接从2D图像里"猜"出3D位置。他们把这套系统叫SurgiSynth,在模拟手术里把配准速度提了3倍,精度还保住了。
传统路线:先建3D,再配准,慢且脆
现在的手术导航怎么工作?术前拍CT或MRI,术中用内窥镜或显微镜实时拍2D画面。系统得先把2D图像重建成3D模型,再跟术前扫描对齐——这叫"配准"。
这套流程的问题很实在。重建本身吃算力,延迟高;一旦术中组织变形(比如切除肿瘤后周围组织塌陷),重建的模型就歪了,配准跟着崩。医生要么等,要么盲切。
斯坦福团队算过账:重建+配准两步走,典型延迟在几百毫秒到几秒。对神经外科这种毫米级精度的场景,这 gap 足够让医生骂娘。
SurgiSynth的野路子:2D直接对3D,不重建了
他们的核心判断是:重建是个中间商,赚差价还拖时间。能不能让AI学会"透视",直接从2D画面推断出每个像素对应的3D坐标?
技术上,这靠扩散模型(diffusion model)实现。训练阶段,系统喂了大量"2D图像+对应3D坐标"的数据对。推理阶段,输入一张2D术中图像,模型输出每个像素的3D位置预测——跳过显式重建,隐式完成配准。
英伟达贡献了算子优化,把延迟压到100毫秒以内。团队在模拟环境(基于NVIDIA Isaac Sim)里测试,配准精度跟传统方法持平,速度提了3倍。
关键细节:他们没动术前CT/MRI的流程,只替换术中配准这一步。对医院来说,切换成本相对可控。
为什么现在能成?数据+算力+仿真
这个思路不是没人想过。2018年前后就有论文尝试端到端配准,但精度拉胯,临床不敢用。
斯坦福团队这次能跑通,靠的是三层积累。数据层:公开数据集+合作医院脱敏数据,量级比五年前高一个数量级;算力层:英伟达的GPU推理优化,让扩散模型能实时跑;仿真层:Isaac Sim能批量生成带 ground truth 的合成数据,补足真实手术数据稀缺的短板。
论文里有个数字值得注意:他们在合成数据上训练,直接在真实内窥镜视频上测试,跨域精度只掉了8%。这对医疗AI来说算能接受的损耗。
落地前的三道坎
团队自己在论文里列了限制。第一,目前只在模拟和少量回顾性视频上验证,前瞻性临床试验还没做;第二,极端光照条件(比如术中出血导致画面过暗)下,2D特征提取会不稳定;第三,不同品牌内窥镜的成像差异,需要额外适配。
还有个更深层的问题:跳过重建意味着医生失去了"可解释的3D模型"。传统系统能给医生看个三维脑结构,新系统只给配准结果。人机交互怎么设计,还没答案。
斯坦福医学院神经外科助理教授、论文通讯作者Kimberly Powell说,团队下一步是跟FDA沟通监管路径,同时扩大临床验证规模。英伟达那边则想把这套框架泛化到其他影像导航场景,比如介入放射学。
手术导航这个赛道,过去十年挤进了美敦力、史赛克、Brainlab等巨头,创业公司死了一茬又一茬。斯坦福+英伟达的组合不缺资源,但医疗AI的落地周期,从来不由技术单方面决定。当配准延迟从秒级压到百毫秒级,临床医生会为此改变 workflow 吗?还是宁可守着能看懂的3D模型,多等那几秒?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.