网易首页 > 网易号 > 正文 申请入驻

英伟达SurgWorld:手术机器人实现视频学习技能

0
分享至


这项由英伟达公司联合香港中文大学、成均馆大学、温州医科大学、新加坡国立大学和瑞金医院共同完成的研究于2025年12月29日发表在arXiv预印本平台(论文编号arXiv:2512.23162v1),有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队的第一作者包括英伟达的何宇凡、郭鹏飞,香港中文大学的许梦雅,以及英伟达的李肇硕等人。

手术机器人就像刚入行的实习医生,需要大量的实际操作经验才能掌握精细的手术技巧。但与人类医生不同的是,手术机器人的"学习"面临着一个巨大的难题:获取足够的训练数据极其困难。每一次手术都需要记录机器人的每个动作细节,包括它们的位置、角度和力度变化,这就像要求实习医生在学习过程中不仅要观察老师的动作,还要精确记录每一个肌肉的收缩角度和力量大小。这种数据收集不仅成本高昂,还受到病人隐私、伦理审查和医院设备限制等诸多约束。

相比之下,互联网上却存在着数量庞大的手术视频资料。这些视频就像一个巨大的"手术技能图书馆",记录了无数医生的操作经验和技巧,但问题是这些视频只有"画面",没有对应的"动作说明书",也就是缺乏机器人控制所需的精确运动参数。这就好比你想学习一道复杂的菜肴,有无数个烹饪视频可以观看,但视频里没有标注具体的火候温度、调料用量和操作时机。

为了解决这个问题,研究团队开发了一个名为SurgWorld的创新系统。这个系统的核心思路非常巧妙:既然无法直接从手术视频中获得机器人的操作指令,那就先训练一个"手术视频生成器",让它学会如何根据文字描述生成逼真的手术场景,然后再训练一个"动作推理器",让它能够从这些生成的视频中反推出可能的机器人操作指令。

这种方法就像培养一个拥有丰富想象力的助手。当你告诉它"用左侧钳子夹起缝合针,然后传递给右侧钳子",它能在脑海中构想出完整的手术场景,包括器械的移动轨迹、组织的反应,甚至光线的变化。接着,另一个专门的"分析师"会观察这个想象出来的场景,推测出实现这个动作序列所需要的具体操作步骤。

研究团队首先精心构建了一个名为SATA的手术动作文本对齐数据集。这个数据集包含了2447个专业标注的视频片段,总计超过30万帧图像,覆盖了8种不同类型的手术程序。他们将复杂的手术操作分解为四个基本动作:抓取缝合针、穿刺组织、拉扯缝线和打结。每个视频片段都配有详细的文字描述,不仅说明了正在执行的动作,还描述了手术器械之间的空间关系、与解剖结构的交互方式,以及器械与组织之间的接触情况。

比如,一个典型的标注可能是这样的:"左侧钳子抓住缝合针的尖端,以平滑控制的轨迹接近目标,然后将针传递给右侧钳子"。这种精细的描述就像为每个手术动作编写了详细的"剧本",不仅包含了"做什么",还包含了"怎么做"和"在什么情况下做"。

基于这个数据集,研究团队构建了SurgWorld模型。这个模型基于英伟达最先进的Cosmos2.5物理AI世界模型进行改进,专门针对手术场景进行了优化。SurgWorld能够理解文字指令,并生成相应的高质量手术视频。这些生成的视频不仅在视觉上逼真,更重要的是在医学上合理,符合真实手术的物理规律和解剖学原理。

为了验证SurgWorld的效果,研究团队设计了一个有趣的测试。他们给模型提供了同一个起始画面,但配以不同的文字指令:一次传递、两次传递、三次传递和穿刺动作。结果令人印象深刻:模型准确地根据不同指令生成了相应的视频序列。特别值得注意的是,两次和三次传递序列代表了模型在训练过程中从未明确见过的复杂组合动作。这表明SurgWorld不仅能记住训练数据,还具备了一定的"创造性推理"能力,能够将学到的基本动作重新组合成新的操作序列。

接下来是更加关键的一步:从生成的视频中推理出机器人的控制指令。研究团队开发了一个逆向动力学模型,这个模型就像一个经验丰富的工程师,能够通过观察机器人的运动轨迹反推出产生这种运动所需的控制指令。该模型采用了与GR00T N1.5类似的架构,通过分析视频中相隔16帧的两个画面,推断出中间所有帧对应的机器人动作参数。

这个逆向推理过程非常精密。机器人的每个时刻的状态都用一个20维的连续向量来表示,包括左右两个器械的三维位置、六维旋转表示和钳子开合角度。这些参数都是相对于内窥镜坐标系定义的,确保了控制指令的视角一致性。就像一个精密的舞谱记录系统,不仅要记录舞者的每个位置,还要记录他们的朝向、姿态和动作幅度。

为了测试这套系统的实际效果,研究团队选择了"缝合针拾取与传递"这个基础但具有代表性的手术任务。这个任务看似简单,但实际上需要精确的双手协调、准确的力度控制和精密的空间定位能力。他们收集了60个成功的人工遥操作演示作为基准,每个演示平均包含217帧图像和相应的动作参数。

实验在一个商用内窥镜手术系统上进行,该系统配备了立体内窥镜和两个铰接式机器人钳子。实验设置就像一个简化版的真实手术环境:在红色橡胶垫上放置缝合针,左臂机器人需要精确抓取针头并将其传递给右臂机器人。虽然这个设置看起来简单,但它包含了真实手术中的核心技术挑战:精确的视觉定位、稳定的抓取控制和流畅的双臂协调。

实验结果令人鼓舞。研究团队比较了三种不同的训练策略:仅使用真实演示数据的基线方法、加入56个合成视频的增强方法,以及加入560个合成视频的大规模增强方法。结果显示,随着合成数据量的增加,机器人策略的性能稳步提升。在轨迹预测精度方面,使用大量合成数据训练的模型显著优于仅用真实数据训练的模型,预测误差在笛卡尔坐标、旋转角度和钳子开合等各个维度都有明显降低。

这个改进效果在不同的真实训练数据量下都保持一致。无论是使用5个、10个还是20个真实演示,加入合成数据都能带来显著的性能提升。这表明SurgWorld生成的合成数据确实包含了有价值的信息,能够有效补充有限的真实训练数据。

为了进一步验证方法的普适性,研究团队还测试了多视角场景下的效果。在真实手术中,医生往往需要多个摄像头提供不同角度的视野。他们发现,即使真实数据包含多个摄像头视角,单视角的合成数据仍然能够改善多视角策略的性能。这个发现特别有价值,因为它表明合成数据学习到的运动规律和协调模式具有跨视角的泛化能力。

研究团队还进行了人体专家评估,邀请三位手术专家对生成的视频进行临床真实性评估。专家们从文本视频对齐度、器械一致性和解剖结构合理性三个维度对视频进行1到3分的评分。结果显示,SurgWorld在所有维度都获得了最高评分,特别是在器械行为的连续性和自然性方面表现突出,生成的视频能够准确执行现实的抓取和针头处理动作,没有明显的视觉伪影。

值得一提的是,这项研究首次将手术世界模型与机器人学习有机结合起来。以往的手术视频生成研究主要关注视觉效果和医学合理性,而这项工作更进一步,将生成的视频作为机器人策略学习的数据来源。这种跨领域的融合为解决手术机器人数据稀缺问题开辟了新的路径。

在技术实现上,SurgWorld采用了参数高效的LoRA微调技术,在保持原有Cosmos2.5模型通用视频生成能力的同时,针对手术场景进行专门优化。这种设计使得模型能够在有限的手术专用数据上快速适应,避免了从零开始训练大规模模型所需的巨大计算资源。同时,研究团队采用了流匹配训练框架,这种方法在概念上更加简洁,在实际应用中也表现出更好的优化稳定性和样本质量。

逆向动力学模型的设计也颇具匠心。该模型基于扩散变换器架构,能够处理高维的动作空间和复杂的时序依赖关系。通过预测相隔16帧图像之间的所有中间动作,模型学会了捕捉手术操作中的细微变化和平滑过渡。这种设计确保了生成的伪动作标签不仅在数值上合理,在时序上也保持了良好的连续性。

研究还展现了良好的泛化能力。团队测试了不同的超参数设置、不同的VLA基础模型,结果都显示出一致的改进趋势。他们尝试了πO.5模型作为替代的策略学习框架,同样观察到合成数据带来的性能提升。这种跨模型的一致性表明,所提出方法的有效性不依赖于特定的模型架构,而是源于合成数据本身的价值。

当然,这项研究也面临一些挑战和限制。目前的方法仍然需要针对特定的机器人平台进行世界模型和逆向动力学模型的微调,这意味着扩展到新的机器人系统时需要额外的数据收集工作。逆向动力学模型推断的伪动作标签虽然在统计上有效,但在精度上仍然无法完全媲美真实的动作记录,可能会引入一定程度的噪音。此外,当前的SATA数据集虽然涵盖了多种手术类型,但相对于整个手术医学领域的复杂性来说仍然有限。

尽管存在这些限制,这项研究的意义不容小觑。它为手术机器人的自主化发展提供了一条全新的技术路线,特别是在数据获取困难的医疗场景中。通过巧妙地利用大量无标签的手术视频资源,结合先进的生成式AI技术,研究团队成功构建了一个能够自我生成训练数据的学习系统。

这种方法的潜在应用前景广阔。随着技术的不断完善,未来的手术机器人可能能够通过"观看"大量手术视频来快速学习新的操作技能,就像人类医生通过观摩前辈的手术来提高自己的技艺一样。这不仅能够大幅降低手术机器人的训练成本,还能够加速新技术的推广普及,让更多医院和患者受益于机器人辅助手术的优势。

从更广阔的角度来看,这项研究代表了AI在医疗领域应用的一个重要里程碑。它展示了如何将计算机视觉、自然语言处理、生成式建模和机器人控制等多个AI子领域的技术有机结合,解决实际的医疗问题。这种跨学科的技术融合为其他医疗AI应用提供了有价值的参考,可能会推动更多创新解决方案的出现。

说到底,SurgWorld系统最大的价值在于它开辟了一条用AI训练AI的新路径。通过让机器人"看视频学手艺",这项研究不仅解决了手术机器人训练数据稀缺的问题,更重要的是展示了AI系统自我改进和持续学习的可能性。随着技术的进一步发展和完善,我们有理由相信,自主手术机器人将在不远的将来成为医疗领域的重要助手,为提高手术精度、减少医疗事故和缓解医生工作负担发挥重要作用。

Q&A

Q1:SurgWorld是什么,它是如何工作的?

A:SurgWorld是英伟达开发的手术机器人训练系统,它的工作原理类似于"看视频学手艺"。系统先通过分析大量手术视频学会生成逼真的手术场景,然后使用逆向推理技术从这些场景中推测出机器人的操作指令。这样就能利用互联网上丰富的手术视频资源来训练机器人,而不需要昂贵的专门数据收集。

Q2:SurgWorld训练出来的手术机器人表现如何?

A:实验结果显示,使用SurgWorld合成数据训练的机器人在轨迹预测精度上显著优于仅用真实数据训练的机器人。在"缝合针拾取与传递"任务中,加入合成数据后机器人的预测误差在各个维度都有明显降低,而且这种改进效果在不同数据量下都保持一致。

Q3:SurgWorld能否应用到所有类型的手术机器人?

A:目前SurgWorld仍需要针对特定机器人平台进行微调,这意味着扩展到新的机器人系统时需要额外的适配工作。不过研究显示该方法具有良好的泛化能力,在不同的基础模型和参数设置下都能带来性能提升,未来有望发展成更通用的解决方案。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
无需用死刑来震慑!未来将无人敢贪?贪官可能真的要消失了?

无需用死刑来震慑!未来将无人敢贪?贪官可能真的要消失了?

今朝牛马
2026-01-04 21:30:55
解放军能否突袭台北抓捕赖清德?

解放军能否突袭台北抓捕赖清德?

煮酒杂谈
2026-01-04 23:40:16
美媒总算看明白:中国这哪是买石油,分明是在给俄进行“大换血”

美媒总算看明白:中国这哪是买石油,分明是在给俄进行“大换血”

墨印斋
2026-01-02 20:47:40
已影响上海!赶紧回家!

已影响上海!赶紧回家!

鲁中晨报
2026-01-04 19:33:04
电力改革是未来5年的投资主线!

电力改革是未来5年的投资主线!

木禾投研
2025-12-08 21:26:06
小米17u彻底凉了!首销三日销量不及前代一半

小米17u彻底凉了!首销三日销量不及前代一半

真义科技
2026-01-03 18:00:12
假期重磅!委内瑞拉局势影响多大?AI、商业航天、智能驾驶都有大利好

假期重磅!委内瑞拉局势影响多大?AI、商业航天、智能驾驶都有大利好

看财经show
2026-01-04 17:12:22
戒烟潮席卷全国:吸烟率降至23.2%,老烟枪们咋集体放下烟头了?

戒烟潮席卷全国:吸烟率降至23.2%,老烟枪们咋集体放下烟头了?

Hi科普啦
2025-11-01 12:30:06
榨菜的“难兄难弟”,被年轻人推下餐桌

榨菜的“难兄难弟”,被年轻人推下餐桌

金错刀
2026-01-03 17:43:19
沉默 24 小时后,美欧日菲一拥而上,不许大陆收台,中方发出警告

沉默 24 小时后,美欧日菲一拥而上,不许大陆收台,中方发出警告

议纪史
2026-01-04 18:00:07
中国有可能迎来巨大机遇,美国对委内瑞拉出手,就是在给中国机会

中国有可能迎来巨大机遇,美国对委内瑞拉出手,就是在给中国机会

文史旺旺旺
2026-01-01 06:11:05
绝了!37万封口费→5.1亿索赔 C罗14年拉锯战 反杀250万律师费

绝了!37万封口费→5.1亿索赔 C罗14年拉锯战 反杀250万律师费

罗氏八卦
2026-01-04 23:30:02
三所里战役:志愿军换上美式武器后的战斗力有多强?

三所里战役:志愿军换上美式武器后的战斗力有多强?

吕彏极限手工
2025-12-29 19:46:00
特朗普公布马杜罗被捕后照片:戴手铐 双眼被黑布蒙住

特朗普公布马杜罗被捕后照片:戴手铐 双眼被黑布蒙住

界面新闻
2026-01-04 06:55:01
湖南省大学排名“重新洗牌”!湘大名列第四,长沙理工第五

湖南省大学排名“重新洗牌”!湘大名列第四,长沙理工第五

Delete丨CC
2026-01-04 15:50:19
原恒大“二把手”欲转移600亿港元资产 香港法院四次驳回!

原恒大“二把手”欲转移600亿港元资产 香港法院四次驳回!

经济观察报
2026-01-04 12:21:04
宁都会议,刘伯承主张解除毛主席兵权,此后毛主席待他如何?

宁都会议,刘伯承主张解除毛主席兵权,此后毛主席待他如何?

芊芊子吟
2026-01-04 19:00:02
刘和平:蹲过2年大牢混成副书记,还被百姓称为“青天大老爷”

刘和平:蹲过2年大牢混成副书记,还被百姓称为“青天大老爷”

墨说古今
2025-12-30 18:17:00
帮我们认清这个世界真相的,还得是懂王

帮我们认清这个世界真相的,还得是懂王

超级学爸蛋总
2026-01-04 21:00:15
贵州茅台发声

贵州茅台发声

观察者网
2026-01-04 23:06:07
2026-01-05 02:20:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6757文章数 546关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

特朗普为什么还要掳走马杜罗夫人 美媒分析

头条要闻

特朗普为什么还要掳走马杜罗夫人 美媒分析

体育要闻

女子世界第一,9年前在咖啡店洗碗

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

李迅雷:扩内需必须把重心从"投"转向"消"

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

时尚
健康
本地
艺术
家居

这才是中年女人该有的打扮,不扮嫩、不穿花,简约大方还显贵

这些新疗法,让化疗不再那么痛苦

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

艺术要闻

震撼视觉!西班牙画家安格拉达的油画作品引热议

家居要闻

黑白碰撞 个性多元冷冽风

无障碍浏览 进入关怀版