网易首页 > 网易号 > 正文 申请入驻

全球首个医疗视频理解大模型开源!6k+组精标测试集/英雄榜上线

0
分享至

田晏林 发自 凹非寺
量子位 | 公众号 QbitAI

手术视频的“黑盒”,被一脚踢爆了!

就在这两天,GitHub和Hugging Face社区上线了一枚医疗大模型领域的“核弹”。

全球规模最大性能最强的医疗视频理解大模型——uAI Nexus MedVLM(中文名:元智医疗视频理解大模型)开源!

最惊人的是,这玩意儿是真的能看懂手术。

论文已经被CVPR 2026收录,团队还同步甩出了一套由6245个视频-指令对构成的标准测试集。

啥概念?医疗视频理解,终于有了一把“公共标尺”。

而如此兼具规模与精度的医疗视频数据开源,在业内尚属首次

小编第一时间冲到Hugging Face,把模型拉下来实测了一波。

到底有多能打?

先交代一下uAI Nexus MedVLM的硬指标:

  • 汇聚超53万条视频-指令数据;
  • 支持4B/7B参数规模,单卡就能部署(对,一张卡就能跑);
  • 整合8个专业医学数据集,覆盖内镜、腹腔镜、开放手术、机器人手术、护理操作……几乎你能想到的手术场景,它全包了。

实测效果咋样?

Demo的体验设计非常友好:界面核心模块清晰;支持上传手术视频文件。



你可以上传自己的医疗视频,也可以用预置示例直接测试。

我尝试用示例的腹腔镜胆囊切除术视频,测试了三个临床核心维度,并对比了通用大模型(GPT-5.4、Gemini-3.1、某国产大模型)和uAI Nexus MedVLM的输出差异。

定量实测的数据太残暴了!手术安全评估:准确率89.7%。

啥概念?GPT-5.4只有16.4%,Gemini-3.1是24.2%,某国产大模型是30.9%。

也就是说,uAI Nexus MedVLM的准确率是GPT-5.4的近5.5倍,是Gemini-3.1的3.7倍,是国产大模型的近3倍。

时空动作定位:uAI Nexus MedVLM的mIoU是Gemini-3.1的3.2倍,是国产大模型的3.7倍,是GPT-5.4的47倍,

视频报告生成(5分制):uAI Nexus MedVLM 拿到4.24分,GPT-5.4只有3.98分,某国产大模型只有3.5分,Gemini-3.1只有3.7分。

而通过MedGRPO强化学习优化后,相比基座模型,uAI Nexus MedVLM的器械定位能力提升14%;手术步骤识别能力暴涨52%;手术描述质量提升16%~25%。



uAI Nexus MedVLM覆盖内镜腔镜手术、开放式手术、机器人手术、护理操作等多类临床场景,涵盖了8个手术数据集中的8个任务:

视频摘要(VS)、关键安全视野评估(CVS)、下一步操作预测(NAP)、技能评估(SA)、时间动作定位(TAG)、密集视频描述(DVC)、区域级描述(RC)和时空基础化(STG)。

每项任务的表现都超越了GPT和Gemini。

再看定性实测的结果,把一段被标记了绿色框的手术视频发给大模型,让它描述。

输入问题:你是一名专攻微创手术的外科分析专家。这段视频展示了腹腔镜胆囊切除术的内镜画面。请描述0.0秒时,边界框内物体的状态,以及在0.0~29.0秒时间段内的操作。



标准答案是:钳持续夹持并将胆囊向手术视野的左上方牵拉,提供反向牵引和暴露。

GPT-5.4这边呢,它只能给出笼统的描述,未能识别出具体器械。

Gemini-3.1则将工具错误识别为“电凝钩”,描述成了不正确的操作。

某国产大模型:则无法识别出正确的手术操作步骤。

只有uAI Nexus MedVLM,给出了接近标准答案的描述:

位于左上方的抓钳持续向上并朝中央牵引胆囊,保持张力并为钩子暴露分离平面。

随后,我看了下示例给出的8个任务表现,一个比一个令人震撼。

为避免真实手术场景带来的观感不适,我们选取了一段温和的示例视频,内容是护士给患者监测身体指标。

视频涵盖了护士查看血压计、查看体温计、护理记录、洗手、测量血压、测量体温、脉搏测量、呼吸测量等工作。



现在,我们随机考察8个任务中的一个,比如「时间动作定位」。

输入问题:脉搏测量动作发生在什么时间?

标准答案是:46.0-61.8seconds。

模型给出的预测是:43.0-65.0seconds。前后误差不超过4秒,且正确答案就在预测范围内。

为什么手术视频是AI最难啃的骨头?

在AI医疗领域,将AI用于影像辅助诊断、病历书写、质控管理等场景早已不是新鲜事,在不少医院已经落地。

但有一个方向,至今仍是公认的“无人区”,那就是手术视频理解

之前没人敢碰,为啥?三重地狱级难度,和静态影像完全不是一个量级:

第一关:数据极难获取。临床手术视频涉及患者隐私与医学伦理,获取本身就困难重重。

即便拿到了原始视频,你让专业医生逐帧标注?成本高到可以劝退99%的团队。

第二关:没有统一评测标准。这是行业里一个很尴尬的现实:各家用自己的数据集、自己的指标,模型效果根本没法横向比较。

你说你强,他说他强,谁说了都不算,严重阻碍整个赛道的发展。



第三关:任务本身极端复杂。手术视频的难就难在对空间、时序、语义的理解要高度专业。

比如,它需要精准识别毫米级的器械位置和解剖结构。稍微偏一点,可能就认错了。

而且胆囊得先分离再切除,不能反过来。AI如果看不懂时序,就根本无法理解手术进程。

各种约束叠加,再顶级的模型也只能歇菜。

但现在,这个无人区被uAI Nexus MedVLM一脚踩穿

它不只是“炫技”,是真的能救命。

好了,说点实际的。这模型具体能干嘛?

术前:分析主刀老师上万台手术视频,挖掘临床规律、辅助优化方案。

想象你是一位刚站上手术台的临床医生,即将做一台胆结石微创手术。

以前你只能靠记忆和经验;现在AI把成千上万台顶级专家的手术经验沉淀下来,相当于有了最强的大脑,来辅助你完成这台手术。



术中:在分离胆囊管、显露安全视野等关键步骤,实时给出指引;对违规操作、动作偏差进行毫秒级预警,成为你的“第三只眼”

术后:自动完成总结与结构化记录,这通常会占用医生大量时间,但现在,一键生成标准化报告。这台手术的经验,也能成为下一位医生的“决策依据”

手术质控、术中安全、报告自动化、医学教学……uAI Nexus MedVLM的价值,远不止于技术突破。

在中国,优质医疗资源集中在三甲医院,基层医院医生成长周期长、手术经验积累慢。

而uAI Nexus MedVLM可以把顶级专家的手术经验“沉淀”下来,基层医院的医生也能获得“专家级”的术中辅助。

这或许才是AI真正理解手术视频的意义所在。

全球开发者,新机遇来了

这次发布,最值得关注的不仅是uAI Nexus MedVLM本身。

开发这一模型的背后玩家联影智能(联影集团旗下一家专注于AI医疗的创新公司),首次向全球开源大规模高质量医疗视频标注数据和模型,并提供了一个更具可比性的评测基准。

这意味着什么?终于有了一个手术视频理解垂直领域的“全球公共测评体系”了。

以前,各家模型各说各话,效果没法比。

现在,拉出来在同一个数据集上跑一跑,谁强谁弱,一目了然。

而这,还只是开始。

这支研发团队不想唱独角戏,上线了医疗视频理解大模型榜单,面向全世界开发者发出挑战。



这是一个综合基准测试,用于评估视频语言模型在医疗和外科视频理解方面的表现。

开发者可提交自有模型结果,由系统基于标准自动评分,形成动态更新的统一排行榜。

当全球开发者都能下载模型、使用数据集、上传自己的成果时,看谁能把对医疗视频理解的能力边界,再往前推一步了。

这个过程中,医生上传的罕见病例、复杂手术视频,尤其是现有模型表现不足的案例,都会成为极为珍贵的真实数据,持续驱动技术迭代。

医疗视频AI正在迎来面向全球开发者的黄金时代。

未来,uAI Nexus MedVLM将与具身智能融合,完善感知-推理-执行的能力闭环。从手术室拓展到更多临床场景,推动医疗全流程智能化。

数据开放、模型共享、全球协同……这条路,才刚刚开始。

开发者们,是时候上车了~

彩蛋:链接在此,请自取

1.在线Demo:
https://huggingface.co/spaces/UII-AI/MedGRPO-Demo

2.推理代码:
https://github.com/UII-AI/MedGRPO-Code

3.MedVidBench数据集:
https://huggingface.co/datasets/UII-AI/MedVidBench

4.公开榜单:
https://huggingface.co/spaces/UII-AI/MedVidBench-Leaderboard

5.论文:
https://arxiv.org/abs/2512.06581

6. 项目介绍:
https://uii-ai.github.io/MedGRPO/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
65至85岁抓紧4月申报,错过又要等一整年时间!

65至85岁抓紧4月申报,错过又要等一整年时间!

小蜜情感说
2026-04-25 13:08:24
消息人士:白宫记协晚宴安全事件嫌疑人作案目标为美政府官员

消息人士:白宫记协晚宴安全事件嫌疑人作案目标为美政府官员

新京报
2026-04-26 13:39:07
醪糟再次被关注!医生发现:高血脂患者喝醪糟,不用多久4大变化

醪糟再次被关注!医生发现:高血脂患者喝醪糟,不用多久4大变化

芹姐说生活
2026-04-19 15:52:53
2025年中国私人对乌克兰捐款位列全球第四

2025年中国私人对乌克兰捐款位列全球第四

刘耘博士
2026-04-25 10:25:41
止步7强!车手昏迷张雪离场,网友质疑有黑幕,官方回应尽显格局

止步7强!车手昏迷张雪离场,网友质疑有黑幕,官方回应尽显格局

南宗历史
2026-04-26 10:47:38
WTA又爆冷!8号种子0-2惨遭横扫,郑钦文2-1大逆转,将战世界第2

WTA又爆冷!8号种子0-2惨遭横扫,郑钦文2-1大逆转,将战世界第2

不想长大的莫扎特
2026-04-26 13:08:34
太瘆人!女子晒自家的木床照,网友调侃像棺材,评论区毛骨悚然

太瘆人!女子晒自家的木床照,网友调侃像棺材,评论区毛骨悚然

谭谈社会
2026-04-25 10:32:29
虎狼之词啊!一公共女厕提示走红网络,“屙尿时对准坑位”引热议

虎狼之词啊!一公共女厕提示走红网络,“屙尿时对准坑位”引热议

火山詩话
2026-04-25 06:12:02
35岁离婚,因嗜酒家财散尽,50岁中年又丧女,如今66岁腾格尔如何

35岁离婚,因嗜酒家财散尽,50岁中年又丧女,如今66岁腾格尔如何

白面书誏
2026-04-25 15:13:17
触碰红线,华晨宇抚仙湖演唱会被立刻叫停,原因被扒,令人唏嘘

触碰红线,华晨宇抚仙湖演唱会被立刻叫停,原因被扒,令人唏嘘

许三岁
2026-04-24 22:36:22
又一个3-0!SGA42+8雷霆再胜太阳,布鲁克斯33+7布克16中6

又一个3-0!SGA42+8雷霆再胜太阳,布鲁克斯33+7布克16中6

湖人崛起
2026-04-26 06:03:20
湖南美女“克拉姐姐”去世,年仅25岁,原今年订婚,棺木不能入家

湖南美女“克拉姐姐”去世,年仅25岁,原今年订婚,棺木不能入家

裕丰娱间说
2026-04-25 22:47:12
打虎!伍浩被查

打虎!伍浩被查

新京报
2026-04-25 17:24:34
孟子义《奔跑吧》14宣传片半球裸露被审判,网友:为了黑而黑

孟子义《奔跑吧》14宣传片半球裸露被审判,网友:为了黑而黑

草莓解说体育
2026-04-26 10:58:37
北京车展30台车被抢光,老外排队求中国造,一台车盖要工程师签名

北京车展30台车被抢光,老外排队求中国造,一台车盖要工程师签名

音乐时光的娱乐
2026-04-26 15:12:14
生理旺盛的女性,大多有这3个特征,超准!

生理旺盛的女性,大多有这3个特征,超准!

皓皓情感说
2026-04-25 19:09:10
女孩高考考出707分,被北京大学录取!可是令人震惊的是,女孩在大二时选择放弃学业!

女孩高考考出707分,被北京大学录取!可是令人震惊的是,女孩在大二时选择放弃学业!

张晓磊
2026-04-26 11:32:50
实拍越南真实心声:普通民众眼里,中国投资者不是我们想的那样!

实拍越南真实心声:普通民众眼里,中国投资者不是我们想的那样!

老特有话说
2026-04-26 08:05:02
事态升级,中方军舰越聚越多,四川舰和辽宁舰汇合,菲日休想闹事

事态升级,中方军舰越聚越多,四川舰和辽宁舰汇合,菲日休想闹事

潮鹿逐梦
2026-04-25 19:02:47
突发!光通信再爆黑马!这个方向,即将开启史诗级大周期(附股)

突发!光通信再爆黑马!这个方向,即将开启史诗级大周期(附股)

林子说事
2026-04-26 13:10:32
2026-04-26 17:55:00
量子位 incentive-icons
量子位
追踪人工智能动态
12535文章数 176457关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

美国网民质疑:为什么先救万斯

头条要闻

美国网民质疑:为什么先救万斯

体育要闻

森林狼3比1掘金:逆境中杀出了多孙穆?!

娱乐要闻

仅次《指环王》的美剧,有第二季

财经要闻

中办、国办:加强新就业群体服务管理

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

家居
游戏
旅游
教育
数码

家居要闻

自然肌理 温润美学

《刺客信条:黑旗 记忆重置》仍然会保留血液效果

旅游要闻

游客在山顶打架,景区又能怎么办

教育要闻

四年级数学:简便计算,难住不少数学老师

数码要闻

Google或正逐步淡化 Fitbit 品牌

无障碍浏览 进入关怀版