![]()
2022年6月,Meta 首席 AI 科学家杨立昆(Yann LeCun)发表了一篇影响深远的立场论文《A Path Towards Autonomous Machine Intelligence》,提出一个核心判断:AI 要学习理解世界,应该在抽象表示空间里做预测,而非逐像素重建现实。他把这套框架叫做 JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构)。此后三年半,Meta 团队沿着这条路线做出了 I-JEPA(图像)、V-JEPA(视频)、V-JEPA 2(百万小时视频),成果不错,但批评者一直在追问同一个问题:有没有像素重建确实不行、只有你这条路才走得通的场景?
2026年2月4日,一个答案从心脏科方向冒了出来。加拿大最大研究医院网络、大学健康网络(UHN)的 AI 团队发布了EchoJEPA。通讯作者 Bo Wang 是 UHN 首席 AI 科学家、斯坦福博士,领导 Peter Munk 心脏中心的 AI 团队;一作 Alif Munim 自 2022 年起在该团队从事心脏影像研究。他们把杨立昆的 JEPA 思路首次应用于医学超声,在1800万条心脏超声视频上训练,发现潜在预测对像素重建形成了碾压级优势。杨立昆随即在社交媒体上关注了这篇论文。
技术谱系
2020EchoNet-Dynamic 发布1万条标注视频,建立心超AI基线
2022杨立昆发表立场论文,提出JEPA架构的完整理论框架
2023I-JEPA:Meta团队首次实现,用于图像自监督学习
2024V-JEPA:扩展到视频理解
2025.06 V-JEPA 2:Meta用100万小时视频训练,性能大幅提升
2025.07 PanEcho(耶鲁):监督多任务学习,发表于JAMA
2025.11 EchoPrime(斯坦福):对比学习+医学报告,发表于Nature
2026.02 EchoJEPA:首次将JEPA用于医学影像,1800万心超视频 ← 本文
超声"雪花点":一个被低估的难题
美国每年做大约3000万次心脏超声检查。超声便宜、便携、没有辐射,但图像有一个天然缺陷:画面布满了一种叫"散斑"(speckle)的随机噪点,类似老式电视机的雪花。这些雪花跟心脏结构没有任何关系,纯粹是超声波在组织中散射产生的干扰。同一个病人换个角度再拍一次,雪花图案就完全不同。
对心脏科医生来说,大脑会自动过滤雪花、聚焦在心腔形态和心壁运动上。但对 AI 来说,像素就是像素,雪花和心脏结构在数据层面没有本质区别。
现有方案:三条路,各有各的问题
过去两年,心超 AI 领域涌现了三种主流思路。
监督学习(PanEcho,耶鲁团队):直接用医生标注的数据训练模型完成39项临床任务。问题在于标注本身有误差,而且标注量远远不够覆盖心超的复杂性。
对比学习(EchoPrime,斯坦福团队):让模型学习"视频-文字报告"的对应关系,通过1200万对视频和报告训练。问题在于模型对齐的是报告语言,而非心脏解剖结构本身,报告写了什么它就学什么,报告没提的它就忽略。
像素重建(EchoFM,遮掩自编码):遮住视频的一部分,让模型猜被遮住的像素长什么样。问题最根本:为了还原像素,模型必须记住散斑的统计规律,因为散斑也是像素的一部分。
隔着毛玻璃认人脸
EchoJEPA 的核心思路可以这样理解:想象你在训练一个人隔着毛玻璃认人脸。
毛玻璃对应的就是超声散斑,它模糊了真实的画面,而且每次拍摄毛玻璃的纹路都不一样。人脸的五官轮廓是你真正关心的信息,对应心脏的腔室形态和瓣膜运动。
像素重建的训练方式相当于:把毛玻璃照片遮掉一半,要求学生逐像素还原被遮住的部分。学生不得不去记忆毛玻璃的纹路,因为那也是像素的一部分。训练越久,学生越擅长画毛玻璃纹路,但对纹路背后的人脸结构理解未必更深。
EchoJEPA 的做法不同。它安排了一位"慢半拍的观察员"(技术上叫 EMA 教师编码器),用稍慢的节奏消化同样的画面,产出一份"摘要"。因为它关注的是跨时间稳定的结构,比如心壁在这一帧和下一帧的位置关系,而非每帧不同的散斑,这份摘要天然偏向解剖学信号。学生的任务变成:预测观察员对被遮住区域会给出什么摘要,而不是还原原始像素。
结果,学生学到的是"毛玻璃后面有什么",而非"毛玻璃纹路长什么样"。
这个类比有局限:真实的 EMA 教师其实是学生自身参数的滑动平均,两者在持续互相影响。"慢半拍的观察员"只是帮助理解"稳定预测目标"这个核心机制,实际的数学过程比"一个人看另一个人的笔记"复杂得多。
数据规模:1800万条视频,30万病人
EchoJEPA 的旗舰模型(ViT-Giant,11亿参数)在1800万条心超视频上训练,覆盖30万名病人,来自多个机构和不同品牌超声设备,是心超领域迄今最大的预训练数据集。对比来看,EchoPrime 用了1200万视频-报告对,PanEcho 用了100多万视频。
为了让结果可复现,团队还提供了一个用公开数据(MIMIC-IV-Echo,52.5万视频)训练的较小版本 EchoJEPA-L,代码已开源。
效果:碾压级的数字
论文做了一个关键对照实验:同样的模型架构(ViT-Large)、同样的数据、同样的算力,只改变训练目标:像素重建 vs 潜在预测。结果,EchoJEPA-L 在左心室射血分数(LVEF)估计上比像素重建版本误差低26.7%(5.97 vs 8.15),视图分类准确率高出45个百分点(85.5% vs 40.4%)。
几个最惊人的数字:
用1%的标注数据训练视图分类,EchoJEPA-G 达到78.6%准确率,而 EchoPrime 用100%标注数据只有42.1%。换句话说,用百分之一的标签就超过了别人用全部标签的成绩。
在声学干扰测试中(模拟肥胖患者的信号衰减和肋骨造成的声学阴影),EchoJEPA 的性能只下降2.3%,EchoPrime下降16.8%。抗噪能力差了7倍多。
在儿科数据上零样本测试(完全没见过儿童心超数据),EchoJEPA-G 的误差为4.32%,比所有对手微调后的成绩还好。而像素重建版本在微调后几乎没有改善(6.79→6.75),说明它学到的表示太依赖成人心超的散斑模式,切换人群后就失效了。
代价方面:旗舰模型依赖1800万条专有数据,无法公开复现;鲁棒性测试用的是合成扰动而非真实临床数据;模型可能存在记忆化风险,团队坦承尚未充分研究。
论文定位:杨立昆理论的首次临床验证
论文摘要最后一句说:"establishing latent prediction as a superior paradigm for robust, generalizable medical AI."
用的是"superior paradigm"(优越范式),而非"novel method"。言下之意:这个思路从根本上比像素重建更适合医学超声。论文确实用控制变量实验支撑了这个判断:架构、数据、算力完全相同,只改目标函数,潜在预测全面胜出。
杨立昆在社交媒体上为这篇论文点了赞。这个动作的含义很明确:他在为自己的学术路线收集证据。
杨立昆2022年提出 JEPA 理论后,批评者一直追问"show me the breakthrough":你说潜在预测比像素重建好,在实际任务上证据在哪?在自然视频领域,V-JEPA 系列表现不错,但纹理和语义有较强相关性,像素重建也能凑合,两者差距不够震撼。超声散斑提供了近乎完美的检验场景:纹理和语义彻底脱钩,你要么学噪声,要么学结构,没有中间地带。EchoJEPA 的控制实验证明了在这种条件下,两种范式的差距是碾压级的。
更关键的是验证来自 Meta 体系之外。Bo Wang 团队在多伦多大学和 UHN 独立完成了整个项目,虽然论文致谢中提到 Meta AI 团队的 Quentin Garrido 和 Koustuv Sinha 在 JEPA 训练策略和架构适配上提供了指导,但实验设计、数据收集和临床验证全部独立完成。对于一个被质疑"缺乏杀手级应用"的理论框架来说,外部团队在高价值临床场景下用严格实验得出的碾压级数据,比 Meta 自己实验室再出十篇论文都有说服力。
从学术政治的角度看,EchoJEPA 不是一篇低调的工程改进,而是一次方法论层面的立场宣言:对于噪声主导的医学影像,重建像素是走弯路。
论文地址:
https://arxiv.org/pdf/2602.02603
END本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。Q&AQ1:EchoJEPA是什么?
A:EchoJEPA是加拿大大学健康网络(UHN)的AI团队开发的心脏超声AI模型,首次将Meta科学家杨立昆提出的JEPA架构应用于医学影像。它用1800万条心脏超声视频训练,通过在抽象空间预测而非重建像素的方式,解决了超声图像中散斑噪声的干扰问题,在多项临床任务上全面超越现有方法。
Q2:EchoJEPA比传统方法好在哪里?
A:EchoJEPA最大的优势是只用1%的标注数据就能达到78.6%的准确率,超过其他方法用100%数据的表现。在抗噪声能力上,它的性能下降只有2.3%,而对比方法下降16.8%。在完全没见过的儿科数据上,EchoJEPA零样本测试的误差也比其他方法微调后更低,证明它学到的是心脏结构而非噪声模式。
Q3:心脏超声图像的散斑是什么问题?
A:散斑是超声图像中类似雪花的随机噪点,由超声波在组织中散射产生,跟心脏结构无关。同一病人换个角度拍,散斑图案就完全不同。医生能自动过滤散斑关注心脏结构,但传统AI会把散斑当成像素的一部分去学习,导致学到的是噪声规律而非真正的心脏解剖信息。EchoJEPA通过预测抽象表示而非像素,避免了这个问题。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.