网易首页 > 网易号 > 正文 申请入驻

谷歌Nature震撼发文,Gemini教练暴打专家!医学双料冠军,秒出睡眠报告

0
分享至


新智元报道

编辑:桃子

【新智元导读】谷歌DeepMind最新Nature王炸,直接把Gemini版大模型PH-LLM调教成了「AI健康私教」,把可穿戴冷冰冰的数据,直接变成睡眠健身建议,结果准确率暴打人类医生。

AI医学的圣杯,可能先被谷歌DeepMind夺下。

最近,谷歌全新健康大语言模型(PH-LLM)正式发布——一款微调Gemini的「个人睡眠和健康」模型。


论文地址:https://www.nature.com/articles/s41591-025-03888-0?utm_source=chatgpt.com

PH-LLM将可穿戴设备中的数据,瞬间转化为可视化的内容。

它就像一个「AI睡眠专家+健身教练」,可以全天候分析监测个人的智能手表数据。

结果发现,PH-LLM在睡眠医学考试中得分(79%)碾压医生(76%),而且在健身认证中直接把人类专家按在地上摩擦(88% vs 71%)。


更牛的是,在人类评估中,PH-LLM生成的健康建议,几乎与专家无差别。而且,仅凭传感器数据,即可预测用户睡眠质量。

大多数可穿戴设备,往往只会给你一堆数据。

遗传学博士Dominic Ng对此点评道,「PH-LLM所做的,正是一位优秀医生会做的事,即将数据综合成『洞察』」。


最新研究已于14日登上Nature,具体看看,谷歌DeepMind如何做到的?

谷歌出手不凡,Gemini版「健康私教」

传统临床诊疗虽能提供宝贵信息,但对睡眠、运动、压力等,生活健康指标评估仅具阶段性。

如今,可穿戴设备就能实现无感连续监测。


不过,这些数据缺乏上下文背景,存储分析算力要求高、解读难度大等因素,并未广泛应用于临床实践。

甚至,这些数据也并未纳入标准「医学问答数据集」,导致通用基础LLM和医学LLM,都难以有效推理给出个性化建议。

为此,谷歌团队合力在Gemini上微调出PH-LLM,用于评估AI在睡眠与健康领域的表现,如下图所示。

可穿戴设备能监测信息远超这两个领域,为什么研究团队仅聚焦于此?

一方面,现有研究已充分验证可穿戴设备,在这些领域监测数据的准确性与适用性。

另一方面,设备使用者参与度高,无需提供临床建议即可给出实用指导方案。


研究中的真实案例:仅凭一名65-70岁男性提供的30天数据,PH-LLM便识别出了规律的睡眠时间表,但平均睡眠时间仅为5小时28分钟(过低)。

为此,它建议道:

更好的睡眠时间是从晚上12:00到早上7:30。你可以通过每隔几天将睡眠时间提前15分钟,逐步达到目标。


基于Gemini Ultra 1.0,PH-LLM采用了两阶段训练。

首先,作者对完整模型进行了微调,专门针对睡眠和健康领域的长篇案例分析回复生成任务。

训练数据包含了,人口统计学文本数据、最长30天的每日指标、聚合指标,以及仅针对健康案例的个体运动日志等。

在完成案例分析微调后,他们又为PH-LLM增加了多模态适配器。

这个适配器是用于,根据至少15天的纵向被动传感器数据(包含每日睡眠与活动指标),来预测睡眠障碍和睡眠损伤的主观报告结果(PROs)

两阶段训练完成后,团队从个人健康教练所需的多元能力维度出发,针对三大任务评估了PH-LLM的表现:

首先,通过多选题测试评估模型掌握的专家级领域知识储备;

其次,通过长案例研究检验模型应用专业知识、解读聚合传感器数据以提供教练建议的能力;

最后,测试模型预测患者主观报告结果(PROs)的能力,使其在生成建议时能整合个体对睡眠质量的自评数据,真正实现个性化健康指导。

AI击败人类专家

测试结果显示,在睡眠医学和健康体能考试,PH-LLM的答题正确率分别达到79%和88%(表1与图1b)。

这一结果,显著超过获得睡眠医学继续教育学分(CME)要求的约70%及格线。



而且,与主流外部模型相比,PH-LLM表现颇具竞争力:睡眠类题目稍逊但体能类题目表现相当。

具体而言,在睡眠医学考试中PH-LLM得分79%,Gemini Ultra 1.0为77%;在体能考试中两者均获88%得分。



受试者工作特征曲线(ROC)与精确率-召回率曲线,均证实模型在两类考试中的优异表现(附图2)。


值得注意的是,尽管针对睡眠与健康任务进行了微调,PH-LLM在PubMedQA29和MedQA30通用医学基准测试中,性能并未下降(附表1)。


值得一提的是,睡眠医学题库包含每道题目的人类考生答题分布等元数据,这允许团队基于题目难度进行分层性能比较。

PH-LLM在所有难度层级均小幅领先Gemini Ultra 1.0,且在难题上的优势更为明显。

这表明,睡眠案例研究的微调确实提升了相关题目的解答能力(表2)。


为量化PH-LLM的表现水平,团队还招募了5位平均从业25年的睡眠医学专家(均持有高级学位)和5位平均从业13.8年的职业运动教练参加同规格考试。

专家组在睡眠医学试题样本(N=204)中的平均正确率为76%,体能考试为71%,PH-LLM在两类题库中均超越人类专家(表1)。

按人类考生答题难度分层分析显示,PH-LLM的表现与人类考生及受邀专家群体相当(表2)。

案例分析,接近专家水平

接下来,研究团队进一步评估了,模型应用专业知识与解读传感器数据的能力。

为此,他们创建了首个睡眠与健康领域的详细个人健康案例数据集(857个案例,含3,271组问答对),由多位相关领域专家共同审定。

该数据集包含持续数周的个体可穿戴传感器数据,以及对应的深度分析与建议(图2a,b)。


在健康管理案例分析中,PH-LLM模型在三个维度(运动处方制定、恢复方案建议、训练准备度评估)上,表现出与人类专家及Gemini Ultra 1.0相当的水平(图2d)。


传感器数据,预测健康报告

此外,为了评估PH-LLM能否推断用户体验以优化健康指导,团队测试了每日传感器数值数据预测睡眠障碍和睡眠损伤PROs的能力。

首先通过计算问卷回答间的相关性分析PRO数据,发现16个问题测量了相关但独立的睡眠维度(图3a)。

随后检查传感器特征是否存在混杂因素,发现不同设备和参与者依从性间的传感器读数分布相似。

结果显示:没有单一特征对所有PROs具有绝对预测优势,预测信号广泛分布于多个传感器(图3b)。


为使PH-LLM能从传感器特征预测PROs,研究人员又训练了一个多层感知机(MLP)适配器,将20项传感器特征的统计量映射至PH-LLM的潜在标记空间(方法部分)。

随后将这些潜在标记作为上下文输入PH-LLM,要求其预测每个二分类结局。

在保留测试集中,团队比较了零样本提示、少样本提示与PH-LLM适配器方法,在受试者工作特征曲线下面积(AUROC)和精确召回曲线下面积(AUPRC)的表现(图3c,d)。

值得注意的是,客观睡眠测量数据对主观睡眠质量指标的预测力通常有限,但配备适配器的PH-LLM在AUROC和AUPRC上均显著优于两种提示方法。


正如Dominic Ng所言,谷歌研究意义并不止于一个「AI战胜医生」的故事。

这恰恰证明了,LLM可以将被动的健康监测,转化为积极的健康管理。

它不仅了解你的身体,还能理解其原因,并给出及时应对方法。

这就是预防医学的未来。


参考资料:

https://www.nature.com/articles/s41591-025-03888-0?utm_source=chatgpt.com

https://x.com/GoogleForHealth/status/1956050991695933619


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普对中国的说法变了,巴基斯坦从此不用中美二选一

特朗普对中国的说法变了,巴基斯坦从此不用中美二选一

议纪史
2026-01-31 12:35:06
欧媒:欧洲最大电池巨头企业破产,今后再也没有击败中国的希望了

欧媒:欧洲最大电池巨头企业破产,今后再也没有击败中国的希望了

比利
2026-01-31 21:39:19
15万个AI建了个朋友圈吐槽人类,100万人围观Moltbook后傻眼了:原来我们对AI一无所知

15万个AI建了个朋友圈吐槽人类,100万人围观Moltbook后傻眼了:原来我们对AI一无所知

AppSo
2026-01-31 20:13:22
多名省管干部因工程承揽、设备采购谋利被立案审查

多名省管干部因工程承揽、设备采购谋利被立案审查

上观新闻
2026-02-01 06:39:05
员工刘某一个月内11次长时间滞留卫生间,单日最长达6小时21分钟,被公司解雇,法院:超出合理生理需求,属变相旷工,被解雇合法

员工刘某一个月内11次长时间滞留卫生间,单日最长达6小时21分钟,被公司解雇,法院:超出合理生理需求,属变相旷工,被解雇合法

极目新闻
2026-02-01 09:11:11
上海警方通报:彭某某(男,46岁)车辆漏油,造成16车打滑相撞!长江隧道事故原因查明

上海警方通报:彭某某(男,46岁)车辆漏油,造成16车打滑相撞!长江隧道事故原因查明

扬子晚报
2026-01-31 21:07:27
收藏:青岛市领导班子组成及分工

收藏:青岛市领导班子组成及分工

山东教育
2026-02-01 12:14:24
退休后存80万养老,女婿问存款,我说就3万,隔天收到法院传票

退休后存80万养老,女婿问存款,我说就3万,隔天收到法院传票

船长与船1
2026-02-01 08:46:21
钱再多有什么用?52岁刘强东身家上千亿,儿子却成为他一生的遗憾

钱再多有什么用?52岁刘强东身家上千亿,儿子却成为他一生的遗憾

青橘罐头
2026-01-31 21:39:14
跌成白菜价,电视却卖不动了!14亿人干不过3亿美国人,太扎心

跌成白菜价,电视却卖不动了!14亿人干不过3亿美国人,太扎心

阿器谈史
2026-01-31 23:19:36
广东一初中生背影火了,网友怒赞!

广东一初中生背影火了,网友怒赞!

深圳晚报
2026-01-31 23:00:48
难以置信!郑州网友哭诉公司年会抽中苹果17,奖品被顶头上司盯上

难以置信!郑州网友哭诉公司年会抽中苹果17,奖品被顶头上司盯上

火山诗话
2026-02-01 10:26:39
《名侦探柯南》与辱华漫画联动,紧急声明!

《名侦探柯南》与辱华漫画联动,紧急声明!

极目新闻
2026-02-01 10:34:47
爱泼斯坦案最后一批文件曝光!特朗普被提到数百次,还牵出一众大佬

爱泼斯坦案最后一批文件曝光!特朗普被提到数百次,还牵出一众大佬

上观新闻
2026-02-01 05:00:09
千里大堤溃于蚁穴,银行信用,溃于呼伦贝尔?

千里大堤溃于蚁穴,银行信用,溃于呼伦贝尔?

细雨中的呼喊
2026-01-31 15:43:54
爆iPhone 18 Pro将首搭星链卫星通信,无需额外硬件实现“无死角”联网

爆iPhone 18 Pro将首搭星链卫星通信,无需额外硬件实现“无死角”联网

环球网资讯
2026-01-30 15:14:07
挪动一米就锁死?国产五轴破局“电子手铐”,让美日高傲变成废铁

挪动一米就锁死?国产五轴破局“电子手铐”,让美日高傲变成废铁

壹知眠羊
2026-01-31 21:20:06
缅甸这场戏,快要演完了

缅甸这场戏,快要演完了

寰宇大观察
2026-01-31 20:00:03
澳门英皇娱乐酒店大堂78公斤黄金被连夜撤走,价值超8580万元!工作人员回应:与金价无关,系内部装修需要

澳门英皇娱乐酒店大堂78公斤黄金被连夜撤走,价值超8580万元!工作人员回应:与金价无关,系内部装修需要

每日经济新闻
2026-02-01 13:50:08
神奇!女子接受造血干细胞移植后,血型从B型变成和捐献者一样的AB型,连不喜欢吃的韭菜都爱吃了,专家释疑

神奇!女子接受造血干细胞移植后,血型从B型变成和捐献者一样的AB型,连不喜欢吃的韭菜都爱吃了,专家释疑

极目新闻
2026-01-31 22:45:21
2026-02-01 14:15:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14455文章数 66556关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

媒体:宝可梦十年间三次踩线 可不是简单的"工作失误"

头条要闻

媒体:宝可梦十年间三次踩线 可不是简单的"工作失误"

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

马年春晚第三次联排,多位明星现身

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

亲子
本地
房产
公开课
军事航空

亲子要闻

萌娃爆笑模仿爸爸打呼噜,逗得妈妈哈哈大笑

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗民众:伊朗不会屈服于美国霸权

无障碍浏览 进入关怀版