网易首页 > 网易号 > 正文 申请入驻

美国医学会儿科杂志:ChatGPT在诊断儿科病例时准确率较低

0
分享至

·三名研究者指出,ChatGPT明显还无法成为合格的诊断工具,但他们也提出,更多的选择性训练或许能够改善测试的结果。他们还认为,即便ChatGPT这样的大语言模型在临床诊断上的能力还有待观察,它们仍旧能成为医生得力的行政助手,在撰写研究报告和生成医学建议上为医生和患者提供帮助。

以ChatGPT(OpenAI研发的一款聊天机器人程序)为代表的大语言模型(Large Language Models,LLM)或许在未来的某一天能够取代医生为病人作出诊断。然而近期的一项研究发现,ChatGPT要成为一名合格的儿科医生可能还有很长的路要走。

2024年1月2日,美国纽约科恩儿童医学中心的Joseph Barile等人所组成的一支三人研究团队在《美国医学会儿科杂志》(JAMA Pediatrics)上发表了题为《一个大语言模型在诊断儿科病例时的准确性》(Diagnostic Accuracy of a Large Language Model in Pediatric Case Studies)的研究报告。通过研究ChatGPT在诊断100个随机儿科病例中的表现,研究者们发现它的诊断正确率仅为17%,因此判断目前ChatGPT缺乏儿科诊断的能力。

儿科诊断的挑战在于,除了症状之外,医生还必须考虑患者的年龄。不同于成人患者,儿童患者的病史一般由家长或者其他看护者提供,因此询问时更加困难。儿童的陈述则容易因为害怕治疗或者表达能力欠缺等而误述,需要医生来辨别真伪。因此儿科诊断对医生的耐心、观察能力和专业能力都有着独特的高要求。

研究者们观察到,近期儿科医学界中的一些人将大语言模型视为很有前途的诊断工具并加以积极推广。以ChatGPT为代表的大语言模型是一种利用机器学习技术来理解人类语言的人工智能模型。使用大量语言数据(训练ChatGPT的数据超过了3000亿个单词)训练拥有大量参数(通常超过数十亿个)的人工智能模型之后,它们产生了联系上下文并预测对话的能力。

与专精某个具体领域的“小模型”不同,大语言模型展现出广泛的理解能力,能够与人类进行更加自然的对话。同时,由于大语言模型所使用的大量数据涉及到各种专业知识,它们在讨论专业话题时也展现出惊人的深度,常常能够提出合理的专业建议。

为了测试大语言模型在儿科领域的诊断能力,该研究随机收集了100个儿科病例,并要求ChatGPT来诊断它们。研究方式很简单,对于每个病例,他们首先将其中的文字描述黏贴给ChatGPT,随后在这些文字之后加上一条命令:“列出一项鉴别诊断以及一项最终诊断。”

鉴别诊断(differential diagnosis)是指利用患者的病史和生理检查来提出一个或数个初步诊断的方法,用来初步确定病因的范围。最终诊断(final diagnosis)则是指医生对病因的最终判断。ChatGPT所给出的回答被交给两名之前不曾参与该研究的医生进行评价。评价包含“正确”“不正确”以及“不完全正确”三种。

最终研究者们发现,ChatGPT的最终诊断仅获得17次“正确”。有11次诊断在临床上与正确诊断相关,但仍是错误的。三名研究者指出,ChatGPT明显还无法成为合格的诊断工具,但他们也提出更多的选择性训练或许能够改善测试的结果。他们还认为,即便ChatGPT这样的大语言模型在临床诊断上的能力还有待观察,它们仍旧能成为医生得力的行政助手,在撰写研究报告和生成医学建议上为医生和患者提供帮助。

之前有研究指出ChatGPT在急诊的鉴别诊断中表现出了很高的水平。Hidde ten Berg等人于2023年9月9日在《急诊医学年鉴》(Annals of Emergency Medicine)发表的论文指出,ChatGPT在急症鉴别诊断中的表现并不比人类医生差。

在这项研究中,研究人员将30名急诊病人的检查结果、症状以及医生笔记输入ChatGPT,要求它鉴别诊断并生成一份可能病因的列表。最终,ChatGPT的诊断列表与医生的列表有60%的重合。医生的鉴别诊断中包含正确最终诊断的案例占全部案例的87%,ChatGPT 4.0版本的表现与之相同,而ChatGPT 3.5版本的表现最好,准确率高达97%。

除了在鉴别诊断中有优异的表现之外,ChatGPT也被报道能够诊断罕见病。2023年9月12日,美国媒体报道了ChatGPT成功诊断一名7岁的“脊髓拴系综合征”(Tethered Cord Syndrome, TCS)患者的故事。

即便ChatGPT在医学诊断方面有巨大潜力,医学界普遍认为它还不是一项医疗工具。2023年5月16日,世界卫生组织(WHO)在一份声明中呼吁公众以及业界谨慎对待大语言模型在医疗方面的使用。“虽然正确使用包括大语言模型在内的新科技来支持医生、患者、研究者以及科学家是一件令人振奋的事,但是大语言模型还需要经过很多伦理与安全性方面的验证。”

WHO指出,大语言模型的意见会显得非常有说服力,但仍有可能是错的。如果发生严重的医疗事故,公众对这项有潜力的技术可能会失去信任。

参考资料:

1.ChatGPT and Generating a Differential Diagnosis Early in an Emergency Department Presentation

https://www.annemergmed.com/article/S0196-0644(23)00642-X/fulltext

2.Diagnostic Accuracy of a Large Language Model in Pediatric Case Studies

https://jamanetwork.com/journals/jamapediatrics/article-abstract/2813283

3.Toddler whose symptoms puzzled 17 doctors for three YEARS is finally diagnosed with rare condition... by ChatGPT

https://www.dailymail.co.uk/health/article-12509111/ChatGPT-diagnosis-rare-condition.html

4.WHO calls for safe and ethical AI for health

https://www.who.int/news/item/16-05-2023-who-calls-for-safe-and-ethical-ai-for-health

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马宁称给C罗黄牌没有任何压力,马宁:那一刻我必须等C罗冷静

马宁称给C罗黄牌没有任何压力,马宁:那一刻我必须等C罗冷静

大象新闻
2026-06-22 10:01:03
又是疯狂一夜!伊朗升榜首,阿根廷16强稳了!世界第10或遭淘汰

又是疯狂一夜!伊朗升榜首,阿根廷16强稳了!世界第10或遭淘汰

小彭美识
2026-06-22 09:32:17
上海相亲角39岁优质女站一上午无人问,大叔几句实话怼到沉默

上海相亲角39岁优质女站一上午无人问,大叔几句实话怼到沉默

风起见你
2026-06-22 01:00:33
财政部在政府采购活动中对有关美国企业采取相关措施

财政部在政府采购活动中对有关美国企业采取相关措施

界面新闻
2026-06-22 09:05:47
事态升级!霍启刚评论区沦陷,准弟媳娜然家世曝光被质疑辱华

事态升级!霍启刚评论区沦陷,准弟媳娜然家世曝光被质疑辱华

萌神木木
2026-06-20 11:25:21
女子称宠物犬寄存海底捞办公室后死亡:员工承诺开空调却关了!门店回应→

女子称宠物犬寄存海底捞办公室后死亡:员工承诺开空调却关了!门店回应→

极目新闻
2026-06-22 08:36:39
女副处只有性别是真的

女副处只有性别是真的

晓记
2026-06-22 11:00:31
75岁爸爸照顾6岁女儿,74岁妈妈脑梗住院!坦言时间不够用,想多活几十年!网友吵翻

75岁爸爸照顾6岁女儿,74岁妈妈脑梗住院!坦言时间不够用,想多活几十年!网友吵翻

新民晚报
2026-06-21 19:36:03
智谱市值首次突破1万亿港元,股价年内涨超20倍

智谱市值首次突破1万亿港元,股价年内涨超20倍

金融界
2026-06-22 10:11:59
“切断和中国的关系,日本没有未来”

“切断和中国的关系,日本没有未来”

环球时报国际
2026-06-22 09:57:36
乌克兰摧毁克里米亚大桥港口油库!打掉俄军防空系统

乌克兰摧毁克里米亚大桥港口油库!打掉俄军防空系统

项鹏飞
2026-06-21 21:24:30
世界杯官方发土味喜报祝贺中国裁判,网友:官方太会整活了

世界杯官方发土味喜报祝贺中国裁判,网友:官方太会整活了

大象新闻
2026-06-21 22:25:38
八成以上考生弃考,南京大学“强基”再次遇冷,原因揭秘

八成以上考生弃考,南京大学“强基”再次遇冷,原因揭秘

史海流年号
2026-06-20 21:04:12
80后的离婚率真的太吓人了!

80后的离婚率真的太吓人了!

微微热评
2026-06-22 05:58:58
18岁斩世界杯首球!西班牙2亿天才连创5大纪录 超越梅西+比肩贝利

18岁斩世界杯首球!西班牙2亿天才连创5大纪录 超越梅西+比肩贝利

我爱英超
2026-06-22 00:52:15
江苏连云港通报:废品收购站经营者已被采取刑事拘留强制措施

江苏连云港通报:废品收购站经营者已被采取刑事拘留强制措施

观察者网
2026-06-22 10:47:09
65岁陈冲回上海独居养老,撕开中老年体面生活,原来还能这么活

65岁陈冲回上海独居养老,撕开中老年体面生活,原来还能这么活

离离言几许
2026-06-20 20:36:11
大衣哥再登热搜!演出结束与友人聚餐,面前放满光瓶白酒,引热议

大衣哥再登热搜!演出结束与友人聚餐,面前放满光瓶白酒,引热议

火山詩话
2026-06-22 08:06:53
雷军回应小女孩吐槽冲上热搜:他的解释,让全网观众匪夷所思!

雷军回应小女孩吐槽冲上热搜:他的解释,让全网观众匪夷所思!

李晚书
2026-06-22 10:46:30
北航杨昀清华本硕之谜:无高中档案,她究竟是怎么跨进清华的

北航杨昀清华本硕之谜:无高中档案,她究竟是怎么跨进清华的

十为先生
2026-06-21 21:56:48
2026-06-22 14:19:00
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
909100文章数 5092899关注度
往期回顾 全部

健康要闻

吃粽子的3条保胃法则,消化科医生推荐

头条要闻

南派三叔新剧上线10分钟被盗版 还遭盗版者私信嘲笑

头条要闻

南派三叔新剧上线10分钟被盗版 还遭盗版者私信嘲笑

体育要闻

法国球星祝中国队下届世界杯取得好成绩

娱乐要闻

韩红帮冯小刚宣传,结果翻车了…

财经要闻

“床垫界的特斯拉”破产了

科技要闻

智谱盘中狂飙超40%,市值破万亿港元

汽车要闻

全面提升 全新理想L8 livis将家用舒适再进化

态度原创

游戏
教育
家居
本地
公开课

《GTA6》新消息确认!PS第一方独占大作演员参演

教育要闻

动动脑,请问赚了还是赔了

家居要闻

绿意盎然 自然之境

本地新闻

龙腾资江 韵动邵阳

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版