网易首页 > 网易号 > 正文 申请入驻

麻省理工研究:即便建议有误,患者仍更信任AI的医疗建议而非医生

0
分享至

美国正面临医生短缺危机。在权威期刊《新英格兰医学杂志》10月刊中,哈佛医学院教授Isaac Kohane提到,马萨诸塞州是美国人均医生数量最多的州,但该州多家大型医院已拒绝接收新患者。

Kohane写道,数据显示这一情况只会愈发严峻。因此,“无论是出于绝望、失望还是好奇,已有大量患者开始使用AI获取医疗建议,包括二次诊断意见,有时甚至带来了显著的治疗效果。”

对于人们愈发倾向于通过ChatGPT等生成式AI系统寻求医疗建议的趋势,医疗界既感兴趣,又略带担忧。

他们确实应该担忧,因为人们似乎更倾向于相信机器人给出的医疗建议,而非医生,哪怕机器人给出的建议“质量不高”。

01.测试人们对AI生成医疗建议的看法

6月,《新英格兰医学杂志》发表了一项题为《即便准确性低,人们仍过度信任AI生成的医疗建议》的研究。麻省理工学院媒体实验室、斯坦福大学、康奈尔大学、波士顿贝斯以色列女执事医疗中心及IBM的研究人员Shruthi Shekar与团队,通过OpenAI早期的GPT-3模型,测试了人们对AI医疗建议的反应。

Shekar团队从健康网站HealthTap提取了150个医疗问题,并用GPT-3生成答案。研究人员招募了一组医生为AI答案的准确性打分,对每个答案标注“正确”、“错误”或“不确定”。

随后,团队整理出三组数据集,每组包含30个问答对:第一组是医生的实际回复,第二组是“高准确性AI回复”(即医生大多判定为正确),第三组是“低准确性AI回复”(即医生大多判定为“错误”或“不确定”)。

研究团队开展了三项实验:

在实验一中,研究人员从Prolific网站在线招募100名受试者,向其随机展示90组问答对中的10组,不告知来源是医生还是AI。研究人员要求受试者以1-5分制评估自己对问答对的理解程度,并判断该内容来源是人类还是AI的确定性。



在实验二中,另一组100名受试者需评估答案是否“有效”,并通过选择题回答自己是否愿意遵循给出的医疗建议,但该组同样未被告知内容来源是医生还是AI。

内容的来源标签是随机分配的,这意味着受试者可能会将AI撰写的内容误认为是医生所写,或认为是医生借助AI完成的。

02.人们分辨不出是AI给出的建议

研究人员随后分析了受试者在每项实验中的表现。

在实验一中,受试者在猜测问答对是来自人类还是人工智能时表现不佳,实际上他们的猜测准确率与随机猜测相差无几。

当被要求判断医疗回复的来源(医生撰写或AI生成)时,受试者对“医生回复”的来源判断准确率平均为50%,对“高准确性AI回复”的判断准确率为53%,对“低准确性AI回复”的判断准确率为50%。

即使答错了,人们也非常自信。Shekar团队指出,尽管受试者判断表现不佳,但他们对自己“区分AI与人类回复”的准确性深信不疑。“受试者判断正确与错误时的自信程度,并无显著差异。”

在实验二中,受试者认为“AI生成的回复比医生回复更有效”,甚至“低准确性AI回复”与“医生回复”的表现也非常接近。

需注意的是,这些“低准确性AI回复”是医生判定为“错误”或至少“可能不准确”的内容。

可信度方面也呈现类似趋势:受试者认为“AI回复的可信度显著高于医生回复”,且“对三类回复(即高准确性AI、医生、低准确性AI)的遵循意愿相对一致”。

03.人们会被引导相信AI就是医生

在实验三中,研究人员随机标注内容来源(AI、医生、医生借助AI),结果显示“医生”标签对受试者影响极大。“当标注为‘此医疗问题回复由医生提供’时,与回答标注为来自AI的情况相比,受试者倾向于认为高准确性AI生成的回答明显更可信。”

事实证明,就连医生也可能被误导。在后续测试中,Shekar团队让医生评估问答对,部分告知来源,部分不告知。



若告知来源,医生会“认为AI生成回复的准确性显著更低”;若不告知来源,“他们对准确性的评估则无显著差异”。研究人员称,这表明医生自身也存在偏见。

综上,在医疗建议领域,普通人甚至医生都无法区分内容来自AI还是人类。且总体而言,普通人对AI回复的信任度高于医生,即便AI回复质量不高甚至有误也是如此。更值得注意的是,若引导他们相信回复来自医生,这种信任度还会进一步提升。

04.信任AI建议的风险

Shekar及其团队对此深感担忧:“无论准确性如何,受试者均无法区分AI生成回复与医生回复的质量;同时,他们对‘低准确性AI回复’的评价极高,认为其与医生回答相比不相上下,甚至更胜一筹。这构成了令人担忧的威胁……在这种危险场景下,不准确的AI医疗建议可能被视为与医生建议同样可信。当不知道回复来源时,受试者愿意信任、认可AI生成的建议,甚至依据其采取行动,就像对待医生建议一样,即便AI回复中包含不准确信息。”

Shekar团队总结称,“专家监督至关重要,既要最大化AI的独特能力,也要最小化风险”,这包括明确告知建议的来源。研究结果还表明,将AI整合到医疗信息传递中,需要比此前设想的更细致的方法。

然而,结论变得更为复杂,因为具有讽刺意味的是,在实验三中,若受试者认为回复来自“借助AI的医生”,他们的评价就不那么积极了。研究人员指出,这一事实让“结合AI全面回复与医生信任度”的理想解决方案变得更加复杂。

05.探索AI对医疗的帮助

可以肯定的是,有证据表明,若由医生使用,AI在诊断等任务中可发挥辅助作用。

去年12月,《自然・医学》发表了一项由斯坦福大学生物医学信息学研究中心及合作机构开展的研究。该研究在模拟环境(非真实患者)中测试了医生在使用GPT-4或传统医生资源诊断病情时的表现。该研究对人工智能持非常积极的态度。

研究主要作者Ethan Goh及团队写道:“使用大语言模型的医生,其诊断得分显著高于使用传统资源的医生。”

综合所有研究来看,若人们倾向于信任AI,且AI已被证明在某些情况下能帮助医生,那么医疗领域下一步需要应对的,便是AI在实际应用中究竟能带来帮助还是危害。

正如哈佛教授Kohane在其评论文章中所言,最终关键在于医疗质量,以及AI是否能提供帮助。

“对于AI,我们难道不应该将患者使用这些程序所取得的健康结果与我们当前基层医生短缺的系统所取得的结果进行比较吗?”

原文来源于:
1.https://www.zdnet.com/article/patients-trust-ais-medical-advice-over-doctors-even-when-its-wrong-study-finds/
中文内容由元宇宙之心(MetaverseHub)团队编译,如需转载请联系我们。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苹果首批iPhone 17 Pro做工感人:拼接缝隙宽度竟差了一倍

苹果首批iPhone 17 Pro做工感人:拼接缝隙宽度竟差了一倍

快科技
2025-09-18 08:50:53
首发抢到就是赚到?iPhone 17 系列加价行情大起底,这些机型最值钱

首发抢到就是赚到?iPhone 17 系列加价行情大起底,这些机型最值钱

辉哥说动漫
2025-09-20 03:20:35
发臭的午餐送到学校才被发现!要查的话,整个环节都应该彻查清楚

发臭的午餐送到学校才被发现!要查的话,整个环节都应该彻查清楚

有范又有料
2025-09-19 11:28:51
库明加是追梦拳击普尔事件的告密者?网友:拍视频的就是他经纪人

库明加是追梦拳击普尔事件的告密者?网友:拍视频的就是他经纪人

直播吧
2025-09-19 18:14:03
上海生育率跌破东京,两对夫妻生不出1个娃?小学要成片消失?

上海生育率跌破东京,两对夫妻生不出1个娃?小学要成片消失?

二大爷观世界
2025-09-19 12:38:54
世界级名帅里皮,为何带不动国足?韦世豪才是这背后的罪魁祸首

世界级名帅里皮,为何带不动国足?韦世豪才是这背后的罪魁祸首

坦然风云
2025-08-23 17:57:40
2分!为何宫鲁鸣还坚持用李缘?谁注意他赛后一番话,球迷理解了

2分!为何宫鲁鸣还坚持用李缘?谁注意他赛后一番话,球迷理解了

体育就你秀
2025-09-19 16:13:54
DeepSeek创始人梁文锋,再次震动全球AI领域:R1训练真29.4万美

DeepSeek创始人梁文锋,再次震动全球AI领域:R1训练真29.4万美

策略述
2025-09-19 15:15:46
贝尼特斯:我在利物浦六年在埃弗顿三个月,德比我支持利物浦

贝尼特斯:我在利物浦六年在埃弗顿三个月,德比我支持利物浦

懂球帝
2025-09-20 04:49:14
国产GPU破局时刻:砺算7G100硬刚RTX 4060,图形赛道杀出黑马!

国产GPU破局时刻:砺算7G100硬刚RTX 4060,图形赛道杀出黑马!

O哎财经
2025-09-19 11:16:30
印度将成为世界的灾难!大量没有节制的人口增长,将成为殖民根源

印度将成为世界的灾难!大量没有节制的人口增长,将成为殖民根源

大道无形我有型
2025-08-09 12:27:40
今夜雨势明显!三台风“共舞”,需关注对申城的影响→

今夜雨势明显!三台风“共舞”,需关注对申城的影响→

上海徐汇
2025-09-19 15:43:24
11斤的榴莲无法带上飞机,一家五口机场外15分钟吃完,当事人:打嗝都是榴莲味,半年内不想再吃了

11斤的榴莲无法带上飞机,一家五口机场外15分钟吃完,当事人:打嗝都是榴莲味,半年内不想再吃了

观威海
2025-09-19 11:33:02
翟欣欣苏享茂离婚协议现场曝光?签字后他长舒一口气,满脸的无奈

翟欣欣苏享茂离婚协议现场曝光?签字后他长舒一口气,满脸的无奈

谈史论天地
2025-09-19 17:15:09
女优小野坂唯香饰演人妻,与男同学见面厕所战斗!

女优小野坂唯香饰演人妻,与男同学见面厕所战斗!

葫芦哥爱吐槽
2025-09-20 02:22:43
不管你承不承认,女人过了50岁,基本都会出现以下情况,看你有吗

不管你承不承认,女人过了50岁,基本都会出现以下情况,看你有吗

雪雪呀
2025-09-09 18:24:54
731全球上映:日本网友评论语出惊死人,你们怎么看?

731全球上映:日本网友评论语出惊死人,你们怎么看?

花心电影
2025-09-19 17:57:51
上海交大医学院,将迎来第14个附属医院

上海交大医学院,将迎来第14个附属医院

医学界
2025-09-19 11:32:37
日本房价崩盘回忆:当年那些选择“不买房”的人,后来都怎么样了

日本房价崩盘回忆:当年那些选择“不买房”的人,后来都怎么样了

揽星河的笔记
2025-09-17 19:45:54
连续3次打破世界纪录!湖南工业职业技术学院校友成为大国工匠

连续3次打破世界纪录!湖南工业职业技术学院校友成为大国工匠

潇湘晨报
2025-09-18 21:44:36
2025-09-20 05:04:49
元宇宙之心 incentive-icons
元宇宙之心
元宇宙第一入口 ,引领新科技
407文章数 150关注度
往期回顾 全部

健康要闻

内分泌科专家破解身高八大谣言

头条要闻

山东入室被抢男婴到15岁没见过汽车 养家从不让他出门

头条要闻

山东入室被抢男婴到15岁没见过汽车 养家从不让他出门

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

习近平同美国总统特朗普通电话

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

旅游
游戏
家居
房产
健康

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

和三月七一样爱自拍,还恶趣味让叽米加班,长夜月越来越神秘了

家居要闻

公共艺术 限时体验打造

房产要闻

全民撑广州,不止于赛场!与“有态度”者共筑城市骄傲

内分泌科专家破解身高八大谣言

无障碍浏览 进入关怀版