网易首页 > 网易号 > 正文 申请入驻

五大AI问诊实测:一半回答有问题,但人们正在当真

0
分享至

上周,一份医学期刊的论文让硅谷和健康圈同时安静了几分钟——五个最主流的AI聊天机器人,面对250个真实医疗问题,有一半的回答踩了红线。不是答不上来,而是答得流畅、自信、看起来很有道理,实则掺杂着误导甚至潜在危险。

更麻烦的是:普通人根本分不出来。


测试怎么做的,为什么让人不安

研究团队选了ChatGPT、Gemini、Grok、Meta AI和DeepSeek,覆盖了癌症、疫苗、干细胞、营养和运动表现五个领域。这些不是刁钻的医学难题,而是普通人真的会搜的问题——某种疗法有没有用、疫苗安不安全、吃什么能提升运动表现。

设计很刁钻:一半问题是开放式的,比如"干细胞疗法能治我的病吗";另一半是封闭式的,有明确选项限制。结果开放式问题的翻车率高得惊人。而现实中,没人会对着AI做选择题,都是随口一问。

这直接戳破了一个幻觉:我们以为AI在医疗场景"能用",其实边界极其狭窄。

五个关键发现,逐条拆解

1. 流畅≠正确,自信≠可靠

问题回答的" polished and confident"( polished and confident,打磨过的自信感)是最大陷阱。研究显示,机器人输出时几乎不加限定词,不会说"这部分证据较弱"或"学界仍有争议"。它们用同样的语气陈述共识和推测,读者根本无法区分。

这背后是大语言模型的训练目标:预测最可能的下一个词,而非判断真假。医疗场景需要的精确性,和模型的优化方向根本错位。

2. 参考文献是摆设,平均完整度仅40%

很多人信任AI回答,是因为看到文末挂着论文链接。但研究实测发现,引用列表的平均完整度只有40%,没有一个机器人交出完全准确的参考文献。

更糟的是"幻觉引用"——编造的论文、不存在的作者、错配的结论。这些假引用被包装成学术背书,读者顺着链接点过去,要么404,要么发现文不对题。但大多数人不会点。

3. 开放式问题是照妖镜

封闭提示(如"以下哪种说法被FDA批准?")相对安全,因为选项本身限制了发挥空间。但开放式问题让机器人自由组织答案,结果高度问题性内容( highly problematic content)的比例飙升。

现实中,用户提问方式完全是开放式的。"我体检这个指标高了怎么办""朋友推荐的保健品能吃吗"——这些才是真实场景。研究刻意设计的"压力测试",恰恰模拟了日常。

4. 五大产品无一幸免,各有偏科

研究没有公布具体哪家最差,但明确提到五个产品全部出现" flawed or incomplete"( flawed or incomplete,有缺陷或不完整)的回答。这意味着这不是某个模型的技术债,而是当前AI医疗应用的系统性风险。

不同产品的训练数据、对齐策略、安全护栏各有差异,但在复杂医疗语境下,都未能通过基础测试。

5. 研究有局限,但核心结论站得住

作者主动坦承三项限制:只测了五个产品、AI迭代太快、提示设计偏压力测试可能高估风险。但这些是学术严谨性的标准表述,不是给行业开脱。

关键事实是:测试主题是" evidence-based medical topics"( evidence-based medical topics,有循证医学基础的主题),不是前沿争议领域。连这种有标准答案的领域都有一半翻车,更模糊的灰色地带呢?

为什么这件事现在特别危险

研究提到一个已经发生的用户行为迁移:人们" already use AI chatbots like search engines for everyday health information"( already use AI chatbots like search engines for everyday health information,已经在把AI聊天机器人当搜索引擎用,查日常健康信息)。

这不是未来场景,是正在发生的习惯重塑。而搜索引擎至少会给出多个来源、有明确的时间戳、能追溯到原始机构;AI回答则是黑箱生成的单一叙事,带着不可质疑的权威感。

更隐蔽的风险是"答案的半真半假"——机器人会混合可靠证据和薄弱主张,用户被前半句的科学性麻痹,连带接受了后半句的误导。这比完全错误的答案更难识别。

研究者的务实建议,和没说出口的

论文结论很克制:聊天机器人或许能" summarize information or shape follow-up questions"( summarize information or shape follow-up questions,总结信息或帮助形成后续问题),但" still don't look dependable enough for meaningful medical decisions"( still don't look dependable enough for meaningful medical decisions,对于有意义的医疗决策仍不够可靠)。

翻译一下:当搜索引擎的替代品可以,当真医生的替代品不行。

但研究没说的是:这个边界在现实中几乎无法执行。用户不会先查AI、再查文献、最后问医生——大多数人停在第一步。而AI产品的设计逻辑,恰恰在鼓励这种"一站式"依赖。

冷幽默

这项研究最讽刺的注脚是:五个被测产品里,有四个的母公司正在或即将布局医疗健康业务。它们一边向医院卖AI诊断工具,一边在消费端输出"平均40%完整度"的健康建议。或许未来的商业模式是——先用免费聊天机器人制造患者,再用付费医疗AI解决问题。闭环了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
才半个月!全妈回应全红婵退役糟心事发生,陈芋汐的话有人信了

才半个月!全妈回应全红婵退役糟心事发生,陈芋汐的话有人信了

一盅情怀
2026-03-01 16:48:37
德媒:德甲俱乐部越来越不愿意卖球星给拜仁,使其找国外球星

德媒:德甲俱乐部越来越不愿意卖球星给拜仁,使其找国外球星

懂球帝
2026-04-15 18:37:35
东体:加布里埃尔已经返回巴西,梅伦多一直在跟队训练

东体:加布里埃尔已经返回巴西,梅伦多一直在跟队训练

懂球帝
2026-04-15 12:14:32
是时候摊牌了,中方明确信号:要打,战火必须烧进美国本土!

是时候摊牌了,中方明确信号:要打,战火必须烧进美国本土!

史说方休
2026-04-11 01:23:59
伊朗强援已到,特朗普没料到,美军出现“逃离潮”,中方也发话了

伊朗强援已到,特朗普没料到,美军出现“逃离潮”,中方也发话了

面包夹知识
2026-04-15 15:32:12
3名领导干部因破坏营商环境被查处通报

3名领导干部因破坏营商环境被查处通报

吉刻新闻
2026-04-15 12:16:25
何润东确认接受邀请!网友:不敢想象有多燃!

何润东确认接受邀请!网友:不敢想象有多燃!

先锋新闻
2026-04-14 07:35:16
张雪两件事惹争议,要飞越长江,老婆也劝不住,删除回应交警视频

张雪两件事惹争议,要飞越长江,老婆也劝不住,删除回应交警视频

乐天闲聊
2026-04-15 23:18:20
1998年,我娶了一个怀了别人孩子的女教师,新婚夜她交给我一封信

1998年,我娶了一个怀了别人孩子的女教师,新婚夜她交给我一封信

千秋文化
2026-04-11 20:04:55
硬刚欧美 !4月17日的荷兰摩托赛,张雪53号必遭欧美技术阴招?

硬刚欧美 !4月17日的荷兰摩托赛,张雪53号必遭欧美技术阴招?

篮球看比赛
2026-04-15 10:52:11
乒协副主席不好好当,偏要当陪练!马龙带伤一天三练,到底图什么

乒协副主席不好好当,偏要当陪练!马龙带伤一天三练,到底图什么

曹老师评球
2026-04-15 21:17:54
特朗普对华威胁,欲加50%关税?没等中国低头,央行公布黄金储备

特朗普对华威胁,欲加50%关税?没等中国低头,央行公布黄金储备

亿通电子游戏
2026-04-15 19:35:23
网易股权曝光:丁磊持股45.5% 身价2228亿 一年获股息超50亿

网易股权曝光:丁磊持股45.5% 身价2228亿 一年获股息超50亿

雷递
2026-04-15 22:24:34
盲目的大学扩招,正在反噬整个社会

盲目的大学扩招,正在反噬整个社会

凡人志
2026-03-25 01:34:53
趣论:郑钦文未来还能重返世界前10吗?我的观点是并不乐观

趣论:郑钦文未来还能重返世界前10吗?我的观点是并不乐观

网球之家
2026-04-14 23:44:19
巨星范!巴萨欧冠出局 18岁亚马尔没哭:安慰全队 昂首离开

巨星范!巴萨欧冠出局 18岁亚马尔没哭:安慰全队 昂首离开

叶青足球世界
2026-04-15 08:53:36
历史重演?印度前副总统怒斥莫迪:再对抗中国,国家将万劫不复!

历史重演?印度前副总统怒斥莫迪:再对抗中国,国家将万劫不复!

凉湫瑾言
2026-04-15 01:20:47
八千里路云和月大结局:田家泰认张汝贤为干爹,张云魁娶韩小月

八千里路云和月大结局:田家泰认张汝贤为干爹,张云魁娶韩小月

慢半拍sir
2026-04-15 20:38:42
男子持长矛杀邻居后自首,一审被判死刑立即执行!法院:犯罪情节恶劣,罪行极其严重,不足以从轻处罚

男子持长矛杀邻居后自首,一审被判死刑立即执行!法院:犯罪情节恶劣,罪行极其严重,不足以从轻处罚

大风新闻
2026-04-15 13:43:07
朱芳雨做出1个重要决定,广东队签约2米10中锋!

朱芳雨做出1个重要决定,广东队签约2米10中锋!

体育哲人
2026-04-15 16:56:05
2026-04-15 23:47:00
摸鱼算法
摸鱼算法
致力于用最前沿的AI技术,换取更多发呆时间的三十岁青年。
1407文章数 16关注度
往期回顾 全部

科技要闻

ChatGPT十亿用户又怎样?Anthropic直接贴脸

头条要闻

美航母及1万多士兵将抵中东 特朗普:战争或持续至11月

头条要闻

美航母及1万多士兵将抵中东 特朗普:战争或持续至11月

体育要闻

三球准绝杀戴大金链:轰30+10自我救赎

娱乐要闻

谢娜现身环球影城,牵手女儿温馨有爱

财经要闻

业绩失速的Lululemon:"健康"人设崩塌?

汽车要闻

空间丝毫不用妥协 小鹏GX首发评测

态度原创

数码
旅游
游戏
本地
军事航空

数码要闻

明基新款显示器首发12499元:4K专业级色彩校准 根据环境光自动调整

旅游要闻

美翻了!成都植物园100余种月季迎来盛花期

母胎单身26年,但“菲比”是我的娃

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

军事要闻

万斯:对当前美伊局势进展“感到乐观”

无障碍浏览 进入关怀版