来源:市场资讯
(来源:界面新闻)
当地时间4月13日,哈佛医学院附属机构在《JAMA Network Open》发表的一项最新研究显示,大型语言模型(LLM)在面对复杂临床推理任务时表现堪忧。研究人员利用21个主流模型对50个极具挑战性的医学病例进行测试,结果发现,模型在“鉴别诊断”环节表现薄弱,平均有超过80%的病例未能将正确诊断列入初步名单。
研究指出,虽然AI在获得完整检查结果后的最终诊断准确率表现尚可,但在病例早期、信息尚未完全明朗的推理阶段,其纠错和排除干扰项的能力明显不足。即使是目前最先进的模型,也常因无法有效处理临床细微差别而误诊。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.