网易首页 > 网易号 > 正文 申请入驻

o1医学领域大胜GPT-4,性能暴涨!顶尖华人团队激动发文:离AI医生越来越近了

0
分享至

新智元报道

编辑:LRS

【新智元导读】OpenAI的o1模型在通用语言任务上展现了显著的性能,最新测评展现了o1模型在医学领域的表现,主要关注理解、推理和多语言能力,结果大幅超越以往的模型!

大语言模型在刚发布的时候,以其任务、领域通用性和流畅的文本生成能力成功破圈,不过当时的技术还只能应用在一些比较简单的任务上。

而随着思维链等提示技术出现,尤其OpenAI最新发布的o1模型更是第一个采用强化学习策略的内化思维链技术的,把大模型解决复杂问题和推理能力提高了全新的高度。

虽然o1模型在各种通用语言任务上表现出了惊人的强大能力,但其在医学等专业领域的表现仍然未知。

来自加州大学圣克鲁兹分校、爱丁堡大学和美国国立卫生研究院的华人团队共同发布了一篇报告,对o1在不同医疗场景下进行了全面的探索,考察了模型在理解(understanding)、推理(reasoning)和多语言(multilinguality)方面的能力。

论文链接:https://arxiv.org/pdf/2409.15277

数据链接:https://ucsc-vlaa.github.io/o1_medicine/

该评估涵盖 6 个任务,使用来自 37 个医学数据集的数据,其中包括两个基于《新英格兰医学杂志》(NEJM) 和《柳叶刀》专业医学测验的高难度问答任务。

与MedQA 等标准医学问答基准相比,这些数据集与临床联系得更紧密,可以更有效地应用于真实世界的临床场景中。

对o1模型的分析表明, LLMs推理能力的增强更有利于模型理解各种医疗指令,也能够提升模型在复杂的临床场景进行推理的能力。

值得注意的是,o1模型在19个数据集和两个复杂问答场景中的准确率平均超过了之前GPT-4 6.2% 和 6.6%

与此同时,研究人员发现模型能力和现有评估协议中存在一些缺陷,包括幻觉、多语言能力不一致以及评估指标不一致。

全面评估大模型的医学能力

在提升模型推理能力上,思维链(CoT)提示是一种常用的提示策略,利用模型内部的推理模式来增强解决复杂任务的能力。

o1模型更进一步,将CoT过程嵌入到模型训练中,整合了强化学习,展现了强大的推理性能;不过o1模型尚未经过专业领域数据的评估,其在特定任务上的性能仍然未可知。

现有的医学领域LLM基准测试通常只会评估模型的特定能力,比如知识和推理、安全性和多语言,彼此之间的测验比较孤立,无法对o1这样的高级模型进行全面评估。

为了确保全面评估,研究人员收集了涵盖上述方面的各种医学任务和数据集,并在流程中探索了三种提示策略,包括:

1. 直接提示,指导大型语言模型直接解决问题

2. 思维链,要求模型在生成最终答案之前逐步思考

3. 少样本提示,为模型提供了几个示例,以便在运行中学习输入输出映射。

最后,使用适当的度量标准来衡量生成的回复与真实答案之间的差异。

侧重点和任务

研究人员利用35个现有的数据集,并为评估创建了2个额外的具有更高难度的数据集,然后将所有37个数据集分类为3个方面6个任务,以便更清晰地进行评估和分析,能够了解模型在特定领域的表现如何。

理解(understanding),指的是模型利用其内部医学知识来理解医学概念的能力。

例如,在概念识别(concept recognition)任务中,模型需要从文章或诊断报告中提取或详细阐述医学概念;在文本摘要中,模型需要理解复杂文本中的概念以生成简洁的摘要。

推理(reasoning),测试模型进行多步骤逻辑思考以得出结论的能力。

在问答任务中,模型需要遵循提示指令根据问题中提供的医学信息进行推理,从多个选项中选择正确的答案。

除了常见的问答数据集,研究人员还收集了来自《柳叶刀》、《新英格兰医学杂志》(NEJM)和Medbullets的真实世界临床问题,以更好地评估LLMs的临床效用。

在临床建议任务中,模型需要根据患者的信息提供治疗建议或诊断决策。在AI Hospital和AgentClinic数据集中,模型需要充当医疗智能体;在MedCalc-Bench数据集中,模型需要进行数学推理并计算答案。

多语言(Multilinguality),输入指令和输出答案的语言不同。

XMedBench数据集要求LLMs用六种语言回答医学问题,包括中文、阿拉伯语、印地语、西班牙语、中文和英语;在AI Hospital数据集,模型需要使用中文进行问答。

评估指标

准确率(Accuracy),用于直接衡量模型生成的答案与真实答案完全匹配的百分比。

主要用于真实答案是一个单词或短语的情况,包括多项选择问题数据集、MedCalcBench数据集以及临床建议和概念识别数据集。

F1分数,精确度和召回率的调和平均值,用于模型需要选择多个正确答案的数据集。

BLEU和ROUGE,衡量生成回复与真实答案之间相似性的自然语言处理度量标准,对评估中所有自由形式生成任务使用BLEU-1和ROUGE-1

AlignScore,衡量生成文本事实一致性的度量标准,对所有无指定格式生成任务使用AlignScore来评估模型幻觉的程度。

Mauve,衡量生成文本和人类编写文本分布之间差异的度量标准,用于所有无指定格式生成任务,指标的数值范围为0到100,数值越高表示模型输出的质量越高。

实验结果

提示策略

对于知识问答任务、智能体任务、医学计算任务和多语言相关任务,使用直接提示评估方法;

对于其他来自MedS-Bench的任务,遵循基准设置中的三样本提示策略。

根据OpenAI的声明,常见的提示技术,如思维链(CoT)和上下文中的示例,对于提升o1性能来说帮助并不大,因为模型已经内置了隐式的CoT。

为了进一步验证这一说法,研究人员在评估中增加了几种高级提示的效果,包括CoT、自我一致(Self Consistency)和Reflex

除了选择GPT-3.5、GPT-4、o1模型进行评估外,研究人员还选择了两个开源模型:一个是用医学中心数据训练的大型语言模型MEDITRON-70B,以及目前最新和最强大的开源大型语言模型Llama3-8B

主要结果

o1在临床理解方面的能力得到了增强

o1模型在发布时,OpenAI主要强调了其在知识和推理能力方面的显著提升,如数学问题求解和代码生成,从实验结果中也可以观察到,这种能力也能够迁移到特定的临床知识理解上。

可以看到,在大多数临床任务的理解方面,o1的表现优于其他模型,例如,在5个使用F1作为度量的概念识别数据集上,o1的平均上分别比GPT-4和GPT-3.5高出7.6%和26.6%,在常用的BC4Chem数据集上平均提高了24.5%

在摘要任务上,o1在ROUGE-1得分上比GPT-4和GPT-3.5分别提高了2.4%和3.7%,证明了其在现实世界临床理解方面的增强能力,结果也证实了大型语言模型在通用自然语言处理能力方面的进展可以有效地转化为医学领域的增强模型理解。

o1模型在临床诊断场景中强大的推理能力

在推理相关的任务上,o1模型也展现出了其在现实世界诊断情境中的优势。

在新构建的、具有挑战性的问答任务NEJMQA和LancetQA中,o1在各自的数据集上平均准确率比GPT-4(79.6%)和GPT-3.5(61.5%)分别提高了8.9%和27.1%

o1在数学推理能力上的另一个值得注意的改进是,将MedCalc-Bench的基线提升到了34.9%,比GPT-4高出显著的9.4%

在涉及多轮对话和环境模拟的更复杂的推理场景中,o1在AgentClinic基准测试中的表现超过了GPT-4和GPT-3.5,在MedQA和NEJM子集上分别获得了至少15.5%和10%的准确率提升,得分分别为45.5%和20.0%

除了更高的准确率外,o1的答案也更简洁、直接,而GPT-4则会于在错误的答案旁边生成幻觉性的解释。

研究人员认为o1在知识和推理方面的改进主要归因于训练过程中使用增强的数据和基础技术(如CoT数据和强化学习技术)。

基于上述乐观结果,研究人员在论文中激动地表示:有了o1模型,我们距离一个全自动AI医生已经越来越近了。

参考资料:

https://arxiv.org/abs/2409.15277

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
记者:巴黎成功是因为主帅恩里克获得绝对权力,皇马该反思

记者:巴黎成功是因为主帅恩里克获得绝对权力,皇马该反思

林子说事
2026-05-31 13:26:20
徐州女幼师用热熔枪连烫两次孩子嘴唇!多名家长称早发现孩子有伤

徐州女幼师用热熔枪连烫两次孩子嘴唇!多名家长称早发现孩子有伤

听心堂
2026-05-29 21:22:08
一念万劫!加布里埃尔最后一罚踢飞,伤心落泪,队友纷纷送上安慰

一念万劫!加布里埃尔最后一罚踢飞,伤心落泪,队友纷纷送上安慰

侧身凌空斩
2026-05-31 03:27:55
人民日报点名:当下最畸形的教育乱象,正在毁掉新一代孩子

人民日报点名:当下最畸形的教育乱象,正在毁掉新一代孩子

朗威谈星座
2026-05-31 13:03:58
以为是养身,实际最耗阳气3个行为?希望你一个也没占!

以为是养身,实际最耗阳气3个行为?希望你一个也没占!

梳子姐
2026-05-30 09:34:41
赛季5冠王!20球11助卫冕欧冠,登贝莱冲击世界杯+金球奖两连庄

赛季5冠王!20球11助卫冕欧冠,登贝莱冲击世界杯+金球奖两连庄

代古龙侃球
2026-05-31 12:46:41
“碳水脸”引争议,网友:令人不适的网络词!

“碳水脸”引争议,网友:令人不适的网络词!

中国日报
2026-05-21 15:28:00
王少杰意难平,广东队先拒绝2000万报价,后拒绝用杜润旺交易

王少杰意难平,广东队先拒绝2000万报价,后拒绝用杜润旺交易

只扣篮的教练
2026-05-31 09:57:58
“你的教资不想要了?”男老师抱着学生拍视频,网友都看不下去了

“你的教资不想要了?”男老师抱着学生拍视频,网友都看不下去了

妍妍教育日记
2026-05-31 09:25:07
马刺客场抢七击败雷霆闯进总决赛!SGA空砍35分 文班亚马22分

马刺客场抢七击败雷霆闯进总决赛!SGA空砍35分 文班亚马22分

Emily说个球
2026-05-31 10:48:43
从小记者到千亿富婆,家世普通大专都没读完的甘比,如何做到的?

从小记者到千亿富婆,家世普通大专都没读完的甘比,如何做到的?

品茗赏娱
2026-05-31 09:30:19
汽车大局已定?明后年,拥有两辆以上燃油车的车主,坚持4不做!

汽车大局已定?明后年,拥有两辆以上燃油车的车主,坚持4不做!

写下一文一墨
2026-05-31 10:52:15
女教师“辞职信”火了,一句面子话都没写,校长看后沉默不语!

女教师“辞职信”火了,一句面子话都没写,校长看后沉默不语!

深度报
2026-05-30 00:29:10
心理学:永远不要在儿女面前,随口说出这两句话,会毁掉孩子一生

心理学:永远不要在儿女面前,随口说出这两句话,会毁掉孩子一生

心理观察局
2026-05-30 07:08:20
释永信四罪并罚,不仅资产、私生子多,还有3位家喻户晓明星徒弟

释永信四罪并罚,不仅资产、私生子多,还有3位家喻户晓明星徒弟

孤芳自赏的小李
2026-05-31 02:13:48
南开院长、中大副院长被撸!耿同学明明赢了,为啥彻底输了?

南开院长、中大副院长被撸!耿同学明明赢了,为啥彻底输了?

大江看潮
2026-05-31 09:37:53
广东女教师跟投诉6次的家长应硬刚后续,直播时哭了

广东女教师跟投诉6次的家长应硬刚后续,直播时哭了

九方鱼论
2026-05-31 12:26:14
下月起,70岁以上老人将遇上四大难题,提早了解早做打算

下月起,70岁以上老人将遇上四大难题,提早了解早做打算

起喜电影
2026-05-31 11:57:41
被中方代表现场“驱逐”,日防相求美防长:有些国家低估了美承诺

被中方代表现场“驱逐”,日防相求美防长:有些国家低估了美承诺

荷兰豆爱健康
2026-05-31 08:45:01
我不是中国人!马来西亚博主疯狂吐槽,别自作多情了,我只是华人

我不是中国人!马来西亚博主疯狂吐槽,别自作多情了,我只是华人

小鋭有话说
2026-05-30 23:12:00
2026-05-31 15:03:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15349文章数 66894关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

男子怀疑妻子出轨在车上装定位:兄弟不给我借钱给她借

头条要闻

男子怀疑妻子出轨在车上装定位:兄弟不给我借钱给她借

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

贾玲最新动作!侯明昊给虞书欣抬轿!

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

游戏
亲子
教育
健康
军事航空

91岁杨老头弃坑《生化危机7》!直言:不吓自己只想快乐

亲子要闻

我国儿童新药连续五年增长,2025年批准138个

教育要闻

四年级简便运算的易错题:掌握方法很easy

尝试干细胞疗法如何避免踩坑?

军事要闻

解放军代表质问日防卫大臣:日本何时道歉

无障碍浏览 进入关怀版