网易首页 > 网易号 > 正文 申请入驻

AI华佗?港中大,深圳大数据研究院提出医疗推理大模型HuatuoGPT-o1

0
分享至

编辑 | 白菜叶

OpenAI o1 的突破凸显了通过增强推理能力来提高自然语言大模型(LLM)的应用潜力。然而,大多数推理研究都集中在数学任务上,而医学等领域尚未得到充分探索。

医学领域虽然不同于数学,但鉴于医疗保健的高标准,它也需要强大的推理能力来提供可靠的答案。然而,与数学不同,验证医学推理具有挑战性。

为了解决这个问题,香港中文大学,深圳市大数据研究院的研究人员提出了可验证的医学问题,使用医学验证器来检查模型输出的正确性。

同时,该团队推出了 HuatuoGPT-o1,这是一款能够进行复杂推理的医学 LLM,仅使用 40K 个可验证问题,其表现就优于医学专用基线。

该研究以「HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs」为题,于 2024 年 12 月 25 日发布在arXiv预印平台。

类似 o1 的方法在医学等专业领域的应用仍未得到充分探索。医疗任务通常涉及复杂的推理。

在现实世界的医疗诊断或决策中,医生往往需要仔细斟酌。这一关乎生命的重要领域要求缜密的思考,确保得出更为可靠的结论。

并且,医疗领域具有独特的优势:与一般领域相比,医疗领域的范围通常较窄,且更易于验证。此外,医疗推理与金融、法律、教育和安全等领域的实际应用密切相关,使得该领域的进展能够轻松地迁移到其他领域。

HuatuoGPT-o1

尽管存在这些优势,医学推理中的一个关键挑战在于验证其思维过程,这一过程通常缺乏清晰的步骤。受数学问题通过其结果进行验证的启发,研究人员从具有挑战性的闭卷医学考试题目中重构了 40,000 个可验证的医学问题。

这些可验证问题的特点是开放式且具有唯一的客观真实答案,使得大型语言模型(LLM)验证器能够检查解决方案的正确性。

图示:利用具有挑战性的闭卷考试题目构建可验证医学问题;验证器将模型的答案与真实答案进行对比检查。(来源:论文)

这为推进医学复杂推理提供了一种方法:

第一阶段:学习复杂推理

该团队通过基于验证器反馈(正确或错误)的策略搜索构建复杂推理轨迹。大型语言模型(LLM)首先初始化一个思维链(CoT)。如果验证器拒绝当前的思维链,模型将通过应用从回溯、探索新路径、验证和修正中采样的策略来扩展思维链,直到提供正确答案。成功的推理轨迹随后用于微调大型语言模型,使其能够发展出体现迭代反思的复杂推理能力。

第二阶段:通过强化学习增强复杂推理

在掌握复杂推理技能后,强化学习(RL)进一步优化这一能力。具体而言,验证器提供的稀疏奖励通过近端策略优化(PPO)算法引导模型进行自我改进。

通过这种方法,研究人员提出了 HuatuoGPT-o1,这是一种能够生成长思维链(CoT)以识别错误、尝试不同策略并优化答案的医学大型语言模型(LLM)。

HuatuoGPT-o1(仅使用 40K 数据点)在 8B 模型上实现了医学基准测试 8.5 分的提升。此外,70B 版本的 HuatuoGPT-o1 在多个医学基准测试中优于其他开源通用及医学专用 LLM。

图示:医学基准测试的主要结果。(来源:论文)

该研究表明,与标准方法或非思维链方法相比,复杂推理能够增强医学问题解决能力并提升强化学习(RL)性能。

总之,该研究显著提升了大型语言模型的医学推理能力。实验表明,复杂推理能够显著提升医学问题解决能力,并从强化学习中明显受益。

图示:中医基准测试结果。(来源:论文)

在中医场景中的额外验证进一步证明了该方法在其他领域的适应性。研究人员相信,该方法能够超越数学领域,增强特定领域的推理能力,能够激发医学和其他专业领域的推理进步。

模型地址:https://github.com/FreedomIntelligence/HuatuoGPT-o1

论文链接:https://arxiv.org/abs/2412.18925

相关内容:https://x.com/_akhaliq/status/1873572891092283692

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国队包揽冠亚军!首届世界无人机足球锦标赛闭幕

中国队包揽冠亚军!首届世界无人机足球锦标赛闭幕

澎湃新闻
2025-11-19 19:40:27
别被新闻给误导了,这才是高市早苗的真相

别被新闻给误导了,这才是高市早苗的真相

少年一白
2025-11-18 12:03:56
罗永浩评俞敏洪: 铁公鸡只是小气、猥琐、虚伪,但人不是很坏!

罗永浩评俞敏洪: 铁公鸡只是小气、猥琐、虚伪,但人不是很坏!

玖宇维
2025-11-19 21:31:00
孙颖莎拿两分难救主!山东女队3-2河北队夺冠,陈梦单双打均获胜

孙颖莎拿两分难救主!山东女队3-2河北队夺冠,陈梦单双打均获胜

叮咚体坛
2025-11-19 21:35:10
全世界找不出第二个国家,能把所有邻国都得罪遍,还都是领土问题

全世界找不出第二个国家,能把所有邻国都得罪遍,还都是领土问题

扶苏聊历史
2025-11-18 17:47:25
森林北也没想到,公布体检报告后,口碑一夜之间反转,被骂翻了!

森林北也没想到,公布体检报告后,口碑一夜之间反转,被骂翻了!

心静物娱
2025-11-19 11:19:59
中日打不起来——实力、舆论与“打嘴炮”的深层逻辑

中日打不起来——实力、舆论与“打嘴炮”的深层逻辑

郑说
2025-11-19 11:08:49
糟糕,勇士队霍福德的问题需要交易解决

糟糕,勇士队霍福德的问题需要交易解决

好火子
2025-11-20 04:11:52
高处坠落事故致1死,上海竣已建筑工程有限公司8.22事故报告公布

高处坠落事故致1死,上海竣已建筑工程有限公司8.22事故报告公布

中国基建报
2025-11-19 15:19:04
恋情实锤?霍启山携女星娜然出席弟弟婚礼,二人全程形影不离

恋情实锤?霍启山携女星娜然出席弟弟婚礼,二人全程形影不离

锋哥与八卦哥
2025-11-19 12:50:30
刘景扬破PB夺金!弥补107天前遗憾,名记:国内最强的就是她

刘景扬破PB夺金!弥补107天前遗憾,名记:国内最强的就是她

奥拜尔
2025-11-19 22:12:45
小米市值,两个月跌没了整个“蔚小理零”

小米市值,两个月跌没了整个“蔚小理零”

第一财经资讯
2025-11-19 18:32:09
40岁C罗陪同特朗普在白宫散步视频引热议,球迷:真的有排面

40岁C罗陪同特朗普在白宫散步视频引热议,球迷:真的有排面

侧身凌空斩
2025-11-19 22:38:26
牛奶加热就变“毒”?院士提醒:热牛奶的5个误区,早了解早受益

牛奶加热就变“毒”?院士提醒:热牛奶的5个误区,早了解早受益

冷眼看世界728
2025-11-19 16:30:03
陪玩陪睡已过时,拳头塞嘴、集体开嫖、戚薇遭殃,阴暗面彻底曝光

陪玩陪睡已过时,拳头塞嘴、集体开嫖、戚薇遭殃,阴暗面彻底曝光

冷紫葉
2025-11-19 14:56:46
全体医务、药学人员们请做好失业的准备吧!

全体医务、药学人员们请做好失业的准备吧!

小药说药
2025-11-19 07:03:16
太恶劣!上海数名蔚来车主同时被坑惨!消费者寒心

太恶劣!上海数名蔚来车主同时被坑惨!消费者寒心

看看新闻Knews
2025-11-19 21:52:06
高市早苗别光在台海问题上嘴炮了,该低头看看日本内政了

高市早苗别光在台海问题上嘴炮了,该低头看看日本内政了

合赞历史
2025-11-19 14:57:21
“甲流”来势汹汹,张文宏提醒:最好不要做3件事,以免身体不适

“甲流”来势汹汹,张文宏提醒:最好不要做3件事,以免身体不适

今日养生之道
2025-11-20 04:57:08
第三轮第五批中央生态环境保护督察全部实现督察进驻

第三轮第五批中央生态环境保护督察全部实现督察进驻

生态环境部
2025-11-19 15:12:20
2025-11-20 07:43:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1156文章数 219关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日本首次出口具有杀伤力武器 专家:危险信号

头条要闻

日本首次出口具有杀伤力武器 专家:危险信号

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

艺术
手机
本地
家居
游戏

艺术要闻

周恩来夫妇珍贵合影集,太难得一见!

手机要闻

OPPO Find X9系列海外卖爆!销量接近上代2倍

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

家居要闻

水岸美学 书香人文生活

我的小众XP,在“玩法正确”面前一无是处?

无障碍浏览 进入关怀版