网易首页 > 网易号 > 正文 申请入驻

AI华佗?港中大,深圳大数据研究院提出医疗推理大模型HuatuoGPT-o1

0
分享至

编辑 | 白菜叶

OpenAI o1 的突破凸显了通过增强推理能力来提高自然语言大模型(LLM)的应用潜力。然而,大多数推理研究都集中在数学任务上,而医学等领域尚未得到充分探索。

医学领域虽然不同于数学,但鉴于医疗保健的高标准,它也需要强大的推理能力来提供可靠的答案。然而,与数学不同,验证医学推理具有挑战性。

为了解决这个问题,香港中文大学,深圳市大数据研究院的研究人员提出了可验证的医学问题,使用医学验证器来检查模型输出的正确性。

同时,该团队推出了 HuatuoGPT-o1,这是一款能够进行复杂推理的医学 LLM,仅使用 40K 个可验证问题,其表现就优于医学专用基线。

该研究以「HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs」为题,于 2024 年 12 月 25 日发布在arXiv预印平台。

类似 o1 的方法在医学等专业领域的应用仍未得到充分探索。医疗任务通常涉及复杂的推理。

在现实世界的医疗诊断或决策中,医生往往需要仔细斟酌。这一关乎生命的重要领域要求缜密的思考,确保得出更为可靠的结论。

并且,医疗领域具有独特的优势:与一般领域相比,医疗领域的范围通常较窄,且更易于验证。此外,医疗推理与金融、法律、教育和安全等领域的实际应用密切相关,使得该领域的进展能够轻松地迁移到其他领域。

HuatuoGPT-o1

尽管存在这些优势,医学推理中的一个关键挑战在于验证其思维过程,这一过程通常缺乏清晰的步骤。受数学问题通过其结果进行验证的启发,研究人员从具有挑战性的闭卷医学考试题目中重构了 40,000 个可验证的医学问题。

这些可验证问题的特点是开放式且具有唯一的客观真实答案,使得大型语言模型(LLM)验证器能够检查解决方案的正确性。

图示:利用具有挑战性的闭卷考试题目构建可验证医学问题;验证器将模型的答案与真实答案进行对比检查。(来源:论文)

这为推进医学复杂推理提供了一种方法:

第一阶段:学习复杂推理

该团队通过基于验证器反馈(正确或错误)的策略搜索构建复杂推理轨迹。大型语言模型(LLM)首先初始化一个思维链(CoT)。如果验证器拒绝当前的思维链,模型将通过应用从回溯、探索新路径、验证和修正中采样的策略来扩展思维链,直到提供正确答案。成功的推理轨迹随后用于微调大型语言模型,使其能够发展出体现迭代反思的复杂推理能力。

第二阶段:通过强化学习增强复杂推理

在掌握复杂推理技能后,强化学习(RL)进一步优化这一能力。具体而言,验证器提供的稀疏奖励通过近端策略优化(PPO)算法引导模型进行自我改进。

通过这种方法,研究人员提出了 HuatuoGPT-o1,这是一种能够生成长思维链(CoT)以识别错误、尝试不同策略并优化答案的医学大型语言模型(LLM)。

HuatuoGPT-o1(仅使用 40K 数据点)在 8B 模型上实现了医学基准测试 8.5 分的提升。此外,70B 版本的 HuatuoGPT-o1 在多个医学基准测试中优于其他开源通用及医学专用 LLM。

图示:医学基准测试的主要结果。(来源:论文)

该研究表明,与标准方法或非思维链方法相比,复杂推理能够增强医学问题解决能力并提升强化学习(RL)性能。

总之,该研究显著提升了大型语言模型的医学推理能力。实验表明,复杂推理能够显著提升医学问题解决能力,并从强化学习中明显受益。

图示:中医基准测试结果。(来源:论文)

在中医场景中的额外验证进一步证明了该方法在其他领域的适应性。研究人员相信,该方法能够超越数学领域,增强特定领域的推理能力,能够激发医学和其他专业领域的推理进步。

模型地址:https://github.com/FreedomIntelligence/HuatuoGPT-o1

论文链接:https://arxiv.org/abs/2412.18925

相关内容:https://x.com/_akhaliq/status/1873572891092283692

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
彻底撕破脸!谷爱凌坦言:代表中国参赛后,在美被殴打、宿舍被闯

彻底撕破脸!谷爱凌坦言:代表中国参赛后,在美被殴打、宿舍被闯

阿废冷眼观察所
2026-02-23 12:40:50
别看景区人山人海,仔细一算全是穷游,人均消费露馅,消费降级了

别看景区人山人海,仔细一算全是穷游,人均消费露馅,消费降级了

眼光很亮
2026-02-22 10:37:00
贝加尔湖坠车事件:活下来的江苏爸爸,往后的每一天都是煎熬

贝加尔湖坠车事件:活下来的江苏爸爸,往后的每一天都是煎熬

社会日日鲜
2026-02-23 14:05:41
小伙娶48岁大妈,新婚第二天大妈赖床不起,小伙掀开被子愣住了

小伙娶48岁大妈,新婚第二天大妈赖床不起,小伙掀开被子愣住了

一根香烟的少妇
2026-02-23 15:00:03
墨西哥被击毙的毒枭是谁?他领导的集团疯狂报复,当地已如同“鬼城”

墨西哥被击毙的毒枭是谁?他领导的集团疯狂报复,当地已如同“鬼城”

上游新闻
2026-02-23 18:02:45
2028年的AI世界:AI在各方面都超出预期,但经济面目全非

2028年的AI世界:AI在各方面都超出预期,但经济面目全非

知识圈
2026-02-23 13:14:49
半小时12枚导弹击中基辅!利沃夫恐怖袭击:乌克兰最美的花儿凋谢

半小时12枚导弹击中基辅!利沃夫恐怖袭击:乌克兰最美的花儿凋谢

鹰眼Defence
2026-02-23 17:20:48
卡里克执教曼联9场不败,为队史主帅开局第三长不败

卡里克执教曼联9场不败,为队史主帅开局第三长不败

懂球帝
2026-02-24 06:34:06
北京这几天的祭祀活动,硬是把网上的火药桶给点着了

北京这几天的祭祀活动,硬是把网上的火药桶给点着了

魔都姐姐杂谈
2026-02-23 16:39:30
乌克兰无人机侵袭莫斯科空域致航班大面积延误,多位中国游客滞留莫斯科机场10小时,有乘客称赶着回国上班,延误航班正陆续起飞

乌克兰无人机侵袭莫斯科空域致航班大面积延误,多位中国游客滞留莫斯科机场10小时,有乘客称赶着回国上班,延误航班正陆续起飞

极目新闻
2026-02-23 12:06:50
颠覆三观!脱口秀女演员消费亡父,地狱笑话的底线,被她踩得稀碎

颠覆三观!脱口秀女演员消费亡父,地狱笑话的底线,被她踩得稀碎

戗词夺理
2026-02-23 15:35:40
返程注意!气温“跳水”,夜间局部中到大雨 | 天气早知道

返程注意!气温“跳水”,夜间局部中到大雨 | 天气早知道

上海杨浦
2026-02-23 07:50:13
现货黄金重回至5200美元/盎司上方

现货黄金重回至5200美元/盎司上方

财联社
2026-02-23 22:56:19
果然,中国拒绝后,土耳其立马变脸,比亚迪宣布:中国不再吃亏

果然,中国拒绝后,土耳其立马变脸,比亚迪宣布:中国不再吃亏

说故事的阿袭
2026-02-22 23:04:59
直击“中国最大高速收费站”春运免费最后一夜:多车在雨中卡免费最后时刻“压哨”通过,有车主错过后淡定称没专门卡点

直击“中国最大高速收费站”春运免费最后一夜:多车在雨中卡免费最后时刻“压哨”通过,有车主错过后淡定称没专门卡点

极目新闻
2026-02-24 01:28:02
问界通报广东惠州车辆起火事件:非车辆自身原因导致

问界通报广东惠州车辆起火事件:非车辆自身原因导致

界面新闻
2026-02-23 14:05:36
熊黛林这二张照片一副生无可恋的炫耀 不知道郭富诚看后会不会哇噻

熊黛林这二张照片一副生无可恋的炫耀 不知道郭富诚看后会不会哇噻

可乐谈情感
2026-02-24 00:51:51
田震再次挂牌悉尼豪宅, 指导价$1550万! 10年前$1165万购入, 内部曝光, 曾降价$400万

田震再次挂牌悉尼豪宅, 指导价$1550万! 10年前$1165万购入, 内部曝光, 曾降价$400万

澳微Daily
2026-02-23 14:46:03
突变!本菲卡叫停穆里尼奥伯纳乌之行:无缘新闻发布会,助教指挥

突变!本菲卡叫停穆里尼奥伯纳乌之行:无缘新闻发布会,助教指挥

星耀国际足坛
2026-02-23 21:58:46
卡里克神换人!超级替补一剑封喉,曼联1-0复仇埃弗顿重返欧冠区

卡里克神换人!超级替补一剑封喉,曼联1-0复仇埃弗顿重返欧冠区

钉钉陌上花开
2026-02-24 05:57:15
2026-02-24 06:52:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1234文章数 224关注度
往期回顾 全部

科技要闻

智谱、MiniMax合计蒸发近千亿市值,为何?

头条要闻

墨西哥最大毒枭被击毙:喜欢杀人灭门 几乎没人看见过他

头条要闻

墨西哥最大毒枭被击毙:喜欢杀人灭门 几乎没人看见过他

体育要闻

哈登版骑士首败:雷霆的冠军课

娱乐要闻

那艺娜账号被禁止关注,视频已清空!

财经要闻

美国海关将停止征收被裁定违法的关税

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

家居
数码
旅游
教育
公开课

家居要闻

本真栖居 爱暖伴流年

数码要闻

英特尔要回归统一核心设计,预计未来十年推出!

旅游要闻

年轻人挤破头!为啥都往北京环球跑?看完懂了

教育要闻

北大教授透露:70% 职高生农村户口,不是孩子不争气,是现实扎心

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版