网易首页 > 网易号 > 正文 申请入驻

AI医疗进入精准化“深水区” :OpenAI医疗评估基准落地、大模型加速变革|AI医疗浪潮㉑

0
分享至

21世纪经济报道记者 闫硕 北京报道

近日,OpenAI推出HealthBench开源基准测试,用于衡量大语言模型在医疗健康领域的性能表现与安全可靠性,引发业内广泛讨论。

根据官方信息,HealthBench由262位来自60个国家/地区执业的医生共同参与构建,整合了5000段真实的医疗对话数据。与以前的狭窄基准不同,HealthBench通过48562个独特的医生编写的评分标准进行有意义的开放式评估,涵盖多个健康背景和行为维度。

有研报分析指出,随着OpenAI推出HealthBench等医疗大模型评估基准的建立和完善,AI医疗模型的性能评估将更加科学、全面,有助于加速AI技术在医疗领域的落地应用,为医疗行业的智能化升级提供有力支持,相关企业有望迎来新的发展机遇。

另一方面,大模型本身也在加速变革。事实上,随着大模型竞争的白热化,竞争的焦点也已进入全新阶段:从早先粗放的参数体量堆砌竞赛,转变为模型效率优化与单位算力下的性能提升。

IQVIA艾昆纬战略规划副总监Barrett Li向21世纪经济报道记者表示,随着大模型的不断进化,以及模型优化方法的不断提升,已经为AI在要求更特殊的专业场景中的更广泛应用拓展了可能性,尤其是对于医药行业的AI应用来说,已显现三大趋势:模型即产品、本地与端侧部署、研发端AI应用的快速拓展。

新的评估测试集

改善人类健康将成为通用人工智能(AGI)的决定性影响之一。如果能够得到有效开发和部署,大语言模型有望拓展健康信息的获取渠道,支持临床医生提供高质量医疗服务,并帮助人们维护自身健康。而评估对于理解模型在医疗场景中的表现至关重要。

OpenAI认为,现有评估仍然存在一些问题,首先,未反映真实场景,脱离了实际医疗互动的复杂性,如仅采用标准化测试或有限临床问题。其次,缺乏专家医学验证,评分标准未经过医疗专家严格审核,难以体现专业医疗判断。此外,也并未预留改进空间,最先进模型已接近“天花板”得分,无法激励持续优化。

也因此,在过去的一年里,OpenAI与60个国家的262名医生合作构建了HealthBench,包括5000个真实的医疗对话数据。HealthBench 的测试样本被分为7个主题和5个评估维度。其中,7个主题包括紧急转诊、专业沟通定制、健康数据任务等方面,5个评估纬度则包含准确性、沟通质量、情境理解等方面。

在HealthBench的基础上,OpenAI还推出了两个特别版本:HealthBench Consensus(共识版)和HealthBench Hard(困难版)。前者包含34个经医生共识验证的、对模型行为表现尤为关键的评估维度;后者则设置了更高难度的评估场景,目前最高得分仅为o3模型的32%,主要被用于挑战模型在复杂医疗情境中的极限表现。

对于HealthBench的可信度,OpenAI开展了HealthBench Consensus(共识版)的元评估,即将模型的打分结果与医生人工打分进行对比。结果表明,7个评估领域中的6个领域,模型打分结果与医生评分的中位数水平高度一致。

有券商分析师向21世纪经济报道记者表示,在医疗等垂直领域,准确性和实际场景的相关性比“流畅对话”更为关键,HealthBench不同于过去大多关注通用大语言模型表现的基准,而是聚焦医疗垂直领域,为医疗领域的AI应用提供更为专业的评估工具,同时也将推动大模型领域建立专业的AI评估标准。

值得一提的是,在HealthBench的测评中可以发现,大模型在医疗领域的应用正迅速发展。比如,2023年推出的GPT-3.5Turbo得分为16%,而2024年5月推出的GPT-4o得分已达到32%,2024年12月推出的o3模型得分更是达到60%。另外,较小规模的模型尤其进步显著,GPT-4.1nano的表现超过GPT-4o,且成本仅为GPT-4o的1/25。

大模型持续优化

根据世界经济论坛发布的《人工智能驱动健康的未来:引领潮流》报告,人工智能是医疗保健的主要变革力量,预计2024年—2032年,AI医疗市场将以每年43%的速度增长,市场规模有望达到4910亿美元。

其中,AI在医疗服务中的应用前景广阔。中信建投证券分析指出,AI可以扩展医疗服务可及性,可应用于诊断前、诊治及诊断后阶段,解决当前医院系统医疗人员短缺和缺乏有效分流等问题,以少量资源实现高效率。此外,AI辅助医生诊疗未来有望降低误诊率的同时,在部分疑难杂症诊疗方面也有望发挥协同作用。

也因此,不仅评估工具在发生变革,大模型本身也在持续优化。当前,AI在医疗领域的应用历经了从规则驱动到数据驱动、从单一任务优化到多模态协同的演变,已进入到多模态融合阶段。

浙商证券分析指出,大模型的多模态能力解决了早期AI医疗存在的信息割裂和数据孤岛等问题,大模型通过“预训练+微调”架构,用统一参数体系处理多模态医疗数据。在临床应用中,借助多模态技术,AI可以实现跨模态数据的理解和动态时序建模,使得AI诊疗与医生的诊疗水平更加接近。

需要指出的是,由于万亿级参数模型高昂的训练成本与当下较低的投资回报比,叠加通用参数的堆砌对专业场景下的模型效率提升遇到了瓶颈,大模型竞争的焦点已从早先粗放的参数体量堆砌竞赛,转向模型效率优化与单位算力下的性能提升。

在应用方面,Barrett Li向记者总结道,随着大模型的不断进化,目前对于医药行业的AI应用来说,几大趋势已经显现:

首先,模型即产品。相比通用大模型在其他行业中相对较低的应用门槛,医药行业高度专业性的场景,对于模型的适配性有着更高的要求。而随着模型训练与针对特定知识库优化的技术与应用逐渐推广,大模型厂商未来预计会逐步关闭对外的API接口,转而将专业化后的模型本身作为产品直接提供给企业用户使用,颠覆现有的套壳应用层。而现有的专业AI软件,也必须逐步增强其底层模型训练的能力以应对这一挑战。在可见的未来,将会有更多直接针对医药行业训练的模型被广泛应用。

其次,本地与端侧部署。针对特定场景而训练优化的专业模型,可以在满足性能要求的前提下,减少对硬件方面提出过高的要求。因此在成本可控性、分析可溯源、数据安全、反馈延迟等要求更高的场景下,专业中小模型的本地部署会提供极大的赋能。

“此外,研发端AI应用也在快速拓展。出于高度专业性、数据安全、隐私合规等因素,相比通用大模型在商业化阶段的快速发展,医药行业企业尚未在研发阶段感受到AI所带来的巨大转变。而随着特定场景专业模型训练的普及,研发阶段AI应用的壁垒未来也有望被逐一消解。”Barrett Li说道。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
统一指日可待! 美台签了,特朗普“弃台”,我国防部把话挑明了

统一指日可待! 美台签了,特朗普“弃台”,我国防部把话挑明了

荷兰豆爱健康
2026-01-17 15:14:11
孩子长不高,竟是这个常见食物吃多了?Nature重磅

孩子长不高,竟是这个常见食物吃多了?Nature重磅

医学界儿科频道
2026-01-16 20:31:05
疑贺娇龙司机泄露去世细节!摔到脑干,担心司机疲劳让其提前休息

疑贺娇龙司机泄露去世细节!摔到脑干,担心司机疲劳让其提前休息

原广工业
2026-01-17 15:55:14
他长得帅,演技好,不顾一切娶大15岁妻恩爱至今,没生孩子也幸福

他长得帅,演技好,不顾一切娶大15岁妻恩爱至今,没生孩子也幸福

湘村大余
2026-01-17 16:44:49
何长工7年守望无职,1975年致信毛主席,朱老总:我替你转交

何长工7年守望无职,1975年致信毛主席,朱老总:我替你转交

鹤羽说个事
2026-01-17 16:34:41
中越战争老兵自述:当时没有749局的帮助,55军团可能全军覆灭

中越战争老兵自述:当时没有749局的帮助,55军团可能全军覆灭

神奇的锤子
2024-08-19 14:20:51
聂卫平离世1天后,才发现儿女名字取得暗藏深意,字字都有来头

聂卫平离世1天后,才发现儿女名字取得暗藏深意,字字都有来头

银河史记
2026-01-16 16:17:53
库里祝贺克莱三分命中数升至历史第四:耶,杀手!

库里祝贺克莱三分命中数升至历史第四:耶,杀手!

懂球帝
2026-01-17 13:23:03
航母打击群开往中东,特朗普:希望“速战速决”!伊朗进入最高战备状态,约2000枚导弹可覆盖美以基地!多国航班绕飞伊领空

航母打击群开往中东,特朗普:希望“速战速决”!伊朗进入最高战备状态,约2000枚导弹可覆盖美以基地!多国航班绕飞伊领空

每日经济新闻
2026-01-15 19:49:32
皇马最大的麻烦是维尼修斯,阿韦洛亚有魄力与他“决裂”吗?

皇马最大的麻烦是维尼修斯,阿韦洛亚有魄力与他“决裂”吗?

篮球看比赛
2026-01-17 12:20:18
与其等死,不如自愿消失?欧洲小国总统绝境自救,申请并入邻国

与其等死,不如自愿消失?欧洲小国总统绝境自救,申请并入邻国

坠入二次元的海洋
2026-01-17 15:54:57
1000架歼-20和900架歼-16?英国智库:难以战胜2030年的中国空军

1000架歼-20和900架歼-16?英国智库:难以战胜2030年的中国空军

军机Talk
2026-01-17 14:25:03
发现颈动脉斑块一定要吃他汀?符合3个条件,不用吃药!

发现颈动脉斑块一定要吃他汀?符合3个条件,不用吃药!

李药师谈健康
2026-01-16 15:19:41
不出中国所料,李在明刚离开日本,韩国就喊话中国:我们尽快谈判

不出中国所料,李在明刚离开日本,韩国就喊话中国:我们尽快谈判

阿器谈史
2026-01-17 16:55:29
41岁男子河边钓鱼喊技师服务,全程一丝不苟,网友:一个字,雅!

41岁男子河边钓鱼喊技师服务,全程一丝不苟,网友:一个字,雅!

农村情感故事
2026-01-15 18:52:11
加拿大总理见到中方,当面说出了一句话,旁边官员听到后都惊了

加拿大总理见到中方,当面说出了一句话,旁边官员听到后都惊了

老范谈史
2026-01-16 20:37:25
199:166!高市时代恐结束,公明党开始扛旗,中方跟日本划清界限

199:166!高市时代恐结束,公明党开始扛旗,中方跟日本划清界限

军机Talk
2026-01-17 14:39:48
因房东翻倍涨价,北京嫣然天使儿童医院共欠租金2000多万或被关停,李亚鹏的采访视频曝光后,公众涌入捐款入口,捐款金额已达881万

因房东翻倍涨价,北京嫣然天使儿童医院共欠租金2000多万或被关停,李亚鹏的采访视频曝光后,公众涌入捐款入口,捐款金额已达881万

极目新闻
2026-01-16 11:25:23
西海岸老总确认!U23国足双星可售 5成概率离队 申花已加价追李昊

西海岸老总确认!U23国足双星可售 5成概率离队 申花已加价追李昊

我爱英超
2026-01-17 06:52:30
光盯着中国油轮调头了,特朗普没想到,中国在拉美杀了个回马枪

光盯着中国油轮调头了,特朗普没想到,中国在拉美杀了个回马枪

王裕庆
2026-01-16 19:21:10
2026-01-17 17:51:00
21世纪经济报道 incentive-icons
21世纪经济报道
中国商业新闻领导者
229349文章数 743582关注度
往期回顾 全部

科技要闻

8亿周活扛不住烧钱 ChatGPT终向广告"低头"

头条要闻

媒体:加拿大总理访华时称"世界变了" 这番话耐人寻味

头条要闻

媒体:加拿大总理访华时称"世界变了" 这番话耐人寻味

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

徐家还是爱孩子的,在马筱梅生产前选择和解

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

家居
手机
数码
房产
军事航空

家居要闻

岁月柔情 现代品质轻奢

手机要闻

大疆Osmo Pocket 4云台Vlog相机被曝3月发布,分标准/Pro版

数码要闻

英特尔酷睿Ultra 9 290HX Plus笔记本处理器PassMark跑分曝光

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

军事要闻

普京谈及当前国际局势:世界太危险了

无障碍浏览 进入关怀版