网易首页 > 网易号 > 正文 申请入驻

国内首个通过主任医师评测的大模型来了!免费用,技术秘籍公开

0
分享至


智东西
作者 ZeR0
编辑 漠影

国内首个通过主任医师评测的大模型,已在夸克AI搜索上线。

智东西7月23日报道,今日,夸克宣布夸克健康大模型成功通过中国12门核心学科的主任医师笔试评测,创国内首例,展现出垂类大模型在医学领域的应用潜力。

12门核心学科分别是:普通内科学、普通外科学、妇产科学、儿科学、皮肤与性病、肿瘤内科学、耳鼻咽喉学、麻醉学、口腔医学、眼科学、精神病学

在垂类模型与通用模型对比中,夸克健康大模型在初级、中级、副高、高级医疗场景中的答题正确率均超过新版DeepSeek-R1和o3-mini,并呈现出难度越高、领先优势越明显的性能曲线,展现出在复杂医学推理任务中的突破。


这是继5月通过副主任医师职称考试后,夸克健康大模型能力的又一次升级。

“主任级AI医生”能力已集成到夸克的AI搜索中。

用户用夸克查询健康问题时,选择深度搜索即可调用,相当于配备了一个线上的专业医生。

夸克健康算法负责人徐健,夸克健康运营负责人、心内科副主任医师赵存忠,夸克健康产品负责人姚垚,与智东西等媒体进行深入交流,详细解读了夸克健康大模型的背后技术细节与夸克健康产品策略。

夸克健康大模型以通义千问为基础,针对医学垂类场景进行深度工程化。据夸克健康算法负责人徐健分享,其模型的核心特点与技术构建策略包括:

  • 知识性强,用高质量数据继续训练底座大模型;
  • 正确性对齐技术,把握住错误边界;
  • 引入慢思考能力,基于高质量推理训练数据,通过强化学习构建推理大模型,驱动模型在面对复杂医疗问题时,能够分阶段、层层深入地推导出最终答案,提升在案例分析题等上的效果。

在接受采访期间,徐健、赵存忠、姚垚总结了夸克健康对风险控制的全方位约束策略:

  • 事前,通过底层算法和数据工作预防,产品满意度准确率达标后才会上线;
  • 事中,模型对敏感或不确定问题拒答,产品设计兜底话术、增加溯源引用,采取机器抽查、人工抽查等策略,并对用户问题分类界定、分层处理;
  • 事后,根据用户反馈,反复迭代改进模型。

赵存忠告诉智东西,夸克健康大模型会在线满足普适化需求的基础上,后续针对各类有高频需求的主流学科去做针对性训练,对严肃医疗诊断类的一些专科或疑难杂症进一步深入。

当智东西问到如何兼顾让用户易理解和表达准确性,姚垚告诉智东西,两者的提升并不矛盾,夸克健康在整体回复样本设计上追求对用户的实用性,在技术上持续提升准确率,在内容定义时关注让回答更易理解。徐健补充说,文字风格迁移不是技术难点,夸克多年来做内容科普使其擅长于此,大模型拟合能力非常强。

姚垚透露说,夸克当前有2亿月活用户,健康需求很大,健康产品的信任感会影响对整个平台的信任。

据分享,未来,夸克健康业务目标坚定,以满足C端用户科普需求为主,短期内聚焦帮用户解决健康问题,关注用户满意度、留存、活跃度等情况,不考虑做强商业化尝试。


一、基于通义千问,训练临床思维,构建慢思考能力

夸克健康大模型通过真实医生标注、“问—思—答”整组数据驱动强化学习,不仅掌握医学知识,而且医学思维的路径选择、证据整合与多解平衡能力。

其核心突破之一,是构建出“慢思考能力”,打造多阶段慢思考推理系统,从表象判断到深度病因分析,学会医学临床诊疗思维。

这一能力融合了链式推理与多阶段临床演绎路径建模,驱动模型在面对复杂医疗问题时分阶层层推导,先推病,再解题,从病史分析、初步诊断、鉴别诊断、结合选项分析到总结得出答案。

而构建慢思考能力的前提,是拥有高质量推理训练数据。

为此,夸克构建了“双数据产线 + 双奖励机制”的工程体系。

训练数据上,将医学数据划分为“可验证”和“不可验证”两类,分别对应诊断类任务和健康建议类任务。


夸克以“病药术检”任务为训练主线,构建有特色的医疗领域可验证推理任务,覆盖疾病推理、检查推理、疾病推理、手术推理、药品推理等。

训练方法上,引入“过程奖励模型”和“结果奖励模型”,分别评估模型推理链的合理性与最终结论的准确性,根据反馈进行调整,显著提升模型的临床可解释性和推理一致性。

其体系设计了多阶段强化学习流程,包括冷启动数据的严格人工校验、多轮样本筛选与难度递进训练策略,以及用于防止“高分投机”的作弊识别机制。

谈到夸克健康大模型的优势,徐健总结了三点:(1)差异化,在专业数据投入更大精力;(2)产品具备更强实操性,提供明确的就医建议;(3)让内容变得更可信,主要策略包括加固循证、强化推理可解释性等。

二、4大类数据建设和评估,三招降幻觉+提高准确率

优质数据建设、正确性对齐及循证技术、医疗慢思考推理能力,缺一不可。

在构建大规模高质量医疗领域数据及语料上,夸克对4大类数据(资料库、病历、知识库、合成数据)进行建设和评估。


1、全面的数据分类与评估:根据科室分布、实体、循证等级、meta信息等,筛选真正有价值的医疗高价值数据。

2、语料探查技术指引目标:基于医疗强大的检索能力,进行数据层探查,搜索/知识覆盖率达到95%+。

3、时效性更新技术:新热挖掘、数据接口轮询等,获得最新药品官方数据等。

4、图谱及合成数据设计:知识转译、知识析构等。

夸克遵循数据驱动的长期迭代主义,构建可规模化的优质数据合成产线和训练:精细治理诊疗数据,扩大可用数据量级;在强化过程中构建的推理过程和推理结果的准确奖励,复用在数据筛选中;模型和数据螺旋迭代升级的,自动化的数据分层采样管道,实现规模化的样本加工、合成和分布控制;人类专家集中产能处理痛点数据-冷启动中临床思维的标注

为了提高专业性,夸克健康大模型拥有千人规模的专业医师标注团队,其中超过400名均为副主任医师及以上的高资历医疗专家。


徐健说,用户原始数据不会被用于训练,只会将经过用户授权的数据脱敏加工后,再用于改进模型效果。

健康医疗大模型的问答,容错率远低于常规通用大模型。夸克用三招来提高模型回答的准确性。

第一招,通过训练的全链路正确性微调,严格控制模型内在幻觉。

比如,药品相关信息如果输入错了,就会出现药不对症、可能影响健康的。对此,夸克在预训练知识注入阶段,覆盖国内外全部药品说明书;在用药能力微调(SFT)阶段,构建N个药品使用对齐任务,单独激发把事情做对的稳定性;在错误反馈对齐(RLHF)阶段,形成错误-正确的正负力,使用RM数据增强技术、负反馈抑制错误能力。

第二招,构建百万量级临床术语集和知识图谱,通过底层的权威医学知识库,确保模型输出内容专业、及时。

第三招,通过深度搜索技术及循证数据体系,强化外在正确性,让输出结果透明有依据。

三、多类诊疗场景准确率与人类医生相当,主任医师现身给夸克“批卷”

从诊疗效果来看,在门诊常见病场景下,夸克健康大模型诊断top1准确率达到90.78%,与人类医生书写的病历准确率水平相当。在疑难病例上,模型top1准确率达到85.51%;单从诊断任务能力上近似可看成三级医院全科主任级别能力,足以作为大多数医生好用的助手。


当然,考试只是衡量大模型的维度之一,实际体验才是硬本事。

安贞医院心脏外科主任医师谢进生认为,夸克在一些问题上回答专业度比专业医生还要强。

北京大学人民医院皮肤科主任医师、教授、硕士生导师李厚敏在试用夸克健康大模型后感受到危机感,认为这样的AI工具确实改变诊疗过程,为医生减负。

她分别展示了从主任医师角度和从患者角度提问的示例。

在一个从医生角度提问的案例中,李厚敏评价夸克给出的答案有这些亮点:方案全面,结构清晰,治疗分段合理,符合临床路径,实操指导性强,关注患者心理应对及长期管理。


她也给出了如何做得更好的建议:方案中没有说明各阶段干预的时机、疗效观察点及联合治疗顺序,略欠动态管理指导价值。

一类从患者角度的常见皮肤病提问是:脸上反复长痘,医生给开了激素类外用药,但自己比较犹豫,担心激素会让皮肤变薄、依赖,停药后会更严重,不敢用,该怎么办?

李厚敏认为夸克在明确用药必要性方面的回复很科学,有助于缓解患者恐惧,并向患者提供多种替代方案选择、传达综合治疗管理理念。不过,回答中没有明确提及激素的特点和“缓撤药”、“维持期隔日/间断用药”等具体策略,略有欠缺关于定期复诊或建立长期随访计划的提示。

在她看来,AI应用能够帮助皮肤科辅助诊断与分型,提高早期识别率,并优化随访管理与个性化治疗方案。

精神科与皮肤科的需求有所不同。

武汉大学人民医院精神卫生中心负责人、主任医师、教授、博士生导师王惠玲也用常用的专业临床问题来考验夸克。从结果来看,她评价夸克的回答逻辑清晰,符合临床实际流程,所给建议的操作性很强,符合临床实际处理习惯,策略制定有据可循。


就优化方案而言,她建议在策略制定上应该更加重视患者可能存在的不良意念风险,建议增加干预自杀危机的响应策略。

从患者角度,一类常见问题是:被医生诊断抑郁并给出用药建议,但担心服药会成瘾、带来巨大的副作用。


王惠玲评价说,夸克的回答简单通俗地指出了患者的“成瘾”误区,可降低医患沟通成本,并分层列出常见及罕见副作用,在用药建议上还提供了辅助的非药物干预方式。不过回答中缺少在实际医患沟通中精神科医生对患者的“共情”,情感支持稍显不足。

在她看来,AI应用能帮助精神科分析语音模式、书写内容、可穿戴设备数据等,量化患者的情绪波动,辅助识别早期恶化信号,为医生提供更客观的参考。另外,很多患者存在病耻感,在线匿名的AI心理教育工具或其他在线咨询入口,能让更多患者敢于迈出求助的第一步。

需注意的是,AI无法替代医生精准评估不良意念所带来的风险,也很难在治疗不理想时用共情给患者足够宽慰。

四、中国超50%医学生都在用夸克

凭借在医学领域的专业性,夸克AI搜索吸引了一大批医学生和医生群体。

据夸克健康运营负责人赵存忠分享,夸克健康产品主要面向C端,围绕两类场景,一是基于搜索场景的权威健康顾问,帮普通人解决日常健康问题;二是基于医护人员的专业成长助手,帮医学生解决涉及临床诊疗、学习、资料类、考试专业需求的专业问题。


夸克健康为用户提供知识科普、生活指导、健康管理、疾病诊疗的全面服务,能提高健康知识的普及性、用户自我健康管理能力、全民健康素养,有效提高医疗资源可利用性和普及性。

目前夸克健康积累的用户大多为年轻人,18-40岁居多,通常在上午开始搜索健康问题,晚上则是了解健康问题的最高峰。

夸克健康在全国医学生中月活用户(MAU)已突破200万,覆盖率过半。他们广泛使用夸克做三件事:基础知识搜索、考试备考AI搜题、临床辅助诊疗。

面向医学生,夸克做了三大核心需求产品:解题查解析(AI搜题),术语解释(专业问答),教材知识点(专业百科)。其专业搜索将逐步延伸到低年资医生等垂直人群,满足临床的知识查询和处理决策、用药需求,并涵盖高年资医生的科研、学术搜索及高效工作。

五、晒夸克健康搜索“全家福”,做有温度的AI健康顾问

夸克的健康搜索内容体系,包括夸克健康百科、夸克健康问答等产品。

夸克健康百科包含医典百科、就医指南;夸克健康问答包括通用问答、AIGC问答、SGS问答、深度搜索、健康助手自诊、学术搜索、包含专业资料的循证体系及知识图谱等,为用户提供权威、实用、精准的内容搜索。

夸克健康医疗搜索产品的演进,从传统生产(外发人工生产)到AIGC(模型批量生产)再到SGS(模型即时生成),用户搜索字数表达明显增加,逐渐能精准满足复杂长尾问答需求,给出明确结论。

其算法团队与医疗团队共同搭建循证体系,包含千亿级图谱病历、教材指南、文献论文、试题词典,提供专业检索。

深度搜索、深度思考能力则提高了对问题理解的精准度,使模型对于问题的回复的思考路径拆解更合理、解答的逻辑性更好,居家缓解、就医推荐的实用性更强,与医院角色形成互补。

夸克健康助手开发基于医学临床思维的健康自诊,可以为用户提供全面的自我判断和就医推荐,提供症状自查、报告解读、在线问诊、AI自测、健康计算等功能。

该工具构建了基于医学知识系统的对话反问功能,可以在对话中收集足够的用户病症信息,给出推理分析,并给出实用的居家建议,判断病情需要就医,给出与科室推荐、检查建议,提供导医问诊服务。

夸克健康大模型还能作为健康生活科普助手,生成满足饮食、健康、运动的科普内容及优质笔记,为用户提供精准生活指导。

夸克健康利用AI相机功能为用户识热量、配料表分析、皮肤自诊等,提供健康饮食辅助决策及小病自查自管。比如拍张照,问AI这款零食健不健康、这个舌苔是否正常等。

除了准确率高,夸克健康还注重做有温度的AI健康顾问,按照真实医生诊疗路径分阶段、分专科训练诊断能力,在提供精准推理诊断的同时,以共情化满足用户的心理感受。

健康agent是一个全科智能协同中枢,定位全科健康管家,有两大核心能力:

一是统一管理,全科健康管家统一管理信息和输入输出,用户健康问题需求由全科agent调度,

二是分发协同,所有用户请求经过全科agent初步处理,根据干预措施调用其他子agent,输出最终行动方案。

结语:健康大模型L4级基本到来,将惠及精准医疗科普

在沟通会上,徐健总结了当前健康大模型能力水位:微软、OpenAI、讯飞等AI公司的模型或AI产品,在指定场景已做到与医生水平相当;在学术界,近1年Nature系列发了21篇医学大模型论文;在行业界,信通院发布《基于大模型的患者医疗服务应用场景及能力分级框架(2025年)》,提供了应用场景医疗服务能力的清晰分级。

L1级是信息辅助,L2级是单任务智能辅助,L3级是多任务智能辅助,L4级是高级协同决策辅助,最高等级L5智慧协同创新辅助能发现一些医生在诊疗过程中想不到的创新做法。

参考这个分级,今天,能与医生高级协同决策辅助的copilot助手(L4级别)基本到来,也将更好地帮助普通用户在健康问题上减少医患信息差。

夸克健康大模型及产品矩阵,正通过引入更强的推理能力,突破技术瓶颈,帮助医生节约时间、放大专业价值,并助力缓解医疗资源短缺问题,实现更加精准的医疗科普。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
邝兆镭代表赛格雷U19A出战季前赛,首发出场完成梅开二度

邝兆镭代表赛格雷U19A出战季前赛,首发出场完成梅开二度

直播吧
2025-09-14 09:35:15
有公积金的恭喜了!9月13日起,住房公积金提取限制取消!使用范围也变了!

有公积金的恭喜了!9月13日起,住房公积金提取限制取消!使用范围也变了!

会计人
2025-09-13 23:50:39
裁掉8万人、负债8000亿,碧桂园还想着翻身

裁掉8万人、负债8000亿,碧桂园还想着翻身

源媒汇
2025-09-12 16:39:12
中央巡视组进驻后,孙永红任上落马

中央巡视组进驻后,孙永红任上落马

政知新媒体
2025-09-14 10:57:17
于朦胧表姐痛心发声,聚餐的人口供一致愿赔钱,口袋的劳力士与极光光手表吻合

于朦胧表姐痛心发声,聚餐的人口供一致愿赔钱,口袋的劳力士与极光光手表吻合

草莓解说体育
2025-09-14 11:03:29
俄罗斯突然暂停股票市场交易!这是出了什么大事情呢?

俄罗斯突然暂停股票市场交易!这是出了什么大事情呢?

翻开历史和现实
2025-09-13 22:42:41
蒋万安反对“一国两制”,将率领四人再访大陆,大陆用10个字回应

蒋万安反对“一国两制”,将率领四人再访大陆,大陆用10个字回应

比利
2025-09-13 14:18:24
2025国庆放假通知:4个好消息、3个坏消息,这些细节你可别漏看了

2025国庆放假通知:4个好消息、3个坏消息,这些细节你可别漏看了

小彭聊社会
2025-09-14 02:49:20
炸锅!Office Depot拒印柯克追悼海报,员工当场被开除

炸锅!Office Depot拒印柯克追悼海报,员工当场被开除

华人生活网
2025-09-14 00:49:51
破发!iPhone 17全系上线拼多多百亿补贴 5099元起

破发!iPhone 17全系上线拼多多百亿补贴 5099元起

手机中国
2025-09-13 17:41:08
曼联弃将闪耀意甲!首秀14分钟就进球 红魔有望回血4400万

曼联弃将闪耀意甲!首秀14分钟就进球 红魔有望回血4400万

球事百科吖
2025-09-14 12:28:06
越描越黑!西贝大厨用硅胶铲炒菜破大防,自曝用便宜转基因大豆油

越描越黑!西贝大厨用硅胶铲炒菜破大防,自曝用便宜转基因大豆油

星河也灿烂
2025-09-13 14:11:42
拉脱维亚籍“九头身”裁判回成都献舞,看了李宇春演唱会,还想带家人来旅游

拉脱维亚籍“九头身”裁判回成都献舞,看了李宇春演唱会,还想带家人来旅游

极目新闻
2025-09-14 12:24:39
导弹落在中国使馆800米外,中方罕见发大火,以色列要摊上大事了

导弹落在中国使馆800米外,中方罕见发大火,以色列要摊上大事了

墨兰史书
2025-09-13 11:50:06
43岁龙哥真有种:14亿欧皇马祭出621死守阵 8后卫全上了 佛爷着急

43岁龙哥真有种:14亿欧皇马祭出621死守阵 8后卫全上了 佛爷着急

风过乡
2025-09-14 07:54:12
李谷一不再沉默,揭晓宋祖英“消失”的真相,观众:原来是这样

李谷一不再沉默,揭晓宋祖英“消失”的真相,观众:原来是这样

查尔菲的笔记
2025-09-02 16:01:14
全球最大成人网站公布看片数据,颠覆认知!

全球最大成人网站公布看片数据,颠覆认知!

大佬灼见
2025-09-12 07:30:12
不明飞行物划过山东夜空,地面发射导弹成功拦截

不明飞行物划过山东夜空,地面发射导弹成功拦截

头条爆料007
2025-09-13 19:18:04
全程瞪眼,表情狰狞,39岁热依扎出手,带来视后“教科书式”演技

全程瞪眼,表情狰狞,39岁热依扎出手,带来视后“教科书式”演技

胡一舸南游y
2025-09-11 16:07:21
2人死亡!深圳一公司发生爆炸事故,官方披露详情

2人死亡!深圳一公司发生爆炸事故,官方披露详情

南方都市报
2025-09-14 09:47:42
2025-09-14 12:48:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10459文章数 116855关注度
往期回顾 全部

科技要闻

L3级车型要来了!辅助驾驶迎重大利好

头条要闻

拉脱维亚籍"九头身"裁判回成都献舞 还想带家人来旅游

头条要闻

拉脱维亚籍"九头身"裁判回成都献舞 还想带家人来旅游

体育要闻

3次遭争议判罚!皇马向FIFA投诉西甲裁判

娱乐要闻

彪悍那英,大女人与旧妻子

财经要闻

西贝贾国龙,“错”得离谱

汽车要闻

混动狂潮 835马力V12 阿斯顿·马丁的最后浪漫

态度原创

旅游
游戏
艺术
本地
公开课

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

猎魂世界:阿银上线后的全武魂强度评级及养成汇总!(9.12)

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版