网易首页 > 网易号 > 正文 申请入驻

豆蔻妇科大模型再突破:钉钉行业训练平台+精标数据SFT ,准确率从 77.1%上升至 90.2%

0
分享至

文 | 王强宇

在医疗 AI 领域,通用大语言模型虽凭借海量互联网数据训练具备广泛知识覆盖面,但在需高度专业判断的临床场景中表现欠佳。当医生询问疾病鉴别诊断时,通用模型可能给出不准确甚至错误建议,这在严肃的医疗决策中不可接受。

大家都知道监督微调(SFT)技术是解决上述难题性价比较比较高的方案之一,但SFT也需要具体一定的条件:如高质的数据集,同时由于医疗数据的特殊性和复杂性,模型调优的过程可能非常耗时且难以预测。同时SFT是一个迭代优化的过程,需要不断地对模型进行训练、评测和优化。

豆蔻妇科大模型的模型调优经历了两个关键优化阶段:

  • 第一阶段(2025年4月):构建SFT基础模型,采用1300条精标中文妇科问诊数据作为训练样本,结合教师模型数据蒸馏和人工审核,使模型初步具备专业问诊能力,初始准确率达77.1%。

  • 第二阶段(2025年6月):通过针对性地合成症状数据,重新蒸馏、标注COT,筛选质量更高的数据等,重新进行微调训练,使得妇科六大症状的诊断准确率最终达到了90.2%。此阶段的优化策略包括严格科学的数据清洗重组流程、数据蒸馏校准技术及基于大模型的自动化评测系统+人工复审机制,该阶段的训练完全基于钉钉行业训练平台完成。

以下是豆蔻妇科大模型从第一个版本的准确率77.1%,通过进一步的SFT后,准确率达到90.2%我们团队的一些方法和心得,供大家参考,欢迎留言讨论。

一、训练数据集的科学筛选(数据集构建与质量控制)

在对优质训练数据集的筛选过程中,我们实施了三个关键步骤:

第一是系统化数据清理,通过建立严格的质量控制标准,重点关注推理与结果的一致性检查,筛选出answer与ground truth不一致的样本,特别是那些思考过程和输出结果不一致的情况,这类数据被视为低质量数据。同时进行逻辑链条完整性验证,确保每个诊断结论都有充分的症状支撑和推理依据,并对医学常识合理性进行筛查,剔除违背基本医学原理的数据,如"男性患者诊断为妊娠"这类明显错误,以及症状关联性不合理的数据,比如"无性生活但指定避孕方式是避孕套"的情况。

同时,对训练数据集覆盖度的平衡也做了一些策略:

  • 数据集中的数据,同时需要包含简单以及复杂的病例数据,充分模拟真实世界的数据。

  • 涵盖从青春期到更年期的全生命周期病例,以及常见病与罕见病的比例,避免模型出现诊断偏好。

第二是蒸馏数据的校准环节,这是确保思维链COT(Chain-of-Thought)数据质量的关键步骤。

所有COT数据必须保持推理一致性,COT必须能够完整支撑最终的诊断结果,特别是在诊断优先级排序上要有明确依据。每个诊断的优先级都需要有清晰的医学依据支撑,比如"妊娠排在第一位是因为患者月经推迟大于7天,且近期有性生活史"。

为保障鉴别诊断的完备性,需系统性覆盖全部潜在鉴别诊断方案,并针对各诊断结论提供充分的医学依据与论证支撑,蒸馏校准流程具体实施细则如下:

人工标注环节:由内部的专业医学专家团队,依据现行医学行业标准,对症状数据实施规范化标注作业,构建标准化诊断结果集,为后续流程奠定基准参照体系。

模型推理环节:以标注后的症状数据及人工诊断结果为基准,借助教师模型开展推理运算,生成包含初步思维链(COT)的推理过程及诊断结论。

完整性质控环节:采用双重验证机制,重点核查以下核心要素:

格式规范性验证:严格对照 “1 个最可能诊断 + 2-5 个其他潜在诊断 + 检查项目建议 + 处置方案建议 + 注意事项说明” 的标准化输出格式,确保诊断结果格式完整、规范;

诊断结论一致性验证:通过将模型输出的诊断结果与人工标注的标准答案进行逐点比对,保障二者完全契合,杜绝任何结论偏差。

智能自动化校验:引入智能规则引擎,基于预设的医学逻辑规则,对症状描述与诊断结论之间的匹配合理性进行自动化校验。例如,针对 “患者出现阴道出血症状,诊断为宫颈病变” 等诊断结论,依据医学知识库中的关联规则,自动评估其逻辑合理性与临床可行性。

优化提升环节:由医学专家团队对质控后的结果进行人工校准与增强,通过迭代式蒸馏优化策略,持续完善数据质量,确保每个训练样本均具备完整且严谨的推理逻辑链条,以及精准可靠的诊断结论。

第三是持续迭代优化阶段:使用优化后的模型对新数据进行推理生成,通过自动化评测系统筛选出评分8分以上的高质量样本加入训练集,进行新一轮SFT训练,形成"训练-评测-筛选-再训练"的良性循环。在整个过程中,我们持续监控多项关键指标,包括模型在测试集上的准确率变化、六大核心症状的分项得分以及罕见病例的识别准确率,确保模型性能得到全方位提升。

二、双重评估体系:确保医学准确性

为了评测答案的准确性,我们构建了一套完整的模型质量评估体系,包含自动化评测和人工审核两个关键环节(上图)。在自动化评测方面,我们开发了基于大模型的裁判系统,该系统采用DeepSeek R1级别的高性能语言模型作为核心评测引擎,按照医生制定的10分制标准对模型输出进行客观评分。这个自动化系统具有三大核心特点:首先,它采用模型驱动评测机制,确保评分过程的准确性和一致性;其次,通过将医生的评估标准转化为结构化的prompt,建立标准化的评分框架;最后,系统支持批量自动化处理,能够快速完成大量样本的评测,提升评估效率。

为补充自动化评测的不足,我们建立了严格的医生修正反馈机制。由内部妇科专家团队对模型输出进行人工审核,特别关注那些处于评分边界或存在争议的边缘案例。专家们会详细检查模型输出的诊断建议,将修正意见反馈到训练数据中,形成"评估-修正-优化"的闭环迭代机制。这个人机协同的评估体系既保证了评测效率,又确保了专业质量,为模型的持续优化提供了可靠保障。

经验教训与挑战

在垂直领域模型训练中,尽管有许多论文和教材提供指导,但实际操作中仍面临诸多挑战。初期,我们过度依赖了人工标注,导致训练集数据积累缓慢、效率低下且成本高昂。后面经过策略的调整,设置了“机器蒸馏→专家审核→训练后评估”的体系后,数据生产效率显著提升。同时,针对思维链推理过程与最终诊断结果脱节的问题,建立严格的逻辑一致性检查机制,确保每个推理步骤都能有效支撑最终结论,避免模型学习出现混乱。

训练数据集过度集中在常见病,导致模型对罕见病识别能力不足。为此,我们采用平衡采样策略,对罕见病例进行针对性采样,确保各类疾病都能获得足够的训练样本。在评测标准方面,人工评测存在主观性强、标准不统一的问题,我们引入另一个大模型作为标准化评测工具,有效保证了评分的客观性和一致性。这些措施共同构成了一个完整的质量保障体系,为专业领域模型的开发提供了可靠支撑。

在医疗大模型的实际应用中,用户的问题往往零散且不完整,需要模型具备多维思考模式。医疗领域的容错率极低,大模型不仅要“说出知道的”,更要对依据不足或不确定的情况给出尽可能专业的诊断。豆蔻妇科大模型以真实临床路径为蓝本,在病例分析过程中不仅精准定位“滴虫性阴道炎”为首要诊断,还同步考虑性传播疾病、宫颈病变等多种鉴别诊断,并基于患者17岁青春期特征纳入“排卵障碍性出血”评估,形成多层级诊断网络。这种“全链路思维”在复杂症状场景中尤为凸显:当患者出现“灰黄色血性白带 + 尿频”复合症状时,模型通过逻辑链条解析,最终生成包含6项检查建议(白带常规、性传播疾病核酸检测等)及分层治疗方案(甲硝唑用药 + 性伴侣同治),从“疾病诊断”到“治疗方案”的临床全链路思考。这一过程对人力和医学专业能力要求极高。

有人说训练大模型,更多的是对数据的清洗、标注,对并模型给出的答案不断进行反馈、纠正。我们不是在教机器“选对答案”,而是在让 AI 学会像医生一样思考,这也是医疗大模型最大的挑战

关于训练平台

这一次,我们选择了钉钉企业专属AI平台,作为我们的训练调优核心工具。钉钉企业专属AI平台是一款一站式企业专属大模型生产平台,专为有调优、后训练需求的企业和开发者量身打造,提供从数据治理、高效训练到灵活部署的完整端到端工具链,全方位助力企业实现大模型的高效落地与优化。

在这一阶段的调优过程中,钉钉企业专属AI平台发挥了至关重要的作用。它覆盖SFT/RFT(GRPO)两种训练方法,提供分布式训练、多Lora部署等加速优化手段,通过页面后台和SDK两种模式,为我们的训练调优提供了强大的技术支持。在钉钉专业技术人员的紧密协同下,我们实现了训练效率的大幅提升,将单次训练时长从26小时缩短至7小时,降幅高达73%。这一显著的优化成果,充分体现了钉钉炼丹炉大模型服务平台在提升训练效率、降低训练成本方面的卓越价值,也彰显了钉钉在大模型训练领域的强大技术实力和专业服务能力。

SFT作为医学大模型构建基础能力的核心环节,其重要性不言而喻。它不仅是模型能否输出符合医学规范安全建议的关键,更是通过高质量思维链数据的训练,使模型得以掌握标准诊断逻辑、实现推理透明化,并广泛覆盖常见临床场景的基础。

展望未来,我们团队将积极探索SFT+RL的协同训练范式,以应对临床推理中的双重挑战。SFT将确保模型对基础医学知识的结构化掌握,培养起“循证思维”;而RL则将在实际应用中锤炼模型的判断力,助其形成“临床直觉”。我们坚信,这种双重训练模式将使AI不仅具备给出符合医学指南建议的能力,更能针对复杂病例进行上下文感知的个性化推理,最终实现从“医学词典”到“会诊专家”的华丽蜕变。让我们共同期待这一天的到来!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
领导一个人在办公室经常都干嘛?网友:怪不得人人都想当领导呢!

领导一个人在办公室经常都干嘛?网友:怪不得人人都想当领导呢!

夜深爱杂谈
2026-03-15 19:19:57
北京公交专用道行驶时间,又有新调整!

北京公交专用道行驶时间,又有新调整!

BRTV新闻
2026-04-28 12:40:41
中菲关系骤变!马科斯的反华声明引发全球关注!

中菲关系骤变!马科斯的反华声明引发全球关注!

橙色书卷
2026-04-27 21:19:22
太心疼!马筱梅哭到停更,带娃逃回台湾:凭啥要我和孩子遭这罪?

太心疼!马筱梅哭到停更,带娃逃回台湾:凭啥要我和孩子遭这罪?

她时尚丫
2026-04-28 23:19:49
失业后在小县城的两年发现,打麻将和性生活才是普通人底色!

失业后在小县城的两年发现,打麻将和性生活才是普通人底色!

黯泉
2026-04-01 17:44:20
北京车展最具争议的新车:上市一小时狂揽11079台锁单量,凭啥?

北京车展最具争议的新车:上市一小时狂揽11079台锁单量,凭啥?

车之养护
2026-04-27 10:36:10
4.29日早评|风云突变!美伊大消息!A股炸了!

4.29日早评|风云突变!美伊大消息!A股炸了!

龙行天下虎
2026-04-29 06:23:51
台湾人真的很可怜

台湾人真的很可怜

覆言国际
2026-04-27 18:49:55
WTA爆大冷!萨巴伦卡1-2遭逆转,错失6个赛点,世界前8全出局了

WTA爆大冷!萨巴伦卡1-2遭逆转,错失6个赛点,世界前8全出局了

体育就你秀
2026-04-29 06:10:25
轮到银行发愁了!越来越多的储户,要把存款分散到多家银行?

轮到银行发愁了!越来越多的储户,要把存款分散到多家银行?

老特有话说
2026-04-28 16:00:15
华为余承东:尊界新车价格在200万左右

华为余承东:尊界新车价格在200万左右

界面新闻
2026-04-26 13:08:56
美媒称战事爆发以来美损失惨重

美媒称战事爆发以来美损失惨重

界面新闻
2026-04-27 22:43:03
因为没钱,社会上已经出现了4大“反常现象”,看看你碰到了没?

因为没钱,社会上已经出现了4大“反常现象”,看看你碰到了没?

细说职场
2026-04-26 14:29:20
孔帕尼:次回合可能很相似只是进球没这么多,我已经迫不及待

孔帕尼:次回合可能很相似只是进球没这么多,我已经迫不及待

懂球帝
2026-04-29 06:40:08
7岁女孩独自走6公里上学,只有小狗相伴引发关注。

7岁女孩独自走6公里上学,只有小狗相伴引发关注。

一丝不苟的法律人
2026-04-27 14:58:35
有谁留意:杜锋输球黑脸光速退场,徐杰拉着0分先生胡明轩不让走

有谁留意:杜锋输球黑脸光速退场,徐杰拉着0分先生胡明轩不让走

体坛野秀才
2026-04-29 00:20:43
故事:聂磊称霸青岛十几年,最后因惹上一个女人,踢到铁板就此灭亡

故事:聂磊称霸青岛十几年,最后因惹上一个女人,踢到铁板就此灭亡

红豆讲堂
2024-12-17 10:54:23
58岁阿丘近况曝光,住破旧屋子,身材发福,出轨离婚晚年生活凄凉

58岁阿丘近况曝光,住破旧屋子,身材发福,出轨离婚晚年生活凄凉

胡一舸南游y
2026-04-28 14:16:22
婚介所彻底变天!因没有男客户而倒闭,转变成了专坑女人的杀猪盘

婚介所彻底变天!因没有男客户而倒闭,转变成了专坑女人的杀猪盘

谭谈社会
2026-04-27 19:01:19
艺考生:砸光父母积蓄,终成“廉价打工人”,谁在制造这场骗局?

艺考生:砸光父母积蓄,终成“廉价打工人”,谁在制造这场骗局?

社会日日鲜
2026-04-27 12:38:49
2026-04-29 07:35:00
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
132927文章数 862122关注度
往期回顾 全部

健康要闻

干细胞治疗烧烫伤三大优势!

头条要闻

美国禁止本国个人或实体向伊朗缴纳霍尔木兹通行费

头条要闻

美国禁止本国个人或实体向伊朗缴纳霍尔木兹通行费

体育要闻

魔术黑八活塞,一步之遥?!

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

中央政治局会议定调,八大看点速览!

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

汽车要闻

拒绝疯狂套娃!现代艾尼氪金星长在未来审美点上

态度原创

时尚
数码
本地
公开课
军事航空

普通女性春天穿什么好看?这些穿搭值得借鉴,自然舒适

数码要闻

机械革命苍龙16 / 18 Pro游戏本RTX 5070 12GB款开启预约

本地新闻

用青花瓷的方式,打开西溪湿地

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

德国总理默茨:美国正遭受伊朗领导层的羞辱

无障碍浏览 进入关怀版