网易首页 > 网易号 > 正文 申请入驻

豆蔻妇科大模型再突破:钉钉行业训练平台+精标数据SFT ,准确率从 77.1%上升至 90.2%

0
分享至

文 | 王强宇

在医疗 AI 领域,通用大语言模型虽凭借海量互联网数据训练具备广泛知识覆盖面,但在需高度专业判断的临床场景中表现欠佳。当医生询问疾病鉴别诊断时,通用模型可能给出不准确甚至错误建议,这在严肃的医疗决策中不可接受。

大家都知道监督微调(SFT)技术是解决上述难题性价比较比较高的方案之一,但SFT也需要具体一定的条件:如高质的数据集,同时由于医疗数据的特殊性和复杂性,模型调优的过程可能非常耗时且难以预测。同时SFT是一个迭代优化的过程,需要不断地对模型进行训练、评测和优化。

豆蔻妇科大模型的模型调优经历了两个关键优化阶段:

  • 第一阶段(2025年4月):构建SFT基础模型,采用1300条精标中文妇科问诊数据作为训练样本,结合教师模型数据蒸馏和人工审核,使模型初步具备专业问诊能力,初始准确率达77.1%。

  • 第二阶段(2025年6月):通过针对性地合成症状数据,重新蒸馏、标注COT,筛选质量更高的数据等,重新进行微调训练,使得妇科六大症状的诊断准确率最终达到了90.2%。此阶段的优化策略包括严格科学的数据清洗重组流程、数据蒸馏校准技术及基于大模型的自动化评测系统+人工复审机制,该阶段的训练完全基于钉钉行业训练平台完成。

以下是豆蔻妇科大模型从第一个版本的准确率77.1%,通过进一步的SFT后,准确率达到90.2%我们团队的一些方法和心得,供大家参考,欢迎留言讨论。

一、训练数据集的科学筛选(数据集构建与质量控制)

在对优质训练数据集的筛选过程中,我们实施了三个关键步骤:

第一是系统化数据清理,通过建立严格的质量控制标准,重点关注推理与结果的一致性检查,筛选出answer与ground truth不一致的样本,特别是那些思考过程和输出结果不一致的情况,这类数据被视为低质量数据。同时进行逻辑链条完整性验证,确保每个诊断结论都有充分的症状支撑和推理依据,并对医学常识合理性进行筛查,剔除违背基本医学原理的数据,如"男性患者诊断为妊娠"这类明显错误,以及症状关联性不合理的数据,比如"无性生活但指定避孕方式是避孕套"的情况。

同时,对训练数据集覆盖度的平衡也做了一些策略:

  • 数据集中的数据,同时需要包含简单以及复杂的病例数据,充分模拟真实世界的数据。

  • 涵盖从青春期到更年期的全生命周期病例,以及常见病与罕见病的比例,避免模型出现诊断偏好。

第二是蒸馏数据的校准环节,这是确保思维链COT(Chain-of-Thought)数据质量的关键步骤。

所有COT数据必须保持推理一致性,COT必须能够完整支撑最终的诊断结果,特别是在诊断优先级排序上要有明确依据。每个诊断的优先级都需要有清晰的医学依据支撑,比如"妊娠排在第一位是因为患者月经推迟大于7天,且近期有性生活史"。

为保障鉴别诊断的完备性,需系统性覆盖全部潜在鉴别诊断方案,并针对各诊断结论提供充分的医学依据与论证支撑,蒸馏校准流程具体实施细则如下:

人工标注环节:由内部的专业医学专家团队,依据现行医学行业标准,对症状数据实施规范化标注作业,构建标准化诊断结果集,为后续流程奠定基准参照体系。

模型推理环节:以标注后的症状数据及人工诊断结果为基准,借助教师模型开展推理运算,生成包含初步思维链(COT)的推理过程及诊断结论。

完整性质控环节:采用双重验证机制,重点核查以下核心要素:

格式规范性验证:严格对照 “1 个最可能诊断 + 2-5 个其他潜在诊断 + 检查项目建议 + 处置方案建议 + 注意事项说明” 的标准化输出格式,确保诊断结果格式完整、规范;

诊断结论一致性验证:通过将模型输出的诊断结果与人工标注的标准答案进行逐点比对,保障二者完全契合,杜绝任何结论偏差。

智能自动化校验:引入智能规则引擎,基于预设的医学逻辑规则,对症状描述与诊断结论之间的匹配合理性进行自动化校验。例如,针对 “患者出现阴道出血症状,诊断为宫颈病变” 等诊断结论,依据医学知识库中的关联规则,自动评估其逻辑合理性与临床可行性。

优化提升环节:由医学专家团队对质控后的结果进行人工校准与增强,通过迭代式蒸馏优化策略,持续完善数据质量,确保每个训练样本均具备完整且严谨的推理逻辑链条,以及精准可靠的诊断结论。

第三是持续迭代优化阶段:使用优化后的模型对新数据进行推理生成,通过自动化评测系统筛选出评分8分以上的高质量样本加入训练集,进行新一轮SFT训练,形成"训练-评测-筛选-再训练"的良性循环。在整个过程中,我们持续监控多项关键指标,包括模型在测试集上的准确率变化、六大核心症状的分项得分以及罕见病例的识别准确率,确保模型性能得到全方位提升。

二、双重评估体系:确保医学准确性

为了评测答案的准确性,我们构建了一套完整的模型质量评估体系,包含自动化评测和人工审核两个关键环节(上图)。在自动化评测方面,我们开发了基于大模型的裁判系统,该系统采用DeepSeek R1级别的高性能语言模型作为核心评测引擎,按照医生制定的10分制标准对模型输出进行客观评分。这个自动化系统具有三大核心特点:首先,它采用模型驱动评测机制,确保评分过程的准确性和一致性;其次,通过将医生的评估标准转化为结构化的prompt,建立标准化的评分框架;最后,系统支持批量自动化处理,能够快速完成大量样本的评测,提升评估效率。

为补充自动化评测的不足,我们建立了严格的医生修正反馈机制。由内部妇科专家团队对模型输出进行人工审核,特别关注那些处于评分边界或存在争议的边缘案例。专家们会详细检查模型输出的诊断建议,将修正意见反馈到训练数据中,形成"评估-修正-优化"的闭环迭代机制。这个人机协同的评估体系既保证了评测效率,又确保了专业质量,为模型的持续优化提供了可靠保障。

经验教训与挑战

在垂直领域模型训练中,尽管有许多论文和教材提供指导,但实际操作中仍面临诸多挑战。初期,我们过度依赖了人工标注,导致训练集数据积累缓慢、效率低下且成本高昂。后面经过策略的调整,设置了“机器蒸馏→专家审核→训练后评估”的体系后,数据生产效率显著提升。同时,针对思维链推理过程与最终诊断结果脱节的问题,建立严格的逻辑一致性检查机制,确保每个推理步骤都能有效支撑最终结论,避免模型学习出现混乱。

训练数据集过度集中在常见病,导致模型对罕见病识别能力不足。为此,我们采用平衡采样策略,对罕见病例进行针对性采样,确保各类疾病都能获得足够的训练样本。在评测标准方面,人工评测存在主观性强、标准不统一的问题,我们引入另一个大模型作为标准化评测工具,有效保证了评分的客观性和一致性。这些措施共同构成了一个完整的质量保障体系,为专业领域模型的开发提供了可靠支撑。

在医疗大模型的实际应用中,用户的问题往往零散且不完整,需要模型具备多维思考模式。医疗领域的容错率极低,大模型不仅要“说出知道的”,更要对依据不足或不确定的情况给出尽可能专业的诊断。豆蔻妇科大模型以真实临床路径为蓝本,在病例分析过程中不仅精准定位“滴虫性阴道炎”为首要诊断,还同步考虑性传播疾病、宫颈病变等多种鉴别诊断,并基于患者17岁青春期特征纳入“排卵障碍性出血”评估,形成多层级诊断网络。这种“全链路思维”在复杂症状场景中尤为凸显:当患者出现“灰黄色血性白带 + 尿频”复合症状时,模型通过逻辑链条解析,最终生成包含6项检查建议(白带常规、性传播疾病核酸检测等)及分层治疗方案(甲硝唑用药 + 性伴侣同治),从“疾病诊断”到“治疗方案”的临床全链路思考。这一过程对人力和医学专业能力要求极高。

有人说训练大模型,更多的是对数据的清洗、标注,对并模型给出的答案不断进行反馈、纠正。我们不是在教机器“选对答案”,而是在让 AI 学会像医生一样思考,这也是医疗大模型最大的挑战

关于训练平台

这一次,我们选择了钉钉企业专属AI平台,作为我们的训练调优核心工具。钉钉企业专属AI平台是一款一站式企业专属大模型生产平台,专为有调优、后训练需求的企业和开发者量身打造,提供从数据治理、高效训练到灵活部署的完整端到端工具链,全方位助力企业实现大模型的高效落地与优化。

在这一阶段的调优过程中,钉钉企业专属AI平台发挥了至关重要的作用。它覆盖SFT/RFT(GRPO)两种训练方法,提供分布式训练、多Lora部署等加速优化手段,通过页面后台和SDK两种模式,为我们的训练调优提供了强大的技术支持。在钉钉专业技术人员的紧密协同下,我们实现了训练效率的大幅提升,将单次训练时长从26小时缩短至7小时,降幅高达73%。这一显著的优化成果,充分体现了钉钉炼丹炉大模型服务平台在提升训练效率、降低训练成本方面的卓越价值,也彰显了钉钉在大模型训练领域的强大技术实力和专业服务能力。

SFT作为医学大模型构建基础能力的核心环节,其重要性不言而喻。它不仅是模型能否输出符合医学规范安全建议的关键,更是通过高质量思维链数据的训练,使模型得以掌握标准诊断逻辑、实现推理透明化,并广泛覆盖常见临床场景的基础。

展望未来,我们团队将积极探索SFT+RL的协同训练范式,以应对临床推理中的双重挑战。SFT将确保模型对基础医学知识的结构化掌握,培养起“循证思维”;而RL则将在实际应用中锤炼模型的判断力,助其形成“临床直觉”。我们坚信,这种双重训练模式将使AI不仅具备给出符合医学指南建议的能力,更能针对复杂病例进行上下文感知的个性化推理,最终实现从“医学词典”到“会诊专家”的华丽蜕变。让我们共同期待这一天的到来!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
190亿,498.8米!中国未来第八高楼,南京起飞!

190亿,498.8米!中国未来第八高楼,南京起飞!

GA环球建筑
2026-03-30 20:55:17
女子被送养37年,亲生父母来相认,哭到最后要借钱,女子磕头断亲

女子被送养37年,亲生父母来相认,哭到最后要借钱,女子磕头断亲

阿纂看事
2026-03-30 19:09:00
中国移动原董事长杨杰出任要职

中国移动原董事长杨杰出任要职

最通信
2026-03-31 09:37:16
上海政法系统党风廉政建设会议暨警示教育大会召开

上海政法系统党风廉政建设会议暨警示教育大会召开

澎湃新闻
2026-03-31 09:18:26
西班牙宣布对参与美伊战事的军用飞机关闭领空

西班牙宣布对参与美伊战事的军用飞机关闭领空

每日经济新闻
2026-03-30 15:35:32
外交部:中方强烈谴责!

外交部:中方强烈谴责!

极目新闻
2026-03-31 08:47:48
军号被粉底液将军粉丝围攻,编剧汪海林发声:真是无法无天

军号被粉底液将军粉丝围攻,编剧汪海林发声:真是无法无天

往史过眼云烟
2026-03-28 14:32:07
邵佳一:正视与喀麦隆的差距;很感谢队员们都在努力适应我的想法

邵佳一:正视与喀麦隆的差距;很感谢队员们都在努力适应我的想法

懂球帝
2026-03-30 14:38:26
兵败如山倒!国产新能源许是证明了,中国根本不需要二线豪华品牌

兵败如山倒!国产新能源许是证明了,中国根本不需要二线豪华品牌

蓝色海边
2026-03-31 01:41:41
希拉里:我听说中美俄将划开势力范围,美国管西半球,中国管东亚

希拉里:我听说中美俄将划开势力范围,美国管西半球,中国管东亚

点燃好奇心
2026-03-31 07:50:34
市委书记都来撑场!“粤BA”卷出圈

市委书记都来撑场!“粤BA”卷出圈

中国日报网
2026-03-31 11:00:02
英媒终于承认:中东一打仗才发现,中国这三张底牌,谁都学不来!

英媒终于承认:中东一打仗才发现,中国这三张底牌,谁都学不来!

甜到你心坎
2026-03-30 16:35:38
牛,凯尔特人队塔图姆伤愈复出仅11场比赛便荣膺NBA周最佳球员

牛,凯尔特人队塔图姆伤愈复出仅11场比赛便荣膺NBA周最佳球员

好火子
2026-03-31 04:30:52
民企侵吞了多少国有资产?

民企侵吞了多少国有资产?

生命可以承受之轻
2026-03-30 11:30:49
37年,陈锡联提拔一个班长当排长,36年后,班长的职位却远高于他

37年,陈锡联提拔一个班长当排长,36年后,班长的职位却远高于他

棠棣分享
2026-03-30 22:21:36
独家|今日起向中国14城发放十年签,中韩交流 “千万时代”来了?

独家|今日起向中国14城发放十年签,中韩交流 “千万时代”来了?

观察者网
2026-03-30 16:01:05
就诊购药记录被大数据筛查,“买过助眠药”的网友称收到注销驾照短信,交警:系提醒,建议到场核实

就诊购药记录被大数据筛查,“买过助眠药”的网友称收到注销驾照短信,交警:系提醒,建议到场核实

极目新闻
2026-03-30 21:20:09
顶着争议造型首谈退役,全红婵不想装了:承认崩溃才是真的强大

顶着争议造型首谈退役,全红婵不想装了:承认崩溃才是真的强大

科学发掘
2026-03-31 09:43:40
月入50万还不够花?“90后”夜店主管同时和2位富婆恋爱,骗走1700万!46岁女友被PUA到想自杀

月入50万还不够花?“90后”夜店主管同时和2位富婆恋爱,骗走1700万!46岁女友被PUA到想自杀

环球网资讯
2026-03-31 10:23:12
医生:心梗最危险信号,不是嘴唇发紫,而是频繁出现这5种异常

医生:心梗最危险信号,不是嘴唇发紫,而是频繁出现这5种异常

健康科普365
2026-03-28 18:20:07
2026-03-31 11:48:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
131563文章数 862040关注度
往期回顾 全部

健康要闻

干细胞抗衰4大误区,90%的人都中招

头条要闻

牛弹琴:中东新的大麻烦来了 特朗普又盯上了新目标

头条要闻

牛弹琴:中东新的大麻烦来了 特朗普又盯上了新目标

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

丝芭传媒举报鞠婧祎:瞒报收入竟达85%

财经要闻

高薪内推藏陷阱!"招转培"骗局盯上求职者

科技要闻

尚未正式宣发,国行苹果AI半夜"意外闪现"

汽车要闻

16万级最强2.0T 全新一代瑞虎9来了

态度原创

本地
房产
教育
家居
数码

本地新闻

用Color Walk的方式解锁城市春日

房产要闻

14亿!电竞巨头出手,海棠湾“超级运动综合体”来了!

教育要闻

信息社会责任培养② | 理论基石与范式转型:数智时代信息社会责任教育内涵的理解与探究

家居要闻

新婚爱巢 甜蜜情趣拉满

数码要闻

Intel 12纯大核CPU在Z790上点亮!纯AI写BIOS:离跑分只差一步

无障碍浏览 进入关怀版