网易首页 > 网易号 > 正文 申请入驻

HealthGPT:华工数字孪生人实验室发布主动健康大模型基座

0
分享至

撰写:华南理工大学 陈艺荣

基于主动健康的主动性、预防性、精确性、个性化、共建共享、自律性六大特征[],华南理工大学未来技术学院-广东省数字孪生人重点实验室开源了中文领域生活空间主动健康大模型基座ProactiveHealthGPT,包括:(1) 经过千万规模中文健康对话数据指令微调的生活空间健康大模型扁鹊 (BianQue) ;(2) 经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调的心理健康大模型灵心 (SoulChat),我们期望,生活空间主动健康大模型基座ProactiveHealthGPT可以帮助学术界加速大模型在慢性病、心理咨询等主动健康领域的研究与应用。

图 1 中文领域生活空间主动健康大模型基座ProactiveHealthGPT

模型开源链接如下:

扁鹊 (BianQue):https://github.com/scutcyr/BianQue

灵心 (SoulChat):https://github.com/scutcyr/SoulChat

一、引言

当前,在“大数据+大算力+强算法”的加持下,大规模语言模型 (Large Language Model, LLM)通过“大规模预训练+微调”的模式应用在很多不同领域,在国内外发展迅猛,建立了一种人工智能应用的新范式,极大改变人类社会的生活和生产模式。然而,大模型脱胎于大数据、大算力,对资源要求很大,特别地,由于训练语料有限以及任务的个性化特点,大模型在健康领域的效果仍然有限,例如:问询能力、共情的倾听能力等。我们认为,未来,结合对话数据与院外多生理数据的大模型将有望进一步提升在生活空间的主动健康服务能力,这其中又可以分为:生理健康和心理健康。为了提升大模型的主动健康服务能力,现阶段我们基于现有的医疗对话数据以及自主积累的健康对话数据,经过多轮数据清洗与数据挖掘,构建了千万级别的健康对话大数据、百万级别的心理健康对话大数据,并且通过全参数指令微调构建了初步具备多轮问询与健康建议能力的中文领域生活空间健康大模型扁鹊 (BianQue),以及初步具备共情倾听能力的中文领域心理健康大模型灵心 (SoulChat)。BianQue与SoulChat作为基础模型,期待与医疗界、学术界、相关企业等科研力量携手,共同推进模型的专业能力与创新应用,愿景是让每个人都有自己的家庭医生与心灵守护者。

二、中文领域生活空间健康对话大模型 (BianQue)

我们经过调研发现,在健康领域,用户通常不会在一轮交互当中清晰地描述自己的问题,而当前常见的开源医疗问答模型(例如:ChatDoctor、本草(HuaTuo,原名华驼 )、DoctorGLM、MedicalGPT-zh)侧重于解决单轮用户描述的问题,而忽略了“用户描述可能存在不足”的情况。哪怕是当前大火的ChatGPT也会存在类似的问题:如果用户不强制通过文本描述让ChatGPT采用一问一答的形式,ChatGPT也偏向于针对用户的描述,迅速给出它认为合适的建议和方案。然而,实际的医生与用户交谈往往会存在“医生根据用户当前的描述进行持续多轮的询问”。并且医生在最后根据用户提供的信息综合给出建议,如下图所示。我们把医生不断问询的过程定义为询问链(CoQ, Chain of Questioning),当模型处于询问链阶段,其下一个问题通常由对话上下文历史决定。

图 2 真实世界下的医生-病人交谈方式(红色部分为医生的问询过程,绿色部分为医生的建议过程)

为此,我们调研了当前开源的医疗问答数据集MedDialog-CN、IMCS-V2、CHIP-MDCFNPC、MedDG、cMedQA2、Chinese-medical-dialogue-data等,分析其中的单轮/多轮特性以及医生问询特性,结合实验室长期自建的生活空间健康对话大数据,构建了千万级别规模的扁鹊健康大数据BianQueCorpus。对话数据通过“病人:xxx\n医生:xxx\n病人:xxx\n医生:”的形式统一为一种指令格式,如下图所示。

图 3 扁鹊健康大数据BianQueCorpus样例

基于扁鹊健康大数据BianQueCorpus,我们选择了ChatGLM-6B[]作为初始化模型,经过全量参数的指令微调训练得到了新一代BianQue。以下是扁鹊模型在huatuo26M-testdatasets测试集[](注意:扁鹊模型没有经过Huatuo-26M数据集的微调)的部分效果展示图:

样例1:宝宝特别喜欢打嗝,是什么原因啊,该怎么预防啊

图 4 样例1

样例2:我外婆近来身体越来越差了,带她去医院检查,医生说她得了肾静脉血栓,我们全家都很担心,医生开了很多注射用低分子量肝素钙,我想问它的药理毒理?

图 5 样例2

以下是模型的多轮问询能力的测试:

样例3:多轮问询与建议

图 6 样例3

本项目于2023年04月22日发布了扁鹊-1.0版本[],现在开源的是新一代扁鹊-2.0版本的模型,扁鹊-1.0版本侧重于问诊能力,扁鹊-2.0版本侧重于建议能力,更详细的评测结果会在我们后续发布的论文当中公布。我们将迭代优化BianQue基础模型,持续加强问询与建议的双重能力。未来,我们将进一步接入院外全时空多生理数据,提升模型在生活空间的健康服务范围与能力。

三、中文领域心理健康对话大模型灵心 (SoulChat)

我们调研了当前常见的心理咨询平台,发现,用户寻求在线心理帮助时,通常需要进行较长篇幅地进行自我描述,然后提供帮助的心理咨询师同样地提供长篇幅的回复(如图 7),缺失了一个渐进式的倾诉过程。但是,在实际的心理咨询过程当中,用户和心理咨询师之间会存在多轮次的沟通过程,在该过程当中,心理咨询师会引导用户进行倾诉,并且提供共情,例如:“非常棒”、“我理解你的感受”、“当然可以”等等(如图 8)。

图 7 单轮的长文本的心理咨询示例

图 8 多轮的、共情的心理咨询示例

考虑到当前十分欠缺多轮共情对话数据集,我们一方面,自建了超过15万规模的单轮长文本心理咨询指令与答案(SoulChatCorpus-single_turn),回答数量超过50万(指令数是当前的常见的心理咨询数据集PsyQA[]的6.7倍),以及约100万轮次的多轮回答数据(SoulChatCorpus-multi_turn)。特别地,我们在预实验中发现,纯单轮长本文驱动的心理咨询模型会产生让用户感到厌烦的文本长度,而且不具备引导用户倾诉的能力,纯多轮心理咨询对话数据驱动的心理咨询模型则弱化了模型的建议能力,因此,我们混合SoulChatCorpus-single_turn和SoulChatCorpus-multi_turn构造成超过120万个样本的单轮与多轮混合的共情对话数据集SoulChatCorpus。所有数据采用“用户:xxx\n心理咨询师:xxx\n用户:xxx\n心理咨询师:”的形式统一为一种指令格式。

与扁鹊-2.0类似,我们选择了ChatGLM-6B[]作为初始化模型,进行了全量参数的指令微调,旨在提升模型的共情能力、引导用户倾诉能力以及提供合理建议的能力。以下是灵心模型SoulChat作为高校数字辅导员的一些测试样例(受限于截图的关系,只展示对话的若干轮):失恋、宿舍关系、期末考试、科研压力。

样例1:失恋

样例2:期末考试

样例3:科研压力

特别地,模型的详细测试报告将在后续公布的论文公开。

四、总结与未来展望

我们开源了中文领域生活空间主动健康大模型基座ProactiveHealthGPT,包括:生活空间健康大模型扁鹊 (BianQue) 和心理健康大模型灵心 (SoulChat)。这将有助于主动健康领域研究人员进一步借助大模型探索主动健康系列服务。我们当前开源的扁鹊 (BianQue) 模型具备了初步的主动健康服务能力,灵心 (SoulChat)模型具备了初步的共情能力与倾听能力。当前版本的模型,仍然处于探索阶段,我们期待与医疗、心理等各交叉领域的研究人员、机构一起合作,加强专业知识的融合,探索面向未来、面向主动健康的大模型,打通全场景数据壁垒,建立覆盖生活空间各场景的的主动健康服务。

合作邮箱:eeyirongchen@mail.scut.edu.cn、xfxing@scut.edu.cn

五、致谢

本项目由华南理工大学未来技术学院广东省数字孪生人重点实验室发起,得到了华南理工大学信息网络工程研究中心、电子与信息学院等学院部门的支撑,同时致谢广东省妇幼保健院、广州市妇女儿童医疗中心、中山大学附属第三医院、合肥综合性国家科学中心人工智能研究院等合作单位。

六、参考文献

[[1]] Healthy China:Proactive Health: An Imperative to Achieve the Goal of Healthy China. China CDC Weekly.

[[1]] ChatGLM-6B. https://huggingface.co/THUDM/chatglm-6b

[[1]] https://huggingface.co/datasets/FreedomIntelligence/huatuo26M-testdatasets

[[1]] 扁鹊-1.0. https://huggingface.co/scutcyr/BianQue-1.0

[[1]] PsyQA. https://github.com/thu-coai/PsyQA

[[1]] ChatGLM-6B. https://huggingface.co/THUDM/chatglm-6b

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
偷往帽子倒螺蛳粉汤的女子已经社死,正面照遭网友Ai修复后疯传

偷往帽子倒螺蛳粉汤的女子已经社死,正面照遭网友Ai修复后疯传

映射生活的身影
2026-03-08 02:42:07
没想到,2026两会最火的提案不是医疗和就业,而是靳东的这一建议

没想到,2026两会最火的提案不是医疗和就业,而是靳东的这一建议

天天热点见闻
2026-03-07 10:11:29
全网催开门!上海一小吃店明天开门营业,老板:5毛钱的水煎包、3元的胡辣汤,新年不涨价

全网催开门!上海一小吃店明天开门营业,老板:5毛钱的水煎包、3元的胡辣汤,新年不涨价

极目新闻
2026-03-07 18:58:33
请注意:10日美以将进入伊朗空域全面轰炸,福特号已前往波斯湾

请注意:10日美以将进入伊朗空域全面轰炸,福特号已前往波斯湾

邵旭峰域
2026-03-07 17:50:03
春节刚过半个月,52岁辛柏青高调传出喜讯,朱媛媛终于可以放心了

春节刚过半个月,52岁辛柏青高调传出喜讯,朱媛媛终于可以放心了

阿纂看事
2026-03-06 18:17:59
局长不给我晋升,我没争辩,散会后悄悄断了他每年 60 万的专项资金

局长不给我晋升,我没争辩,散会后悄悄断了他每年 60 万的专项资金

爱下厨的阿酾
2026-03-07 19:18:30
OpenClaw养虾很火,但我劝普通人先别折腾

OpenClaw养虾很火,但我劝普通人先别折腾

董指导聊科技
2026-03-07 19:48:43
为何要增加高中学位?因为不改现状,五五分流根本撑不住

为何要增加高中学位?因为不改现状,五五分流根本撑不住

老特有话说
2026-03-07 16:16:46
国乒世乒赛6人名单敲定!樊振东顺利入选,陈幸同拿到直通资格

国乒世乒赛6人名单敲定!樊振东顺利入选,陈幸同拿到直通资格

云景侃记
2026-03-07 19:17:10
直击AI短剧|演员会被淘汰吗?叶璇:AI会令好演员更值钱

直击AI短剧|演员会被淘汰吗?叶璇:AI会令好演员更值钱

扬子晚报
2026-03-07 19:18:24
瓜帅:进第三球时我一直在说对不起,是为我们踢得好而道歉

瓜帅:进第三球时我一直在说对不起,是为我们踢得好而道歉

懂球帝
2026-03-08 06:56:50
黄仁勋:智能体AI成行业拐点,OpenClaw三周超越Linux

黄仁勋:智能体AI成行业拐点,OpenClaw三周超越Linux

环球网资讯
2026-03-07 11:23:08
《逐玉》ai换脸僵硬出戏,连田曦薇也带不动,原演员被换原因离谱

《逐玉》ai换脸僵硬出戏,连田曦薇也带不动,原演员被换原因离谱

剧芒芒
2026-03-07 14:00:04
豪车降价83.9%跌破20万,中产心中的白月光不再香

豪车降价83.9%跌破20万,中产心中的白月光不再香

最新声音
2026-03-06 14:25:33
长城汽车董事长魏建军就海报抄袭路虎致歉:审核把关不严,愿承担此次事件带来的全部法律与经济责任

长城汽车董事长魏建军就海报抄袭路虎致歉:审核把关不严,愿承担此次事件带来的全部法律与经济责任

极目新闻
2026-03-06 20:03:45
吴京:可能没有以后了

吴京:可能没有以后了

视觉志
2026-03-05 10:38:20
特朗普“鼓励”进攻,伊朗严重警告,库尔德武装会否入局?

特朗普“鼓励”进攻,伊朗严重警告,库尔德武装会否入局?

上观新闻
2026-03-07 19:33:22
太惨了!34岁字节程序员被裁当场崩溃痛哭,房贷2.6万月支出近4万

太惨了!34岁字节程序员被裁当场崩溃痛哭,房贷2.6万月支出近4万

乌娱子酱
2026-03-05 16:16:25
16岁邝兆镭中超首秀冲上热搜 赛后婉拒采访 董路自豪:我的干儿子

16岁邝兆镭中超首秀冲上热搜 赛后婉拒采访 董路自豪:我的干儿子

我爱英超
2026-03-08 06:33:51
法国艺术圈地震!芭蕾女神、哲学少女,都被钢琴家送给了爱泼斯坦!

法国艺术圈地震!芭蕾女神、哲学少女,都被钢琴家送给了爱泼斯坦!

新欧洲
2026-02-18 19:44:34
2026-03-08 08:52:49
今日名家
今日名家
博采众家之长 纪录历史古今
2042文章数 431关注度
往期回顾 全部

科技要闻

OpenClaw最大的推手是闲鱼和小红书

头条要闻

牛弹琴:中东战火还在继续 三个戏剧性变化出现了

头条要闻

牛弹琴:中东战火还在继续 三个戏剧性变化出现了

体育要闻

塔图姆298天走完这段路 只用27分钟征服这座城

娱乐要闻

汪小菲曝亲妈猛料,张兰公开财产分配

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

数码
家居
亲子
健康
时尚

数码要闻

跌破3000元指日可待,苹果Macbook Neo会卖爆吗?

家居要闻

暖棕撞色 轻法奶油风

亲子要闻

抓住长个儿好时机,让孩子蹿一蹿!

转头就晕的耳石症,能开车上班吗?

2026春夏一定要拥有的6只包,好看又百搭

无障碍浏览 进入关怀版