网易首页 > 网易号 > 正文 申请入驻

HealthGPT:华工数字孪生人实验室发布主动健康大模型基座

0
分享至

撰写:华南理工大学 陈艺荣

基于主动健康的主动性、预防性、精确性、个性化、共建共享、自律性六大特征[],华南理工大学未来技术学院-广东省数字孪生人重点实验室开源了中文领域生活空间主动健康大模型基座ProactiveHealthGPT,包括:(1) 经过千万规模中文健康对话数据指令微调的生活空间健康大模型扁鹊 (BianQue) ;(2) 经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调的心理健康大模型灵心 (SoulChat),我们期望,生活空间主动健康大模型基座ProactiveHealthGPT可以帮助学术界加速大模型在慢性病、心理咨询等主动健康领域的研究与应用。

图 1 中文领域生活空间主动健康大模型基座ProactiveHealthGPT

模型开源链接如下:

扁鹊 (BianQue):https://github.com/scutcyr/BianQue

灵心 (SoulChat):https://github.com/scutcyr/SoulChat

一、引言

当前,在“大数据+大算力+强算法”的加持下,大规模语言模型 (Large Language Model, LLM)通过“大规模预训练+微调”的模式应用在很多不同领域,在国内外发展迅猛,建立了一种人工智能应用的新范式,极大改变人类社会的生活和生产模式。然而,大模型脱胎于大数据、大算力,对资源要求很大,特别地,由于训练语料有限以及任务的个性化特点,大模型在健康领域的效果仍然有限,例如:问询能力、共情的倾听能力等。我们认为,未来,结合对话数据与院外多生理数据的大模型将有望进一步提升在生活空间的主动健康服务能力,这其中又可以分为:生理健康和心理健康。为了提升大模型的主动健康服务能力,现阶段我们基于现有的医疗对话数据以及自主积累的健康对话数据,经过多轮数据清洗与数据挖掘,构建了千万级别的健康对话大数据、百万级别的心理健康对话大数据,并且通过全参数指令微调构建了初步具备多轮问询与健康建议能力的中文领域生活空间健康大模型扁鹊 (BianQue),以及初步具备共情倾听能力的中文领域心理健康大模型灵心 (SoulChat)。BianQue与SoulChat作为基础模型,期待与医疗界、学术界、相关企业等科研力量携手,共同推进模型的专业能力与创新应用,愿景是让每个人都有自己的家庭医生与心灵守护者。

二、中文领域生活空间健康对话大模型 (BianQue)

我们经过调研发现,在健康领域,用户通常不会在一轮交互当中清晰地描述自己的问题,而当前常见的开源医疗问答模型(例如:ChatDoctor、本草(HuaTuo,原名华驼 )、DoctorGLM、MedicalGPT-zh)侧重于解决单轮用户描述的问题,而忽略了“用户描述可能存在不足”的情况。哪怕是当前大火的ChatGPT也会存在类似的问题:如果用户不强制通过文本描述让ChatGPT采用一问一答的形式,ChatGPT也偏向于针对用户的描述,迅速给出它认为合适的建议和方案。然而,实际的医生与用户交谈往往会存在“医生根据用户当前的描述进行持续多轮的询问”。并且医生在最后根据用户提供的信息综合给出建议,如下图所示。我们把医生不断问询的过程定义为询问链(CoQ, Chain of Questioning),当模型处于询问链阶段,其下一个问题通常由对话上下文历史决定。

图 2 真实世界下的医生-病人交谈方式(红色部分为医生的问询过程,绿色部分为医生的建议过程)

为此,我们调研了当前开源的医疗问答数据集MedDialog-CN、IMCS-V2、CHIP-MDCFNPC、MedDG、cMedQA2、Chinese-medical-dialogue-data等,分析其中的单轮/多轮特性以及医生问询特性,结合实验室长期自建的生活空间健康对话大数据,构建了千万级别规模的扁鹊健康大数据BianQueCorpus。对话数据通过“病人:xxx\n医生:xxx\n病人:xxx\n医生:”的形式统一为一种指令格式,如下图所示。

图 3 扁鹊健康大数据BianQueCorpus样例

基于扁鹊健康大数据BianQueCorpus,我们选择了ChatGLM-6B[]作为初始化模型,经过全量参数的指令微调训练得到了新一代BianQue。以下是扁鹊模型在huatuo26M-testdatasets测试集[](注意:扁鹊模型没有经过Huatuo-26M数据集的微调)的部分效果展示图:

样例1:宝宝特别喜欢打嗝,是什么原因啊,该怎么预防啊

图 4 样例1

样例2:我外婆近来身体越来越差了,带她去医院检查,医生说她得了肾静脉血栓,我们全家都很担心,医生开了很多注射用低分子量肝素钙,我想问它的药理毒理?

图 5 样例2

以下是模型的多轮问询能力的测试:

样例3:多轮问询与建议

图 6 样例3

本项目于2023年04月22日发布了扁鹊-1.0版本[],现在开源的是新一代扁鹊-2.0版本的模型,扁鹊-1.0版本侧重于问诊能力,扁鹊-2.0版本侧重于建议能力,更详细的评测结果会在我们后续发布的论文当中公布。我们将迭代优化BianQue基础模型,持续加强问询与建议的双重能力。未来,我们将进一步接入院外全时空多生理数据,提升模型在生活空间的健康服务范围与能力。

三、中文领域心理健康对话大模型灵心 (SoulChat)

我们调研了当前常见的心理咨询平台,发现,用户寻求在线心理帮助时,通常需要进行较长篇幅地进行自我描述,然后提供帮助的心理咨询师同样地提供长篇幅的回复(如图 7),缺失了一个渐进式的倾诉过程。但是,在实际的心理咨询过程当中,用户和心理咨询师之间会存在多轮次的沟通过程,在该过程当中,心理咨询师会引导用户进行倾诉,并且提供共情,例如:“非常棒”、“我理解你的感受”、“当然可以”等等(如图 8)。

图 7 单轮的长文本的心理咨询示例

图 8 多轮的、共情的心理咨询示例

考虑到当前十分欠缺多轮共情对话数据集,我们一方面,自建了超过15万规模的单轮长文本心理咨询指令与答案(SoulChatCorpus-single_turn),回答数量超过50万(指令数是当前的常见的心理咨询数据集PsyQA[]的6.7倍),以及约100万轮次的多轮回答数据(SoulChatCorpus-multi_turn)。特别地,我们在预实验中发现,纯单轮长本文驱动的心理咨询模型会产生让用户感到厌烦的文本长度,而且不具备引导用户倾诉的能力,纯多轮心理咨询对话数据驱动的心理咨询模型则弱化了模型的建议能力,因此,我们混合SoulChatCorpus-single_turn和SoulChatCorpus-multi_turn构造成超过120万个样本的单轮与多轮混合的共情对话数据集SoulChatCorpus。所有数据采用“用户:xxx\n心理咨询师:xxx\n用户:xxx\n心理咨询师:”的形式统一为一种指令格式。

与扁鹊-2.0类似,我们选择了ChatGLM-6B[]作为初始化模型,进行了全量参数的指令微调,旨在提升模型的共情能力、引导用户倾诉能力以及提供合理建议的能力。以下是灵心模型SoulChat作为高校数字辅导员的一些测试样例(受限于截图的关系,只展示对话的若干轮):失恋、宿舍关系、期末考试、科研压力。

样例1:失恋

样例2:期末考试

样例3:科研压力

特别地,模型的详细测试报告将在后续公布的论文公开。

四、总结与未来展望

我们开源了中文领域生活空间主动健康大模型基座ProactiveHealthGPT,包括:生活空间健康大模型扁鹊 (BianQue) 和心理健康大模型灵心 (SoulChat)。这将有助于主动健康领域研究人员进一步借助大模型探索主动健康系列服务。我们当前开源的扁鹊 (BianQue) 模型具备了初步的主动健康服务能力,灵心 (SoulChat)模型具备了初步的共情能力与倾听能力。当前版本的模型,仍然处于探索阶段,我们期待与医疗、心理等各交叉领域的研究人员、机构一起合作,加强专业知识的融合,探索面向未来、面向主动健康的大模型,打通全场景数据壁垒,建立覆盖生活空间各场景的的主动健康服务。

合作邮箱:eeyirongchen@mail.scut.edu.cn、xfxing@scut.edu.cn

五、致谢

本项目由华南理工大学未来技术学院广东省数字孪生人重点实验室发起,得到了华南理工大学信息网络工程研究中心、电子与信息学院等学院部门的支撑,同时致谢广东省妇幼保健院、广州市妇女儿童医疗中心、中山大学附属第三医院、合肥综合性国家科学中心人工智能研究院等合作单位。

六、参考文献

[[1]] Healthy China:Proactive Health: An Imperative to Achieve the Goal of Healthy China. China CDC Weekly.

[[1]] ChatGLM-6B. https://huggingface.co/THUDM/chatglm-6b

[[1]] https://huggingface.co/datasets/FreedomIntelligence/huatuo26M-testdatasets

[[1]] 扁鹊-1.0. https://huggingface.co/scutcyr/BianQue-1.0

[[1]] PsyQA. https://github.com/thu-coai/PsyQA

[[1]] ChatGLM-6B. https://huggingface.co/THUDM/chatglm-6b

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“暴力抗法”半月后,拼多多发生重大高管调整

“暴力抗法”半月后,拼多多发生重大高管调整

一见财经
2026-04-23 08:04:06
骑士、猛龙更新明日伤病;哈登危险!骑士明日比赛胜率不足50%!

骑士、猛龙更新明日伤病;哈登危险!骑士明日比赛胜率不足50%!

林子说事
2026-04-23 18:54:27
上海地铁站内,这个“高素质”习惯爆发冲突!上海已叫停多年!很多人改不过来……

上海地铁站内,这个“高素质”习惯爆发冲突!上海已叫停多年!很多人改不过来……

环球网资讯
2026-04-23 11:11:44
已确认系淫秽物品!家长赶紧自查

已确认系淫秽物品!家长赶紧自查

深圳晚报
2026-04-22 22:45:45
中纪委2026严查新方向,这6类岗位首当其冲

中纪委2026严查新方向,这6类岗位首当其冲

细说职场
2026-04-23 09:15:43
美股深夜冰火两重天,软件股重挫,甲骨文跌超6%,半导体逆势爆发,热门中概股大跌

美股深夜冰火两重天,软件股重挫,甲骨文跌超6%,半导体逆势爆发,热门中概股大跌

21世纪经济报道
2026-04-23 22:32:48
张雪机车被围堵了,同行不修它的车,直播修车成唯一出路,这事儿真不是演的

张雪机车被围堵了,同行不修它的车,直播修车成唯一出路,这事儿真不是演的

陈意小可爱
2026-04-24 00:03:15
11天抹平9分!曼城登顶背后:瓜帅十年布局与阿森纳心理崩塌!

11天抹平9分!曼城登顶背后:瓜帅十年布局与阿森纳心理崩塌!

落夜足球
2026-04-23 11:04:02
4200万人社保断缴刷屏全网,真相没那么简单

4200万人社保断缴刷屏全网,真相没那么简单

流苏晚晴
2026-04-23 19:53:55
国内油价大幅下调!4月24日柴油汽油价格,5月油价调整将迎大逆转

国内油价大幅下调!4月24日柴油汽油价格,5月油价调整将迎大逆转

有料财经
2026-04-23 22:23:19
每体:皇马准备动用一切手段,阻止维克托-穆尼奥斯加盟巴萨

每体:皇马准备动用一切手段,阻止维克托-穆尼奥斯加盟巴萨

懂球帝
2026-04-23 09:06:06
情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

新欧洲
2026-04-21 19:37:05
华晨宇抚仙湖演唱会紧急延期,20层楼舞台拆了,但他操作让我哭

华晨宇抚仙湖演唱会紧急延期,20层楼舞台拆了,但他操作让我哭

一个小豹子
2026-04-23 14:11:52
直播现场怒骂CEO五分钟!提词器都没这段,高管脸都绿了

直播现场怒骂CEO五分钟!提词器都没这段,高管脸都绿了

不写散文诗
2026-04-23 19:08:22
第三方平台:今日深圳宝安机场、珠海金湾机场出现大面积延误,航班延误比例超90%

第三方平台:今日深圳宝安机场、珠海金湾机场出现大面积延误,航班延误比例超90%

澎湃新闻
2026-04-23 17:31:10
广东一路边摊炒锅里趴着大老鼠,路人:不知道老鼠呆了多久,摊位上没有人

广东一路边摊炒锅里趴着大老鼠,路人:不知道老鼠呆了多久,摊位上没有人

大象新闻
2026-04-23 17:49:17
忘恩负义的菲律宾指望中国出手,人民日报通报全国,用新措辞回应

忘恩负义的菲律宾指望中国出手,人民日报通报全国,用新措辞回应

春序娱乐
2026-04-24 00:16:14
昔日夫妻变仇人!陈妍希申请强制执行,陈晓的沉默,彻底撕碎体面

昔日夫妻变仇人!陈妍希申请强制执行,陈晓的沉默,彻底撕碎体面

夸大其词的说
2026-04-23 01:29:02
SpaceX为美国太空军发射最后一颗GPS-III卫星:全新激光通信

SpaceX为美国太空军发射最后一颗GPS-III卫星:全新激光通信

快科技
2026-04-22 12:23:36
女大学生受邀去泰国泼水节被转卖电诈园,家属交20万赎金:园区初步同意放人但不给位置;广州警方已立案,教育部门介入

女大学生受邀去泰国泼水节被转卖电诈园,家属交20万赎金:园区初步同意放人但不给位置;广州警方已立案,教育部门介入

大风新闻
2026-04-23 16:28:15
2026-04-24 01:04:49
今日名家
今日名家
博采众家之长 纪录历史古今
2114文章数 433关注度
往期回顾 全部

科技要闻

马斯克喊出"史上最大产品",但量产难预测

头条要闻

媒体:海军宣传片出现的"新兵何剑" 传递了巨大信息量

头条要闻

媒体:海军宣传片出现的"新兵何剑" 传递了巨大信息量

体育要闻

给文班剃头的马刺DJ,成为NBA最佳第六人

娱乐要闻

王大陆因涉黑讨债被判 女友也一同获刑

财经要闻

普华永道赔偿10亿 恒大股东见到"回头钱"

汽车要闻

令人惊艳的奇瑞车 风云A9可不只是样子货

态度原创

家居
房产
数码
健康
手机

家居要闻

浪漫协奏 法式风格

房产要闻

三亚安居房,突然官宣!

数码要闻

799元!小米推出米家无线吸尘器4C:170AW大吸力、75分钟长续航

干细胞如何让烧烫伤皮肤"再生"?

手机要闻

vivo X500 Pro Max被曝光:2nm工艺+5GHz,2K直屏九月发!

无障碍浏览 进入关怀版