网易首页 > 网易号 > 正文 申请入驻

HealthGPT:华工数字孪生人实验室发布主动健康大模型基座

0
分享至

撰写:华南理工大学 陈艺荣

基于主动健康的主动性、预防性、精确性、个性化、共建共享、自律性六大特征[],华南理工大学未来技术学院-广东省数字孪生人重点实验室开源了中文领域生活空间主动健康大模型基座ProactiveHealthGPT,包括:(1) 经过千万规模中文健康对话数据指令微调的生活空间健康大模型扁鹊 (BianQue) ;(2) 经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调的心理健康大模型灵心 (SoulChat),我们期望,生活空间主动健康大模型基座ProactiveHealthGPT可以帮助学术界加速大模型在慢性病、心理咨询等主动健康领域的研究与应用。

图 1 中文领域生活空间主动健康大模型基座ProactiveHealthGPT

模型开源链接如下:

扁鹊 (BianQue):https://github.com/scutcyr/BianQue

灵心 (SoulChat):https://github.com/scutcyr/SoulChat

一、引言

当前,在“大数据+大算力+强算法”的加持下,大规模语言模型 (Large Language Model, LLM)通过“大规模预训练+微调”的模式应用在很多不同领域,在国内外发展迅猛,建立了一种人工智能应用的新范式,极大改变人类社会的生活和生产模式。然而,大模型脱胎于大数据、大算力,对资源要求很大,特别地,由于训练语料有限以及任务的个性化特点,大模型在健康领域的效果仍然有限,例如:问询能力、共情的倾听能力等。我们认为,未来,结合对话数据与院外多生理数据的大模型将有望进一步提升在生活空间的主动健康服务能力,这其中又可以分为:生理健康和心理健康。为了提升大模型的主动健康服务能力,现阶段我们基于现有的医疗对话数据以及自主积累的健康对话数据,经过多轮数据清洗与数据挖掘,构建了千万级别的健康对话大数据、百万级别的心理健康对话大数据,并且通过全参数指令微调构建了初步具备多轮问询与健康建议能力的中文领域生活空间健康大模型扁鹊 (BianQue),以及初步具备共情倾听能力的中文领域心理健康大模型灵心 (SoulChat)。BianQue与SoulChat作为基础模型,期待与医疗界、学术界、相关企业等科研力量携手,共同推进模型的专业能力与创新应用,愿景是让每个人都有自己的家庭医生与心灵守护者。

二、中文领域生活空间健康对话大模型 (BianQue)

我们经过调研发现,在健康领域,用户通常不会在一轮交互当中清晰地描述自己的问题,而当前常见的开源医疗问答模型(例如:ChatDoctor、本草(HuaTuo,原名华驼 )、DoctorGLM、MedicalGPT-zh)侧重于解决单轮用户描述的问题,而忽略了“用户描述可能存在不足”的情况。哪怕是当前大火的ChatGPT也会存在类似的问题:如果用户不强制通过文本描述让ChatGPT采用一问一答的形式,ChatGPT也偏向于针对用户的描述,迅速给出它认为合适的建议和方案。然而,实际的医生与用户交谈往往会存在“医生根据用户当前的描述进行持续多轮的询问”。并且医生在最后根据用户提供的信息综合给出建议,如下图所示。我们把医生不断问询的过程定义为询问链(CoQ, Chain of Questioning),当模型处于询问链阶段,其下一个问题通常由对话上下文历史决定。

图 2 真实世界下的医生-病人交谈方式(红色部分为医生的问询过程,绿色部分为医生的建议过程)

为此,我们调研了当前开源的医疗问答数据集MedDialog-CN、IMCS-V2、CHIP-MDCFNPC、MedDG、cMedQA2、Chinese-medical-dialogue-data等,分析其中的单轮/多轮特性以及医生问询特性,结合实验室长期自建的生活空间健康对话大数据,构建了千万级别规模的扁鹊健康大数据BianQueCorpus。对话数据通过“病人:xxx\n医生:xxx\n病人:xxx\n医生:”的形式统一为一种指令格式,如下图所示。

图 3 扁鹊健康大数据BianQueCorpus样例

基于扁鹊健康大数据BianQueCorpus,我们选择了ChatGLM-6B[]作为初始化模型,经过全量参数的指令微调训练得到了新一代BianQue。以下是扁鹊模型在huatuo26M-testdatasets测试集[](注意:扁鹊模型没有经过Huatuo-26M数据集的微调)的部分效果展示图:

样例1:宝宝特别喜欢打嗝,是什么原因啊,该怎么预防啊

图 4 样例1

样例2:我外婆近来身体越来越差了,带她去医院检查,医生说她得了肾静脉血栓,我们全家都很担心,医生开了很多注射用低分子量肝素钙,我想问它的药理毒理?

图 5 样例2

以下是模型的多轮问询能力的测试:

样例3:多轮问询与建议

图 6 样例3

本项目于2023年04月22日发布了扁鹊-1.0版本[],现在开源的是新一代扁鹊-2.0版本的模型,扁鹊-1.0版本侧重于问诊能力,扁鹊-2.0版本侧重于建议能力,更详细的评测结果会在我们后续发布的论文当中公布。我们将迭代优化BianQue基础模型,持续加强问询与建议的双重能力。未来,我们将进一步接入院外全时空多生理数据,提升模型在生活空间的健康服务范围与能力。

三、中文领域心理健康对话大模型灵心 (SoulChat)

我们调研了当前常见的心理咨询平台,发现,用户寻求在线心理帮助时,通常需要进行较长篇幅地进行自我描述,然后提供帮助的心理咨询师同样地提供长篇幅的回复(如图 7),缺失了一个渐进式的倾诉过程。但是,在实际的心理咨询过程当中,用户和心理咨询师之间会存在多轮次的沟通过程,在该过程当中,心理咨询师会引导用户进行倾诉,并且提供共情,例如:“非常棒”、“我理解你的感受”、“当然可以”等等(如图 8)。

图 7 单轮的长文本的心理咨询示例

图 8 多轮的、共情的心理咨询示例

考虑到当前十分欠缺多轮共情对话数据集,我们一方面,自建了超过15万规模的单轮长文本心理咨询指令与答案(SoulChatCorpus-single_turn),回答数量超过50万(指令数是当前的常见的心理咨询数据集PsyQA[]的6.7倍),以及约100万轮次的多轮回答数据(SoulChatCorpus-multi_turn)。特别地,我们在预实验中发现,纯单轮长本文驱动的心理咨询模型会产生让用户感到厌烦的文本长度,而且不具备引导用户倾诉的能力,纯多轮心理咨询对话数据驱动的心理咨询模型则弱化了模型的建议能力,因此,我们混合SoulChatCorpus-single_turn和SoulChatCorpus-multi_turn构造成超过120万个样本的单轮与多轮混合的共情对话数据集SoulChatCorpus。所有数据采用“用户:xxx\n心理咨询师:xxx\n用户:xxx\n心理咨询师:”的形式统一为一种指令格式。

与扁鹊-2.0类似,我们选择了ChatGLM-6B[]作为初始化模型,进行了全量参数的指令微调,旨在提升模型的共情能力、引导用户倾诉能力以及提供合理建议的能力。以下是灵心模型SoulChat作为高校数字辅导员的一些测试样例(受限于截图的关系,只展示对话的若干轮):失恋、宿舍关系、期末考试、科研压力。

样例1:失恋

样例2:期末考试

样例3:科研压力

特别地,模型的详细测试报告将在后续公布的论文公开。

四、总结与未来展望

我们开源了中文领域生活空间主动健康大模型基座ProactiveHealthGPT,包括:生活空间健康大模型扁鹊 (BianQue) 和心理健康大模型灵心 (SoulChat)。这将有助于主动健康领域研究人员进一步借助大模型探索主动健康系列服务。我们当前开源的扁鹊 (BianQue) 模型具备了初步的主动健康服务能力,灵心 (SoulChat)模型具备了初步的共情能力与倾听能力。当前版本的模型,仍然处于探索阶段,我们期待与医疗、心理等各交叉领域的研究人员、机构一起合作,加强专业知识的融合,探索面向未来、面向主动健康的大模型,打通全场景数据壁垒,建立覆盖生活空间各场景的的主动健康服务。

合作邮箱:eeyirongchen@mail.scut.edu.cn、xfxing@scut.edu.cn

五、致谢

本项目由华南理工大学未来技术学院广东省数字孪生人重点实验室发起,得到了华南理工大学信息网络工程研究中心、电子与信息学院等学院部门的支撑,同时致谢广东省妇幼保健院、广州市妇女儿童医疗中心、中山大学附属第三医院、合肥综合性国家科学中心人工智能研究院等合作单位。

六、参考文献

[[1]] Healthy China:Proactive Health: An Imperative to Achieve the Goal of Healthy China. China CDC Weekly.

[[1]] ChatGLM-6B. https://huggingface.co/THUDM/chatglm-6b

[[1]] https://huggingface.co/datasets/FreedomIntelligence/huatuo26M-testdatasets

[[1]] 扁鹊-1.0. https://huggingface.co/scutcyr/BianQue-1.0

[[1]] PsyQA. https://github.com/thu-coai/PsyQA

[[1]] ChatGLM-6B. https://huggingface.co/THUDM/chatglm-6b

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视怒批,人民日报点名封杀,这5位目无法纪的大网红,彻底凉凉

央视怒批,人民日报点名封杀,这5位目无法纪的大网红,彻底凉凉

一娱三分地
2025-12-04 17:00:33
10 倍收入差距下的选择,张水华,选对了吗?看看2026多少收入

10 倍收入差距下的选择,张水华,选对了吗?看看2026多少收入

情感大头说说
2026-01-18 00:49:36
记者:弗洛伦蒂诺希望穆里尼奥重回皇马执教!

记者:弗洛伦蒂诺希望穆里尼奥重回皇马执教!

氧气是个地铁
2026-01-17 12:38:21
国乒4项全军覆没!男双决赛2-3被逆转,韩国组合斩获球星赛冠军

国乒4项全军覆没!男双决赛2-3被逆转,韩国组合斩获球星赛冠军

全言作品
2026-01-18 02:08:11
俄国真豪爽! 3 亿抛售北极战略地块,中国想买,挪威为何阻拦?

俄国真豪爽! 3 亿抛售北极战略地块,中国想买,挪威为何阻拦?

百科密码
2026-01-16 15:53:58
江苏四地政府“一把手”同日当选

江苏四地政府“一把手”同日当选

王姐懒人家常菜
2026-01-18 01:02:57
全球第一!车长近5米4,媲美埃尔法,预售仅31.98万起,还配激光雷达

全球第一!车长近5米4,媲美埃尔法,预售仅31.98万起,还配激光雷达

隔壁说车老王
2026-01-15 05:07:46
41岁男子河边钓鱼喊技师服务,全程一丝不苟,网友:一个字,雅!

41岁男子河边钓鱼喊技师服务,全程一丝不苟,网友:一个字,雅!

农村情感故事
2026-01-15 18:52:11
国羽2胜1负!女双王牌轰2-1,决赛对手确定,王祉怡再战世界第1?

国羽2胜1负!女双王牌轰2-1,决赛对手确定,王祉怡再战世界第1?

刘姚尧的文字城堡
2026-01-17 17:40:33
关于“挨过饿”的问题,本人就草率使用这张图片公开道歉

关于“挨过饿”的问题,本人就草率使用这张图片公开道歉

读鬼笔记
2026-01-15 20:03:51
南华寺百岁高僧:人死后基本都投身畜生道,活人进入轮回永不超生

南华寺百岁高僧:人死后基本都投身畜生道,活人进入轮回永不超生

纸鸢奇谭
2025-01-17 14:30:03
舒梅切尔:这么久了第一次看曼市德比真正快乐,谢谢你卡里克

舒梅切尔:这么久了第一次看曼市德比真正快乐,谢谢你卡里克

懂球帝
2026-01-17 22:49:00
炒猪肉时,瘦肉总是柴,干硬嚼不动,教你一招,像豆腐一样嫩滑,没牙的老人都能吃

炒猪肉时,瘦肉总是柴,干硬嚼不动,教你一招,像豆腐一样嫩滑,没牙的老人都能吃

美食格物
2026-01-16 18:47:36
曼联2-0曼城核心结论:弃将重生+战术爆破!卡里克征服曼联球迷?

曼联2-0曼城核心结论:弃将重生+战术爆破!卡里克征服曼联球迷?

桥看世界
2026-01-17 23:43:06
爆小冷!王欣瑜连丢两盘惨遭横扫止步16强,身体太累吗?

爆小冷!王欣瑜连丢两盘惨遭横扫止步16强,身体太累吗?

搏击江湖
2026-01-17 17:59:23
重庆:又一大三甲原党委书记,被查...

重庆:又一大三甲原党委书记,被查...

AI智能时代
2026-01-16 19:41:00
田朴珺演不下去了

田朴珺演不下去了

蓝钻故事
2026-01-17 10:54:44
华宝基金惹怒基民!挂“纳斯达克”头衔,却重仓亏损的蔚来

华宝基金惹怒基民!挂“纳斯达克”头衔,却重仓亏损的蔚来

深蓝财经
2026-01-17 18:49:15
最新!天津预警!高速封闭!-15℃+中雪今夜继续!下周真冷!

最新!天津预警!高速封闭!-15℃+中雪今夜继续!下周真冷!

天津族
2026-01-17 22:04:53
康熙驾崩前才知道:九子夺嫡最狠的不是雍正,而是伪装最深的他

康熙驾崩前才知道:九子夺嫡最狠的不是雍正,而是伪装最深的他

妙知
2026-01-17 11:38:56
2026-01-18 03:15:00
今日名家
今日名家
博采众家之长 纪录历史古今
1961文章数 429关注度
往期回顾 全部

科技要闻

两枚火箭发射失利,具体原因正排查

头条要闻

李昊发挥神勇 U23国足点球战胜乌兹别克斯坦晋级四强

头条要闻

李昊发挥神勇 U23国足点球战胜乌兹别克斯坦晋级四强

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

马年春晚首次联排场外细节!

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

手机
亲子
数码
本地
公开课

手机要闻

OPPO、vivo再曝Pro Max机型,与超大杯芯片不同

亲子要闻

欢迎小小的新人类-卜卜

数码要闻

ATK RS7 Air磁轴键盘开启预约,435元起配置亮眼

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版