网易首页 > 网易号 > 正文 申请入驻

HealthGPT:华工数字孪生人实验室发布主动健康大模型基座

0
分享至

撰写:华南理工大学 陈艺荣

基于主动健康的主动性、预防性、精确性、个性化、共建共享、自律性六大特征[],华南理工大学未来技术学院-广东省数字孪生人重点实验室开源了中文领域生活空间主动健康大模型基座ProactiveHealthGPT,包括:(1) 经过千万规模中文健康对话数据指令微调的生活空间健康大模型扁鹊 (BianQue) ;(2) 经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调的心理健康大模型灵心 (SoulChat),我们期望,生活空间主动健康大模型基座ProactiveHealthGPT可以帮助学术界加速大模型在慢性病、心理咨询等主动健康领域的研究与应用。

图 1 中文领域生活空间主动健康大模型基座ProactiveHealthGPT

模型开源链接如下:

扁鹊 (BianQue):https://github.com/scutcyr/BianQue

灵心 (SoulChat):https://github.com/scutcyr/SoulChat

一、引言

当前,在“大数据+大算力+强算法”的加持下,大规模语言模型 (Large Language Model, LLM)通过“大规模预训练+微调”的模式应用在很多不同领域,在国内外发展迅猛,建立了一种人工智能应用的新范式,极大改变人类社会的生活和生产模式。然而,大模型脱胎于大数据、大算力,对资源要求很大,特别地,由于训练语料有限以及任务的个性化特点,大模型在健康领域的效果仍然有限,例如:问询能力、共情的倾听能力等。我们认为,未来,结合对话数据与院外多生理数据的大模型将有望进一步提升在生活空间的主动健康服务能力,这其中又可以分为:生理健康和心理健康。为了提升大模型的主动健康服务能力,现阶段我们基于现有的医疗对话数据以及自主积累的健康对话数据,经过多轮数据清洗与数据挖掘,构建了千万级别的健康对话大数据、百万级别的心理健康对话大数据,并且通过全参数指令微调构建了初步具备多轮问询与健康建议能力的中文领域生活空间健康大模型扁鹊 (BianQue),以及初步具备共情倾听能力的中文领域心理健康大模型灵心 (SoulChat)。BianQue与SoulChat作为基础模型,期待与医疗界、学术界、相关企业等科研力量携手,共同推进模型的专业能力与创新应用,愿景是让每个人都有自己的家庭医生与心灵守护者。

二、中文领域生活空间健康对话大模型 (BianQue)

我们经过调研发现,在健康领域,用户通常不会在一轮交互当中清晰地描述自己的问题,而当前常见的开源医疗问答模型(例如:ChatDoctor、本草(HuaTuo,原名华驼 )、DoctorGLM、MedicalGPT-zh)侧重于解决单轮用户描述的问题,而忽略了“用户描述可能存在不足”的情况。哪怕是当前大火的ChatGPT也会存在类似的问题:如果用户不强制通过文本描述让ChatGPT采用一问一答的形式,ChatGPT也偏向于针对用户的描述,迅速给出它认为合适的建议和方案。然而,实际的医生与用户交谈往往会存在“医生根据用户当前的描述进行持续多轮的询问”。并且医生在最后根据用户提供的信息综合给出建议,如下图所示。我们把医生不断问询的过程定义为询问链(CoQ, Chain of Questioning),当模型处于询问链阶段,其下一个问题通常由对话上下文历史决定。

图 2 真实世界下的医生-病人交谈方式(红色部分为医生的问询过程,绿色部分为医生的建议过程)

为此,我们调研了当前开源的医疗问答数据集MedDialog-CN、IMCS-V2、CHIP-MDCFNPC、MedDG、cMedQA2、Chinese-medical-dialogue-data等,分析其中的单轮/多轮特性以及医生问询特性,结合实验室长期自建的生活空间健康对话大数据,构建了千万级别规模的扁鹊健康大数据BianQueCorpus。对话数据通过“病人:xxx\n医生:xxx\n病人:xxx\n医生:”的形式统一为一种指令格式,如下图所示。

图 3 扁鹊健康大数据BianQueCorpus样例

基于扁鹊健康大数据BianQueCorpus,我们选择了ChatGLM-6B[]作为初始化模型,经过全量参数的指令微调训练得到了新一代BianQue。以下是扁鹊模型在huatuo26M-testdatasets测试集[](注意:扁鹊模型没有经过Huatuo-26M数据集的微调)的部分效果展示图:

样例1:宝宝特别喜欢打嗝,是什么原因啊,该怎么预防啊

图 4 样例1

样例2:我外婆近来身体越来越差了,带她去医院检查,医生说她得了肾静脉血栓,我们全家都很担心,医生开了很多注射用低分子量肝素钙,我想问它的药理毒理?

图 5 样例2

以下是模型的多轮问询能力的测试:

样例3:多轮问询与建议

图 6 样例3

本项目于2023年04月22日发布了扁鹊-1.0版本[],现在开源的是新一代扁鹊-2.0版本的模型,扁鹊-1.0版本侧重于问诊能力,扁鹊-2.0版本侧重于建议能力,更详细的评测结果会在我们后续发布的论文当中公布。我们将迭代优化BianQue基础模型,持续加强问询与建议的双重能力。未来,我们将进一步接入院外全时空多生理数据,提升模型在生活空间的健康服务范围与能力。

三、中文领域心理健康对话大模型灵心 (SoulChat)

我们调研了当前常见的心理咨询平台,发现,用户寻求在线心理帮助时,通常需要进行较长篇幅地进行自我描述,然后提供帮助的心理咨询师同样地提供长篇幅的回复(如图 7),缺失了一个渐进式的倾诉过程。但是,在实际的心理咨询过程当中,用户和心理咨询师之间会存在多轮次的沟通过程,在该过程当中,心理咨询师会引导用户进行倾诉,并且提供共情,例如:“非常棒”、“我理解你的感受”、“当然可以”等等(如图 8)。

图 7 单轮的长文本的心理咨询示例

图 8 多轮的、共情的心理咨询示例

考虑到当前十分欠缺多轮共情对话数据集,我们一方面,自建了超过15万规模的单轮长文本心理咨询指令与答案(SoulChatCorpus-single_turn),回答数量超过50万(指令数是当前的常见的心理咨询数据集PsyQA[]的6.7倍),以及约100万轮次的多轮回答数据(SoulChatCorpus-multi_turn)。特别地,我们在预实验中发现,纯单轮长本文驱动的心理咨询模型会产生让用户感到厌烦的文本长度,而且不具备引导用户倾诉的能力,纯多轮心理咨询对话数据驱动的心理咨询模型则弱化了模型的建议能力,因此,我们混合SoulChatCorpus-single_turn和SoulChatCorpus-multi_turn构造成超过120万个样本的单轮与多轮混合的共情对话数据集SoulChatCorpus。所有数据采用“用户:xxx\n心理咨询师:xxx\n用户:xxx\n心理咨询师:”的形式统一为一种指令格式。

与扁鹊-2.0类似,我们选择了ChatGLM-6B[]作为初始化模型,进行了全量参数的指令微调,旨在提升模型的共情能力、引导用户倾诉能力以及提供合理建议的能力。以下是灵心模型SoulChat作为高校数字辅导员的一些测试样例(受限于截图的关系,只展示对话的若干轮):失恋、宿舍关系、期末考试、科研压力。

样例1:失恋

样例2:期末考试

样例3:科研压力

特别地,模型的详细测试报告将在后续公布的论文公开。

四、总结与未来展望

我们开源了中文领域生活空间主动健康大模型基座ProactiveHealthGPT,包括:生活空间健康大模型扁鹊 (BianQue) 和心理健康大模型灵心 (SoulChat)。这将有助于主动健康领域研究人员进一步借助大模型探索主动健康系列服务。我们当前开源的扁鹊 (BianQue) 模型具备了初步的主动健康服务能力,灵心 (SoulChat)模型具备了初步的共情能力与倾听能力。当前版本的模型,仍然处于探索阶段,我们期待与医疗、心理等各交叉领域的研究人员、机构一起合作,加强专业知识的融合,探索面向未来、面向主动健康的大模型,打通全场景数据壁垒,建立覆盖生活空间各场景的的主动健康服务。

合作邮箱:eeyirongchen@mail.scut.edu.cn、xfxing@scut.edu.cn

五、致谢

本项目由华南理工大学未来技术学院广东省数字孪生人重点实验室发起,得到了华南理工大学信息网络工程研究中心、电子与信息学院等学院部门的支撑,同时致谢广东省妇幼保健院、广州市妇女儿童医疗中心、中山大学附属第三医院、合肥综合性国家科学中心人工智能研究院等合作单位。

六、参考文献

[[1]] Healthy China:Proactive Health: An Imperative to Achieve the Goal of Healthy China. China CDC Weekly.

[[1]] ChatGLM-6B. https://huggingface.co/THUDM/chatglm-6b

[[1]] https://huggingface.co/datasets/FreedomIntelligence/huatuo26M-testdatasets

[[1]] 扁鹊-1.0. https://huggingface.co/scutcyr/BianQue-1.0

[[1]] PsyQA. https://github.com/thu-coai/PsyQA

[[1]] ChatGLM-6B. https://huggingface.co/THUDM/chatglm-6b

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“人造猪肉”来了!南京年产50吨工厂建成,养猪户真的要团灭了?

“人造猪肉”来了!南京年产50吨工厂建成,养猪户真的要团灭了?

今朝牛马
2026-01-17 19:20:18
两战狂轰49分12记三分球!联盟第1!汤神梦回巅峰,基德把话挑明

两战狂轰49分12记三分球!联盟第1!汤神梦回巅峰,基德把话挑明

世界体育圈
2026-01-18 10:18:02
贺娇龙遗体已火化!家中直播画面曝光,收藏很多工艺品品味很好!

贺娇龙遗体已火化!家中直播画面曝光,收藏很多工艺品品味很好!

阿纂看事
2026-01-17 10:35:47
呆呆全家关门走人了!警察成排围着看守,很多地方拉起了警戒线!

呆呆全家关门走人了!警察成排围着看守,很多地方拉起了警戒线!

好贤观史记
2026-01-13 18:08:50
江苏暗藏两颗“万亿炸弹”?当年若没拆,长三角格局或已改写!

江苏暗藏两颗“万亿炸弹”?当年若没拆,长三角格局或已改写!

趣味萌宠的日常
2026-01-17 11:28:21
烟酒成瘾只是冰山一角!74岁聂卫平患疗状态曝光,放纵的代价太大

烟酒成瘾只是冰山一角!74岁聂卫平患疗状态曝光,放纵的代价太大

翰飞观事
2026-01-17 21:18:24
谁摧毁了美国国力?现实比想象残酷:美国正亲手废掉下一代

谁摧毁了美国国力?现实比想象残酷:美国正亲手废掉下一代

远方风林
2026-01-16 19:52:45
惊天反转!北京嫣然天使医院房东让李亚鹏公开道歉,网友已捐1000万

惊天反转!北京嫣然天使医院房东让李亚鹏公开道歉,网友已捐1000万

八星人
2026-01-18 10:14:30
突发!特朗普下达最后通牒,英国果断“宣战”,战争已无法避免?

突发!特朗普下达最后通牒,英国果断“宣战”,战争已无法避免?

潋滟晴方DAY
2026-01-18 14:13:11
湖人惨败开拓者!斯玛特+詹姆斯空砍45分,蒂米惊喜,防守纯送!

湖人惨败开拓者!斯玛特+詹姆斯空砍45分,蒂米惊喜,防守纯送!

篮球资讯达人
2026-01-18 13:40:10
还不如不穿!张靓颖“零透光”裙惊爆热搜,性感曲线令全场血脉偾张

还不如不穿!张靓颖“零透光”裙惊爆热搜,性感曲线令全场血脉偾张

八星人
2026-01-18 11:15:20
风暴中的携程总部,大楼形如“高速列车”,扎哈设计!

风暴中的携程总部,大楼形如“高速列车”,扎哈设计!

GA环球建筑
2026-01-15 17:32:25
兰蔻陷抄袭争议,“撞脸”范冰冰美妆海报,网友:“都是我姐玩剩下的”。

兰蔻陷抄袭争议,“撞脸”范冰冰美妆海报,网友:“都是我姐玩剩下的”。

LOGO研究所
2026-01-18 10:14:51
美媒:中国不可怕,可怕的是中国只用10万头猪,就搞定了治沙难题

美媒:中国不可怕,可怕的是中国只用10万头猪,就搞定了治沙难题

乐天闲聊
2026-01-16 11:23:05
张水华辞职后首战重马,2小时30分48秒获国际第六名,本人赛后回应:爱好有,工作也要有;赛前直播曾坦言因伤状态欠佳

张水华辞职后首战重马,2小时30分48秒获国际第六名,本人赛后回应:爱好有,工作也要有;赛前直播曾坦言因伤状态欠佳

扬子晚报
2026-01-18 14:02:00
股民站稳扶好!证监会降温,国常会出大利好,下周要迎核弹级别行情?

股民站稳扶好!证监会降温,国常会出大利好,下周要迎核弹级别行情?

股市皆大事
2026-01-18 10:54:19
61岁刘嘉玲首次揭丁克原因:不是梁朝伟不要孩子,而是我不敢赌

61岁刘嘉玲首次揭丁克原因:不是梁朝伟不要孩子,而是我不敢赌

陈意小可爱
2026-01-16 12:35:04
41岁林丹近照曝光!拥有上亿资产,全家定居国外,儿子国籍引争议

41岁林丹近照曝光!拥有上亿资产,全家定居国外,儿子国籍引争议

情感大头说说
2026-01-18 08:08:56
满屏荷尔蒙!Netflix这一脱,又赢麻了

满屏荷尔蒙!Netflix这一脱,又赢麻了

来看美剧
2026-01-16 20:05:37
估值3.5亿的廊坊银行股权被拍卖偿债,持股人刚被法院悬赏

估值3.5亿的廊坊银行股权被拍卖偿债,持股人刚被法院悬赏

湘财Plus
2026-01-17 13:26:17
2026-01-18 14:55:00
今日名家
今日名家
博采众家之长 纪录历史古今
1961文章数 429关注度
往期回顾 全部

科技要闻

AI大事!马斯克:索赔9300亿元

头条要闻

一天两枚火箭发射失利 中国航天科技集团发文回应

头条要闻

一天两枚火箭发射失利 中国航天科技集团发文回应

体育要闻

越南媒体:李昊将成为越南U23面临的巨大挑战

娱乐要闻

43岁贾玲退出春晚、解散公司

财经要闻

BBA,势败如山倒

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

家居
本地
亲子
公开课
军事航空

家居要闻

岁月柔情 现代品质轻奢

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

亲子要闻

沉浸式遛娃,最近的昂萨梅朵越来越可爱啦

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊拉克国防部:已全面接管阿萨德空军基地

无障碍浏览 进入关怀版