网易首页 > 网易号 > 正文 申请入驻

基于 BERT 深度语言模型的“智慧政务”文本挖掘应用(二)

0
分享至

*点链接报名第九届“泰迪杯”数据挖掘挑战赛

源丨第八届“泰迪杯”数据挖掘挑战赛获奖作品

往期推荐

基于 BERT 深度语言模型的“智慧政务”文本挖掘应用(一)

1.4 本文的总体框架

本文的总体组织框架如下:

第1章 绪论

介绍“智慧政务”文本挖掘的意义和总体目标;介绍本文主要采用的深度语言模型 BERT 的原理;介绍本文的总体框架与主要创新点。

第2章 基于 BERT 模型的留言自动分类

首先,介绍该任务的目标与实验数据集; 第二,设计基于 BERT 模型的留言自动分类算法; 最后,对比分析 BERT 模型、LSTM 模型、FastText 模型在文本分类上的效果(各类的F1 值与整体的 F-scor e)。

第3章 基于语义相似度与 BERT 命名实体识别的留言热点问题挖掘

首先,介绍该任务的目标与实验数据集; 第二,基于 BERT 模型,将每条留言的语义向量与命名实体2(Named Entity)作为特征表示; 第三,利用基于图的 Affinity Propagatio (AP)聚类算法,实现留言的无监督自动聚类;

(1)原始的 BERT 中文模型,由谷歌公司在海量的中文维基百科数据上训练而成。

(2)命名实体(Named Entity)指文本中的人名、地名、机构名、时间等专有名词。 命名实体识别(NER)是自然语言处理领域的一项重要任务。

最后,对于每个聚类后的话题(问题),综合考虑话题时长、话题包含的留言数量; 每条留言的点赞数与反对数3项指标,设计话题热度评价体系并予以实现。

第4章 多特征融合的答复意见质量评价

首先,介绍该任务的目标与实验数据集; 第二,根据答复意见的长度、答复的及时性、关键词覆盖率、答复与留言的相关性、答复的专业性等 9 项特征指标,综合评价答复意见的质量。 最后,在程序上实现质量评价系统, 并进行效果分析。

第5章 结语 : 总结本文的工作,展望今后的改进方向。

1.5 本文主要的创新之处

(1)将语言智能领域最新的 BERT 深度模型应用于政务文本挖掘。 基于 BERT 的留言分 类模型明显优于前人的LSTM 模型与 Fasttext 模型。

(2)针对以往热点话题聚类模型健壮性(Robustness)差、效果不佳的问题, 提出了 利用命名实体识别(NER)任务增强留言区分度的策略,进而显著改善了留言无监督聚类的效果。

( 3)针对以往无监督聚类任务不知如何预设聚类数量的问题,采用了基于距离的 Affinity Propagation(AP,亲和力传播)的聚类算法。 使得自动确定聚类数量成为可能,节省了大量的试错成本。

(4)从内容丰富度、答复相关度、答复专业性、答复时效性等角度,提出了“9 项合一”答复意见质量的评测方法。 更加全面地反映了政府工作人员反馈群众留言的水平。

二、基于 BERT 模型的留言自动分类

2.1 任务介绍与实验数据集

该任务属于自然语言处理中的文本分类任务。 附件 2 包含了 9210 条群众在网 络平台上发 布的留言,分为城乡建设、环境保护、交通运输、教育文体、劳动和社会保障、商贸旅游、卫生计生共 7 类。 每条留言均包含留言主题、留言详情的 字段。 我们将数据集打乱顺序后,按照 8:1:1 的比例,分别划分训练集、验证集和测试集。 包括 BERT 在内的所有模型,均在相同的训练集、验证集上进行训练、调整超参数,并在相同的测试集上进行测试。

2.2 实验流程

在输入的文本方面,考虑到 BERT 模型允许单一文本的最长长度为 512 个字符,加之有 Sun(2019)[6]等人的相关实验表明,长文本截取前 512 个字符,已能在BERT 模型中取得理想的分类效果,我们拼接了每一条留言的主题文本与详情文本,截取前 512 个字符作为模型的输入。

在超参数设置方面,我们参考 Sun(2019)[6]等人在 BERT 上的文本分类经验,如下设置超参数:学习率 lr=2e-5,衰变因子 ξ=0.95。此外,训练遵循早停(early stopping)原则,当模型的损失在验证集上不再下降,就视为模型在验证集上已经收敛,可以停止训练。这能够有效地避免过拟合(Overfitting)问题,保证模型的泛化能力以及在测试集上的表现。

如 1.3 节所述,对于文本分类任务,BERT 模型提取顶层的符号[CLS]的特征向量 v(768 维),作为整个文本的特征表示,再后接一个 768*n 的全连接层(Fully- connected layer)W(n 为文本类别数),最后通过 softmax 函数归一化,输出一个文本分别属于各个类别c 的概率:

其中softmax函数:

在训练过程中,模型会调整全连接层 W 以及BERT 12 层模型的参数,使得每个文本的正确类别所对应的概率最大化。

图 2 BERT 模型在验证集上的损失变化图

如图 2 所示,当 BERT 模型在训练第 3 轮(epoch)时,在验证集上的损失开始上升。

图 3 BERT 模型在验证集上的 accuracy 随训练轮数的变化情况

图 3 关于 BERT 模型在验证集上的正确率(accuracy)变化情况也表明,在第 2 轮训练时,分类的正确率较前一次明显提升约 0.76%;但第 3 轮训练的accuracy 提升已不明显。因此,综合模型在验证集上的损失与正确率,根据早停(early stopping)原则,我们认为第 2 轮训练结束后的BERT 分类模型已经收敛,可以作为最终模型。

2.3 分类效果及其与其他模型的对比分析

最终收敛的BERT 模型在测试集上测试的结果如表 1 所示:

表 1: BERT 模型在测试集上的各类分类效果

为证明 BERT 模型在留言分类任务上的良好能力,我们将基于字向量的LSTM(Long Short-Term Memory)[7]和基于 Fasttext[8]的 2 个文本分类模型作为基线(baseline)模型,比较 BERT 与基线模型的效果。

LSTM 模型作为循环神经网络(RNN)的变种,是一种基于时间序列的链式结构。它克服了传统 RNN 模型梯度消失的缺陷,成为近年来 NLP 领域应用较广泛的特征提取器。我们使用的 LSTM 模型为加入了dropout 机制的通用改良版本[9]。dropout 机制能有效避免 LSTM 模型的过拟合问题。与基于 BERT 的文本分类模型类似,输入的文本经过 LSTM 隐层后,通过 softmax 归一化层,对 LSTM 隐层传递来的信息进行学习, 并计算出待分类文本属于各类别的概率[10]。

Fasttext 模型是 2017 年Facebook 公司 AI 团队提出的一种快速文本分类的模型。其基本架构如图 4 所示,它包含 3 个部分:input layer 输入层、hidden layer 隐藏层和output layer 输出层。首先;输入层的 x1,x2,…,xN−1,xN 表示一个文本中的N 个 n-gram 向量。其次,隐藏层将向量特征求和取平均,并采用单层神经网络学习。最后在输出层,通过一个线性分类器,输出一个文本分别属于各类别的概率[8]。

图 4 Fasttext 文本分类模型的基本结构

表 2: LSTM 与 Fasttext 模型的超参数设置情况

LSTM 和 Fasttext 模型超参数设置情况如表 2 所示。BERT 模型与上述两个基线模型均使用相同的训练、验证、测试集。

文本分类通用评价指标为查准率(Precision, P)、查全率(Recall, R)与 F1值。如表 3 所示,各模型在测试集上预测了每条留言所属的类别后,可以得到一个分类结果的混淆矩阵:

表 3 分类结果混淆矩阵

已知每一类的混淆矩阵后,该类的查准率、查全率如下两式计算:

F1 值综合了上述两个指标,是它们的调和均值:

如果要评测一个模型在综合的分类能力,可用F-Score 衡量:

其中 n 为类别数量,是第 i 类查准率;是第 i 类的查全率。我们先观察三个模型在测试集上的F1 值,如图 5 所示:

图 5 三个模型在测试集各类上的 F1 值对比

如图 5 所示,在 7 类留言文本中,BERT 在 6 类上的分类 F1 值均取得了最佳效果。仅在交通运输这一类上,Fasttext 的分类效果略优于BERT。

衡量各模型综合分类能力的F-score 分数如表 4 所示:

表 4 各分类模型的 F-score

可以看出,基于 BERT 的留言文本分类算法取得了最佳效果,其 F-score 高出LSTM 模型约 11.6%,也高出广泛应用的文本分类模型 Fasttext 约 1.8%。BERT 深度语言模型高达 92.89%的F-score 证明了它在政务留言文本分类任务上优越性与实用性。

(未完待续)

DIG MORE

LEARN MORE

量化投资

小白21天押金打卡 丨 零基础线上特训营 丨 初阶线上特训营 丨 多因子策略线上特训营 丨 线上分析实战研修班 丨 五一/暑假线下实训营

人工智能

云实习项目(机器学习预测方向)

数据挖掘

线上特训营

认证培训

AQF量化金融分析师 丨 CGFT特许全球金融分析师

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
零下30度续航1500公里!奇瑞全固态电池车来了

零下30度续航1500公里!奇瑞全固态电池车来了

科技头版Pro
2026-01-20 14:34:56
1959年毛主席回韶山,得知祖宗牌位被烧毁后怒斥:“烈士墓和祖宗牌位都是纪念之物!”

1959年毛主席回韶山,得知祖宗牌位被烧毁后怒斥:“烈士墓和祖宗牌位都是纪念之物!”

文史明鉴
2026-01-19 14:15:15
央视曝光毒纸巾,比抹布还脏用多了还致癌,别再整箱往家扛了

央视曝光毒纸巾,比抹布还脏用多了还致癌,别再整箱往家扛了

通文知史
2026-01-20 19:10:03
孤注一掷,高市宣布备战台湾!美国紧急调头,鲁比奥悄悄踩刹车

孤注一掷,高市宣布备战台湾!美国紧急调头,鲁比奥悄悄踩刹车

云上乌托邦
2026-01-21 15:05:29
药师提醒:银杏叶片、血塞通、复方丹参片,心脑血管用药别再选错

药师提醒:银杏叶片、血塞通、复方丹参片,心脑血管用药别再选错

蜉蝣说
2026-01-17 18:36:03
林彪离世后,原256号副机长康庭梓罕见爆料,揭开坠机尘封真相

林彪离世后,原256号副机长康庭梓罕见爆料,揭开坠机尘封真相

磊子讲史
2026-01-06 15:54:18
高雄市长之战:7万人投票结果出炉!郑丽文形势大好,卢秀燕失算

高雄市长之战:7万人投票结果出炉!郑丽文形势大好,卢秀燕失算

优趣纪史记
2026-01-21 14:29:12
这俩演员竟然夫妻!十多年的剧居然没看出他们是夫妻!

这俩演员竟然夫妻!十多年的剧居然没看出他们是夫妻!

手工制作阿歼
2026-01-21 13:21:12
没跟中俄商量,卢卡申科直接跟美国签字!拉夫罗夫对中国掏心窝子

没跟中俄商量,卢卡申科直接跟美国签字!拉夫罗夫对中国掏心窝子

墨兰史书
2026-01-21 20:00:03
金饰克价大幅上涨,突破1500元

金饰克价大幅上涨,突破1500元

第一财经资讯
2026-01-21 12:23:16
周启豪夺冠后想到第一个人,马琳王皓宣布7号上交奖金

周启豪夺冠后想到第一个人,马琳王皓宣布7号上交奖金

余憁搞笑段子
2026-01-21 08:26:20
毛主席为何不参加周总理追悼会?华国锋说出实情:没什么隐瞒的!

毛主席为何不参加周总理追悼会?华国锋说出实情:没什么隐瞒的!

芊芊子吟
2026-01-20 04:45:03
狂野西部!西部第三至第七争夺超激烈 3队胜场数相同 湖人再进前6

狂野西部!西部第三至第七争夺超激烈 3队胜场数相同 湖人再进前6

Emily说个球
2026-01-21 14:18:30
聂卫平遗产2亿!若无遗嘱由现任妻子+3子女平分 两任前妻分文没有

聂卫平遗产2亿!若无遗嘱由现任妻子+3子女平分 两任前妻分文没有

念洲
2026-01-20 10:10:42
日本球迷热议:中国踢越南犹如大人踢小孩,未来恐成亚洲劲敌

日本球迷热议:中国踢越南犹如大人踢小孩,未来恐成亚洲劲敌

隐于山海
2026-01-21 09:39:56
广东气温继续下降,明晨出现过程最低温!高海拔山区有雨夹雪

广东气温继续下降,明晨出现过程最低温!高海拔山区有雨夹雪

南方都市报
2026-01-21 13:38:07
向府治丧现场大批警员戒备!向太向佐露面,遗嘱分配曝光出乎意料

向府治丧现场大批警员戒备!向太向佐露面,遗嘱分配曝光出乎意料

动物奇奇怪怪
2026-01-21 04:29:34
李赛凤趁丈夫出差,和体格壮硕的干儿子发生了亲密接触

李赛凤趁丈夫出差,和体格壮硕的干儿子发生了亲密接触

西楼知趣杂谈
2026-01-20 17:11:19
贵州女孩被关5平米山洞,8年后被父母找到,真凶身份让人意想不到

贵州女孩被关5平米山洞,8年后被父母找到,真凶身份让人意想不到

萧竹轻语
2025-01-14 17:19:32
越媒详细分析U23国足战术:防守极为稳固,进攻潜力不容小觑

越媒详细分析U23国足战术:防守极为稳固,进攻潜力不容小觑

懂球帝
2026-01-20 23:06:21
2026-01-21 20:39:00
点宽DigQuant
点宽DigQuant
从理论到实践的最后一公里
650文章数 24关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

风波中的西贝股权发生变化 新荣记张勇对贾国龙伸援手

头条要闻

风波中的西贝股权发生变化 新荣记张勇对贾国龙伸援手

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

首位捐款的明星 苗圃现身嫣然医院捐款

财经要闻

丹麦打响第一枪 欧洲用资本保卫格陵兰岛

汽车要闻

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

教育
艺术
亲子
时尚
本地

教育要闻

初一成绩稳不住,是心态出问题了

艺术要闻

一百多年前的中国,太雄伟震撼了!

亲子要闻

奶奶想蒸馒头小孙子不同意?7条狗3个窝排成排,狗妈妈挨个检查

新春穿搭新趋势,天猫服饰与百大品牌共同演绎新年吉服美学

本地新闻

云游辽宁|漫步千年小城晨昏,“康”复好心情

无障碍浏览 进入关怀版