网易首页 > 网易号 > 正文 申请入驻

COLING 2022 | 基于token-pair关系建模解决重叠和嵌套事件抽取的One-stage框架

0
分享至

本研究设计了一种简单有效的标签系统将重叠和嵌套事件抽取转换成了词对关系分类的任务,触发词、论元以及其间的关系可以并行地同时被预测出来,达到非常快的抽取速度,在3个重叠或嵌套的事件抽取数据集上的实验结果达到了SOTA。

论文链接: https://arxiv.org/pdf/2209.02693.pdf 代码链接: https://github.com/Cao-Hu/OneEE

一、动机介绍1.1 重叠和嵌套事件抽取

事件抽取(Event Extraction,EE)是自然语言处理领域的一项非常基本的任务,在社区长久以来一直得到广泛的研究。EE的目标是从文本中抽取事件触发词和相关的论元。传统的事件抽取关注于普通的事件,认为触发词和论元之间没有重叠,忽视了复杂的事件模式,即重叠事件和嵌套事件:

  • Flat Event: 触发词和论元之间没有重叠;

  • Overlapped Event: 多个事件的共享重叠的触发词或论元;

  • Nested Event: 一个事件的论元是另外一个事件。

图1:普通事件(a),重叠事件(b),嵌套事件(c)

以图1为例,(b)中Investment事件和Share Transfer事件共享了”acquired”这一重叠触发词,以及”Citic Securities”,”Guangzhou Securities”是重叠的论元。(c)中Gene Expression事件是Positive Regulation的Theme论元。

1.2 重叠和嵌套事件抽取方法

截止当前,重叠和嵌套事件抽取领域的主流方法大致有三类:

  • 基于Pipleline的方法;

  • 基于多轮QA的方法;

  • 基于级联网络的方法。

这些方法都是Multi-stage的,用多个连续的阶段分别抽取事件触发词和论元。其中,基于级联网络的方法CasEE是之前的SOTA,CasEE依次预测事件类型、抽取触发词、抽取论元。这些Multi-stage的方法后面阶段的预测依赖于前面的预测结果,难以避免地带来了误差传播的问题。

本研究关注于构建一种高效的EE框架,能够在一个阶段同时解决重叠和嵌套的事件抽取。

1.3 本文的方法

传统的事件抽取使用序列标注的方法无法解决重叠和嵌套的问题,现有的工作使用指针网络分别识别触发词或论元的头尾token;我们在针对重叠和嵌套事件的共性进行深入挖掘后,发现可以通过token-pair之间的关系分类进行统一建模。触发词和论元可以通过token-head和token-tail之间联系,而论元的角色可以通过触发词和论元之间的关系建模,例如图1(b)中触发词”acquired”和论元”Guangzhou Securities”表达了object关系。

根据上述观察,本文将Overlapped and Nested EE任务转化成一种词对的关系分类任务,通过这种标签体系能够在一个阶段内抽取出事件类型、触发词、论元以及论元的角色,在此基础提出了一种新的EE框架(A One-Stage Framework for Fast Overlapping and Nested Event Extraction),名为OneEE。具体地,该框架的目标是将EE转变为识别出触发词和论元中所蕴含的两种类型的关系,即:

  • Span关系(S-T, S-A);

  • Role关系(R-*);

具体的词对关系分类示例如图2所示。其中S-T表示两个词是某个触发词的头部和尾部,S-A表示两个词是某个论元的头部和尾部(如”Citic”->”Securities”,Argument),R-表示该词作为触发词的事件中,另一个词扮演了角色类型为的论元(如“acquired”->“Citic Securities”,Subject)。

图2:关系分类示例

二、模型框架

图3给出了OneEE整体的框架结构。其整体可分为三层:输入编码层,自适应事件融合曾以及最后的联合解码层。其中解码层是本论文的核心。

图3:模型整体结构 2.1 编码层

给定一个输入句子,将每一个词转换成多个word piece,并将他们输入预训练的BERT模块中。进过BERT计算后,使用最大池化操作将这些word piece表示重新聚合成词表示。

2.2 自适应事件融合层

由于该框架的目标是预测目标事件类型的词对之间的关系,因此生成高质量的事件感知的表示十分重要。因此,为了融合编码器提供的事件信息和上下文信息,本论文设计了一个自适应事件融合层。其中注意力模块用于建模不同事件类型之间的交互并获得全局事件信息,两个门融合模块用于将全局事件信息和目标事件类型信息与上下文化的词表示融合。

2.3 解码层

在自适应事件融合层之后,获得了事件感知的词表示,用于预测词对之间的Span关系和Role关系,对于每个词对 , ),计算一个分数来衡量它们对于关系 和 的可能性。为了使预测层对于词与词之间的相对距离敏感,论文还引入了旋转式的相对位置编码,设计了距离感知的打分函数。损失函数部分本文使用了Circle Loss的变体,将交叉熵损失扩展到多标签分类问题,并缓解了类别不均衡的问题。

在解码阶段,该模型通过将事件类型Embedding并行地插入自适应事件融合层来抽取所有事件。如图 4 所示,一旦该模型在一个阶段预测了某种事件类型的所有标签,整个解码过程可以概括为四个步骤:首先,获得触发词或论元的开始和结束索引;其次,获得触发词和论元的span;第三,根据 R-* 关系匹配触发词和论元;最后,将事件类型分配给该事件结构。

图4:解码示例

三、实验结果

本文在3个重叠和嵌套的事件抽取数据集上(包括英文和中文)进行了实验,分别是:

  • FewFC,一个中文金融事件抽取数据集,标注了10种事件类型和18种论元,有约22%的句子包含重叠事件;

  • Genia 11和Genia 13,两个英文医学领域数据集,有约18%的句子包含嵌套事件,Genia11 标注了9种事件类型和10种论元,而Genia13的数字是13和7。

表1-2分别展示了上述任务和数据集上与基线模型对比的结果。实验结果表明,本文提出的基于词对关系分类的One-Stage方法,可以同时解决重叠和嵌套的事件抽取,并在3个数据集上的效果都优于之前的工作,并且推理速度也是最快的。

表1:FewFC, 重叠事件抽取

表2:Genia 11和Genia 13, 嵌套事件抽取

图5:重叠事件与嵌套事件抽取效果对比

图6:触发词和论元不同距离论元角色抽取效果对比

通过进一步的消融实验,我们探索了不同参数和部件对整体框架的影响。此外我们模型在相对较小的参数情况下,其训练和推理速度超过了多个非连续实体识别模型。

表6:消融实验

表 7:模型参数与效率对比

四、总结

在本文中,我们提出了一种基于词-词关系识别的新型单阶段框架,以同时解决重叠和嵌套的事件抽取。词对之间的关系被预定义为触发词或论元内的词-词关系以及跨越触发词-论元对。此外,我们提出了一个有效的模型,该模型由一个用于融合目标事件表示的自适应事件融合层和一个用于联合识别各种关系的距离感知的预测层组成。实验结果表明,我们提出的模型在三个数据集上实现了新的 SoTA 结果,并且比 SoTA 模型更快。

公众号:【 社媒派SMP】 作者:曹虎

Illustration by Delesign Graphics from IconScout

-The End-

扫码观看!

本周上新!

关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美媒:印度外交政策将发生重大转变?

美媒:印度外交政策将发生重大转变?

参考消息
2024-06-19 16:29:20
冯提莫直播时又走光,已经是半个月里第三次,真的是不小心的吗?

冯提莫直播时又走光,已经是半个月里第三次,真的是不小心的吗?

新游戏大妹子
2024-06-18 12:41:34
高温干旱“烤”验下的“晋南粮仓”:有村民为节水上网学喷灌,农户盼“引黄”工程早日通水

高温干旱“烤”验下的“晋南粮仓”:有村民为节水上网学喷灌,农户盼“引黄”工程早日通水

极目新闻
2024-06-19 17:22:41
打假人踢到铁板了!马光远谈“数学天才”姜萍,名校应该反思了!

打假人踢到铁板了!马光远谈“数学天才”姜萍,名校应该反思了!

辉哥说动漫
2024-06-20 01:01:05
罕见省部级高干在中央党报公开表达“不满”:困惑很久,不吐不快

罕见省部级高干在中央党报公开表达“不满”:困惑很久,不吐不快

华人星光
2024-06-07 19:20:09
余则成孙女余琦对“外交豁免停车权”致歉,网友:不真诚应该开除

余则成孙女余琦对“外交豁免停车权”致歉,网友:不真诚应该开除

飞哥AI矩阵
2024-06-19 11:10:24
本周重大事件:国家税务总局否认“倒查30年”,地方政府为补充财政“花式”创收

本周重大事件:国家税务总局否认“倒查30年”,地方政府为补充财政“花式”创收

一周财经观察
2024-06-19 17:27:20
脱钩完成?中国已被“取代”降为美国进口国第三,拜登预言说..

脱钩完成?中国已被“取代”降为美国进口国第三,拜登预言说..

华人星光
2024-06-19 17:33:07
扒叔大爆料:陈晓陈妍希离婚的瓜?陈晓赵丽颖复合?罗云熙好拽啊?汪小菲张兰打压中S?

扒叔大爆料:陈晓陈妍希离婚的瓜?陈晓赵丽颖复合?罗云熙好拽啊?汪小菲张兰打压中S?

房产衫哥
2024-06-19 23:24:45
换过3张床,我终于知道1.5×2米的床与1.8×2米的床,究竟哪个更好

换过3张床,我终于知道1.5×2米的床与1.8×2米的床,究竟哪个更好

阿离家居
2024-06-16 08:22:16
唉!又有一家大企业成功“结业”了!

唉!又有一家大企业成功“结业”了!

翻开历史和现实
2024-06-10 18:54:33
奚美娟瘦得让人心疼!穿修身裙都撑不起来,满脸皱纹难掩优雅气质

奚美娟瘦得让人心疼!穿修身裙都撑不起来,满脸皱纹难掩优雅气质

时髦范
2024-06-19 16:49:26
我国又一项技术被卡脖子?日本撤走空调压缩机产线,国产谁能替代

我国又一项技术被卡脖子?日本撤走空调压缩机产线,国产谁能替代

飞花文史
2024-06-18 15:59:26
40岁剩女要40万彩礼,让男人养她还要长得帅,年轻美貌是她的资本

40岁剩女要40万彩礼,让男人养她还要长得帅,年轻美貌是她的资本

小米拉
2024-06-06 11:28:46
无视台当局禁令,大陆想要的,蒋万安给的很干脆,两岸共同谋统一

无视台当局禁令,大陆想要的,蒋万安给的很干脆,两岸共同谋统一

朗威游戏说
2024-06-20 01:12:00
老年人免费乘车将取消?专家给出建议,年轻人:噩梦终于结束!

老年人免费乘车将取消?专家给出建议,年轻人:噩梦终于结束!

通文知史
2024-04-22 17:10:03
格兰特-希尔:我听从了所谓专家的意见,这毁了我的生涯

格兰特-希尔:我听从了所谓专家的意见,这毁了我的生涯

懂球帝
2024-06-19 13:38:10
姜萍事件就是彻头彻尾的炒作,始作俑者以后必遭到最无情的反噬!

姜萍事件就是彻头彻尾的炒作,始作俑者以后必遭到最无情的反噬!

爆角追踪
2024-06-18 17:24:56
漏判!大连英博进球确定有效,中国足协和稀泥惹众怒!

漏判!大连英博进球确定有效,中国足协和稀泥惹众怒!

从小就是大连球迷
2024-06-19 20:21:19
周琦发文让人落泪,四字表态意味深长,朱总摊牌:大外援驰援广东

周琦发文让人落泪,四字表态意味深长,朱总摊牌:大外援驰援广东

林子说事
2024-06-19 19:40:36
2024-06-20 05:38:44
将门创投
将门创投
加速及投资技术驱动型初创企业
1831文章数 585关注度
往期回顾 全部

科技要闻

618观察:谁为高强度的低价竞争买单?

头条要闻

欧洲杯:苏格兰1-1瑞士 沙奇里无解世界波

头条要闻

欧洲杯:苏格兰1-1瑞士 沙奇里无解世界波

体育要闻

欧洲杯最大的混子,非他莫属

娱乐要闻

黄一鸣“杀疯了” 直播间卖大葱养孩子

财经要闻

深化科创板改革 证监会发布八条措施

汽车要闻

双肾格栅变化大/内饰焕新 新一代宝马X3官图发布

态度原创

艺术
游戏
亲子
本地
军事航空

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

一个国产二次元角色,竟让老外集体亢奋沉沦,并语无伦次了起来?

亲子要闻

宝宝看到对面小朋友们在打篮球也跟着模仿动作有模有样。

本地新闻

中式沙拉宇宙的天花板,它必须有姓名

军事要闻

以色列涉嫌在加沙使用重型炸弹 或多次违反战争法

无障碍浏览 进入关怀版